美國職棒大聯盟(Major League Baseball, MLB)將網路可視性提昇到全新的層次。Jeremy Schulman 兩年前加入大聯盟,擔任網路自動化(network automation)的首席軟體工程師,他說:「在我加入以前,大聯盟沒有現代化的網路管理系統,所有網管工作皆仰賴複雜的手動設定」。 舊有網管系統,包括以SNMP(簡易網路管理通訊協定) 技術為主的網路監控軟體,與網路供應商的各種管理工具,讓大聯盟可以收集交換器及路由器送來的資料,以及追蹤用的指標,比方網路頻寬用量。但是這些東拼西湊的工具各自單打獨鬥,無法提供全面、宏觀的可視性。


舊有的網路監控工具,已無法迎合美國職棒大聯盟豪華的服務陣容,包括影像串流、賽事串流、以及在資料中心、棒球場與雲端平台上執行的各種人工智慧運算工作。

文/Ann Bednarz 譯/曾祥信

美國職棒大聯盟(Major League Baseball, MLB)將網路可視性提昇到全新的層次。Jeremy Schulman 兩年前加入大聯盟,擔任網路自動化(network automation)的首席軟體工程師,他說:「在我加入以前,大聯盟沒有現代化的網路管理系統,所有網管工作皆仰賴複雜的手動設定」。

舊有網管系統,包括以SNMP(簡易網路管理通訊協定) 技術為主的網路監控軟體,與網路供應商的各種管理工具,讓大聯盟可以收集交換器及路由器送來的資料,以及追蹤用的指標,比方網路頻寬用量。但是這些東拼西湊的工具各自單打獨鬥,無法提供全面、宏觀的可視性。

Schulman表示:「透過網路流量(traffic flow)的觀點,我們可看到每座棒球場的網路頻寬使用率,這讓我們獲得概略的視野,知道在球場與資料中心之間傳輸了多少資料。但這不足以讓我們得知這些流量的用途,例如,球場攝影機佔用多少頻寬,網路電話(VoIP)使用了多少流量,球場基礎設施的其他部份使用多少網路頻寬」。

網路流量分析平台立大功

為了獲取更好的網路可視性,大聯盟導入Kentik網路監測公司的網路流量分析平台,它能統整不同來源的監測資料,包括雲端、資料中心、網路邊緣(edge)、軟體即服務系統(SaaS) 與廣域網路(WAN)。此平台支援廣泛的量測資料格式,這點對大聯盟非常重要,因為他們的網路環境使用許多不同供應商的設備,包括Cisco的gear、Arista,以及Extreme Networks。

大聯盟的網路環境相當複雜,必須支援美國和加拿大共30支球隊。大聯盟擁有自己的資料中心,並在聯盟辦公室維護傳統的園區網路環境,包括位在紐約洛克斐中心的球賽重播中心,在這裡,他們利用高幀率攝影機錄下的影片,進行球賽即時重播分析。每座球場宛如位在網路邊緣的迷你資料中心,球場的基礎設施可服務眾多應用,包括VoIP、商務、以及在球員休息區與牛棚裡用來傳送球賽影像的行動裝置。球場透過MPLS技術(Multi Protocol Label Switching,多協議標籤交換)連接到網際網路。大聯盟也在某些球場提供Wi-Fi無線網路給現場球迷使用,並透過群播網路(multicast network)串流比賽影像。

Schulman說:「我們有園區網路、廣域網路、無線網路、資料中心網路,還有MPLS,此外我們用群播網路傳送影像到所有球場。所以,在網路基礎建設之上,我們部署了極其複雜的網路服務」。

大聯盟也用雲端平台執行運算工作,例如專為球迷設計的遊戲平台,以及 Big data(巨量資料)的統計追蹤系統Statcast。

為了充分掌握所有網路與服務,Kentik平台從大聯盟的網路設備,例如路由器、交換器、無線基地台,收集流量資料與量測資料,包括設備的量測資料、效能資料、組態設定細節、路由資訊、以及統整流程資訊。以分析觀點而言,這套平台帶來前所未有的洞察,有效協助大聯盟的網路團隊,提升根本原因分析能力(root-cause analysis),及改善網路用量的規劃。

這套平台稱為 Kentik Network Observability Cloud,使用軟體即服務模式,並根據設備進行授權,它在Kentik基礎建設上收集、儲存與分析網路資料,使用Kentik平台的公司,可以在租用的資料中心雲端空間裡,建構和維運自己的基礎建設。跟傳統就地部署(on-premise)的系統比較起來,Kentik具規模性的設計,讓用戶能夠存取更大量的資料集合,並保存更長時間的資料。龐大深入的資料,讓Kentik平台的分析能力一飛衝天。Kentik提供預先建立好的資料視覺化功能,視覺化分析與IT職掌相關的項目,能夠幫助IT團隊找出網路流量最佳化的路由設定方式,或者偵測DDoS分散式阻斷服務攻擊。

這些設計對大聯盟至為關鍵,Schulman說:「Kentik最吸引我們的是SaaS的方案模式。這意謂著,我們不需要自行部署及管理基礎建設,就能提升流量採集的規模。我不想買了一套產品,還得自己架設伺服器,管理負載平衡(load balance)」。

另一項必要條件是對於雲端供應商網路的洞察能力。Kentik技術能夠分析 Amazon AWS、Google Cloud、IBM Cloud 和 Microsoft Azure 的流量資料。如此一來,Kentik用戶可查看大聯盟網路與雲端供應商之間的細部流量資訊,他們可以查看,在大聯盟網路與雲端供應商、資料中心、可用性區域(availability zone)、虛擬私有雲(virtual private cloud)、子網路(subnet)之間往返的流量,以及這些元件之間傳輸的流量,系統還能根據應用軟體、IP位址、商業特性,進一步拆解流量資料。

Schulman表示:「因此,這套平台不僅能呈現出不同專案在雲端系統上進出的流量,事實上,它還能以視覺化呈現,經由雲端的虛擬私有連結展示實體設備的連線狀態。它也能提供我們細部資訊,從地端的流量,穿過雲端的流量,到雲端送回地端的流量;資訊包括延遲(latency)、吞吐量(throughput)、網路抖動(jitter,或稱基時誤差)等」。

「這是我們決定使用Kentik平台的重要因素,如此一來,我們看得見網路流量,我們不只看到來自供應商網路基礎設施的流量,也能看到我們的雲端基礎設施之間傳送的流量,我們的棒球應用軟體幾乎全仰賴這些雲端設施」。

網路可視性是業界普遍需求。隨著IT環境日益複雜,企業IT團隊愈來愈難以掌握對於網路及系統的可視性。特別是混合式網路環境,令這種情況雪上加霜,舊有系統工具的設計無法監測、分析就地部署設施與雲端基礎設施之間的互動。Gartner公司預測,在2024年以前,50%的網路維運團隊必須重新設計及部署他們的網路監測技術架構,以因應混合式網路環境帶來的衝擊,2019年這個數字為20%。

提高網路可視性,能讓網路團隊提升工作效率,加快解決問題的速度。在更廣泛的IT範圍裡,企業應用的監控與分析框架裏,往往缺乏對於網路層的觀測能力。若補上網路可視性的缺口,可以帶給企業更高層次的能力,例如,建立起網路資料與其他商業智能及預測分析系統當中資料的關聯性。

把網路分析,由戰術提升為策略層級

大聯盟使用Kentik網路監控分析平台的第一個專案,重點圍繞在:網路流量分佈、網路可靠度、與使用者體驗。

去年(2020)休賽期間,大聯盟計劃整併他們的資料中心,Kentik平台正是整個計劃的一部份環節。Schulman說:「Kentik軟體讓我們得以監測資料中心的流量,因此我們能知道,有誰仍在使用我們打算關閉的資料中心」。Kentik技術能夠分析應用程式與使用資料,提供更清晰的資料中心流量。這幫助他們釐清,在大聯盟統整資料中心並關閉某座中心以前,有哪些應用系統的負責人,必須將他們的軟體遷移到其他資料中心。

至於賽季期間,大聯盟則依靠網路監測與分析技術,察覺異常流量和特殊行為。Kentik平台讓大聯盟能將賽季期間的重要網路流量,以視覺化呈現,加速問題根本原因的分析工作。

Schulman說:「例如,我們能夠觀察群播影像串流的流量,Kentik可進一步拆解網路流量的分析,讓我們看到每一台攝影機送出來的串流資料」。當任何影像來源發生問題時,Kentik平台可以很容易地查出,究竟是攝影機的硬體故障,還是網路效能問題,這種分析技術足以使問題修復時間,從數小時縮短到幾分鐘。

Kentik平台目前是實用的戰術工具,但隨著它建立起更全面的觀測能力,大聯盟也計劃運用該平台幫助他們做出更主動積極的規劃。這項工作仍在進展當中,Schulman對於未來充滿信心。

在各種情境中運用網路分析

大聯盟網路團隊持續拓展Kentik技術的用途,大聯盟也開始尋找它在網路營運以外的價值。他們的目標是讓不同性質的IT團隊都能建立起網路資料與其他類型資料的關聯性,例如效能管理資料和預測分析的來源資料。

為達到此目標,大聯盟正在打造一套適用全聯盟的監測與分析平台,以涵蓋不同IT領域,包括:應用系統、系統基礎設施、雲端基礎設施、及網路基礎設施。軟體開發團隊建立出這套平台用於系統效能監控,平台底層用的是Circonus公司的監測分析技術,並利用商用產品、開源技術及客製化開發功能來加強整個平台的能力。如今,Kentik平台收集到的資料與洞察,也會被加入到這套更廣泛的平台(Kentik提供API應用程式介面與工具,可由Kentik平台擷取資料,並將視覺化結果導到其他儀表板)。

Schulman說:「我們把這些豐富的資訊導到通用的觀測平台,因此所有人都能被適當授權存取這些資料,這對大聯盟來說非常重要」。

Schulman表示,讓其他IT相關事項能夠存取網路資料,有助於加速故障排除流程,並提升系統效能。

「這代表,當系統團隊的成員想要排除故障或分析某項問題時,他們不必寄電子郵件給網路團隊,說『嘿!可否告訴我某個網路介面上的某個連接埠的頻寬使用狀態』,他們從觀測平台就可以直接取得這類資料。我們將擁有極為深入且豐富的跨功能領域量測資料」。

Schulman說:「有一套通用平台,讓每個人可以存取相同的資料,是件很棒的事。我們再也不用根據各自獨立的工具來做決策。我們可與一大群經驗非常豐富的工程師合作,他們負責不同領域,有雲端基礎設施,也有系統基礎設施,我們可以使用他們的工具和技術。現在,我們只要提供我們的資料到平台,所有人都能存取被授權可使用的資料」。

Schulman說道:「我不確定有多少企業公司在做類似的事情,但我認為我們的作法相當獨特」。

讓舊有SNMP產品順利退役,讓網路團隊參與更多策略及跨團隊管理任務,是Schulman在大聯盟的任務之一。他擁有軟體工程背景,過去十年都在探索網路自動化(network automation)的應用潛力。

Schulman表示:「我決定接下大聯盟工作的原因,是因為大聯盟從上到下的領導階層皆意識到,他們未來的核心技術必須包含網路自動化。身為軟體工程師,這正是我加入網路基礎建設團隊的原因 ─ 導入網路自動化技術,進化我們的網路基礎建設,如此一來,我們才能變得敏捷,就像雲端及伺服器團隊一樣」。