淺析Telemetry
Telemetry 是新一代從設備上遠程高速采集數據的網絡監控技術,設備通過(guò)“推模式(Push Mode)”周期性地主動向(xiàng)采集器上送設備信息,提供更實時、更高速、更精确的網絡監控功能(néng)。
具體來說,Telemetry 按照 YANG 模型組織數據,利用 GPB (GoogleProtocol Buffer)格式編碼,并通過(guò) gRPC(Google Remote Procedure Call Protocol)協議傳輸數據,使得數據獲取更高效,智能(néng)對(duì)接更便捷。
相對(duì)傳統的“拉模式(Pull Mode)”,即采集器與設備之間是一問一答的交互,Telemetry具有如下優勢:
1.采用“推模式”主動推送數據,降低設備壓力。
2.以亞秒級的周期推送數據,避免網絡延時造成(chéng)數據不準确。
3.可以監控大量網絡設備,彌補傳統網絡由于采用“拉模式”造成(chéng)監控方式的不足。
Telemetry vs SNMP
SNMP是小型簡單網絡的主流技術,足以滿足用戶業務目标和網絡運營需求;Telemetry作爲後(hòu)起(qǐ)之秀,在大型數據網絡中表現出許多優勢,2者有如下主要差異:
-
SNMP采用“拉模式”,Telemetry采用“推模式”。
如下圖所示,SNMP采用“拉模式”采集CPU占有率數據時,由于采集器與設備之間是一問一答的交互,每次下發(fā)查詢請求,設備都(dōu)需要解析請求報文,即n次查詢請求、n次解析請求。而Telemetry的“推模式”,它隻需要1次訂閱請求和1次解析請求,就(jiù)可以按照訂閱時指定的采集周期持續推送數據給采集器。
SNMP“拉模式”和Telemetry“推模式”
-
SNMP采用MIB定義數據結構,Telemetry采用YANG定義數據結構。
MIB是非結構化的數據模型,由各個廠家自行定義,也就(jiù)是說如果采集器要采集其他廠家的設備數據,需要花很大力氣去學(xué)習該廠家的MIB模型。另外,MIB輸出的對(duì)象值沒(méi)有明确的屬性定義,解析複雜。YANG是結構化的數據模型,各個廠家使用統一的語法,标準化。另外,能(néng)夠清晰的定義業務對(duì)象、屬性和數據類型,解析簡單,無需特殊的适配工作。
Telemetry的應用場景
過(guò)去,客戶網絡采用SNMP技術,通常5分鍾上報一次設備數據,導緻客戶網絡無法支撐實時監控。此外,大規模數據上報時,設備性能(néng)存在瓶頸,會(huì)出現數據斷點。如下圖所示,利用Telemetry技術,維護部門可以以秒級的采集周期獲取到設備數據,及時對(duì)異常情況進(jìn)行分析,并快速下發(fā)配置調整設備。同時,調整後(hòu)的狀态,維護平台能(néng)實時收到,整個過(guò)程是良性運轉。
1.流量實時調優
過(guò)去,客戶網絡采用SNMP技術,通常5分鍾上報一次設備數據,導緻客戶網絡無法支撐實時監控。此外,大規模數據上報時,設備性能(néng)存在瓶頸,會(huì)出現數據斷點。如下圖所示,利用Telemetry技術,維護部門可以以秒級的采集周期獲取到設備數據,及時對(duì)異常情況進(jìn)行分析,并快速下發(fā)配置調整設備。同時,調整後(hòu)的狀态,維護平台能(néng)實時收到,整個過(guò)程是良性運轉。
流量調優
2.微突發(fā)檢測
微突發(fā)檢測
Telemetry工作模式
Telemetry是一個閉環的自動化運維系統,也稱爲智能(néng)運維系統,由網絡設備、采集器、分析器和控制器等部件組成(chéng)。其中,這(zhè)些部件既可以使用第三方的系統,也可以使用華爲的系統。華爲Telemetry系統中,網絡設備對(duì)應的産品是CloudEngine交換機,采集器和分析器對(duì)應的産品是iMaster NCE-FabricInsight,控制器對(duì)應的産品是iMaster NCE-Fabric。
如下圖所示,完整的Telemetry系統分爲5個過(guò)程:
1.訂閱采集數據,訂閱設備的采集數據,以及訂閱哪些采集數據,在這(zhè)個階段完成(chéng)。
2.推送采集數據,設備依據訂閱數據方式,將(jiāng)采集完成(chéng)的數據,上報給采集器進(jìn)行接收和存儲。
3.讀取數據,分析器讀取采集器存儲的采集數據。
4.分析數據,分析器分析讀取到的采集數據,并將(jiāng)分析結果發(fā)給控制器,便于控制器對(duì)網絡進(jìn)行配置管理,及時調優網絡。
5.調整網絡參數,控制器將(jiāng)網絡需要調整的配置下發(fā)給設備,配置下發(fā)生效後(hòu),新的采集數據會(huì)上報到采集器,此時分析器可以分析調優後(hòu)的網絡效果是否符合預期,直到調優完成(chéng)後(hòu),整個業務流程形成(chéng)閉環。
Telemetry系統工作過(guò)程
訂閱數據的方式
訂閱數據是Telemetry系統中非常重要的一個環節,有兩(liǎng)種(zhǒng)訂閱機制:
1.靜态訂閱,設備作爲客戶端,采集器作爲服務端。由設備主動與采集器建立連接,并向(xiàng)采集器推送采集數據。采集哪些數據,在設備上通過(guò)命令行的方式配置。
2.動态訂閱,采集器作爲客戶端,設備作爲服務端,由采集器主動與設備建立連接,并由設備推送采集數據給采集器。采集哪些數據,由采集器下發(fā)動态配置給設備。
如果網絡設備與采集器之間的連接斷開(kāi),靜态訂閱方式下,設備會(huì)進(jìn)行重新連接,再次上送采集數據;動态訂閱方式下,設備會(huì)取消動态訂閱,不再上送采集數據。因此,靜态訂閱的特點是持續采集和推送,适合訂閱需求長(cháng)期采集的數據,動态訂閱的特點是專項采集,按需推送,适合訂閱臨時需要采集的數據。