10月12-13日,由中國人工智慧學會主辦的2021中國人工智慧大會(CCAI 2021)在成都成功舉辦。在10月13日舉辦的空天智慧論壇上,北京航空航天大學黃寧教授為我們帶來了題為《空天智慧系統中的可靠性技術——網路可靠性》的精彩演講。
以下是過黃寧教授的演講實錄
一、空天智慧系統:網路可靠性問題 + 挑戰
2021年7月16日印度防務世界網站報道,今年7月中旬,美國陸軍在新墨西哥州白沙導彈靶場進行了一次導彈攔截試驗,試驗中,“愛國者先進能力-3”導彈根據F-35戰鬥機(作為空中感測器)傳送的資料成功攔截了代替巡航導彈的目標。這個攔截的過程有目標識別、攔截追蹤,是一個典型的空天智慧系統。空天智慧系統對可靠性要求很高,而可靠性目前是依靠可靠性技術進行保障的,涉及多方面技術,如可靠性預計與分配、可靠性分析與預測、可靠性評估和可靠性試驗等。可靠性技術已被證明在各領域內卓有成效,目前最基礎的代表方法有故障樹或可靠性框圖方法,但對於空天智慧等複雜系統並不合適。原因在於空天智慧等複雜系統具有網路化、智慧化和動態性三個特點,比如當前的空天智慧系統代表(天基網際網路系統、天地一體化網路和無人機群)中這三個特點都非常突出,對可靠性技術形成了挑戰。
(一) 複雜系統的網路化、智慧化及動態特徵
如果介紹一個空天智慧系統將會涉及很多內容,這裡我以我們專案組所做的一個智慧光網路系統為例,大家就比較容易理解我剛才說的問題。
下圖所示,在智慧化自動交換光網路系統裡每個點就是每個城市,城市之間每條連線是不同的顏色,代表的是光纖具有不同的頻寬,這樣形成了一個為使用者提供通訊服務的基礎設施。對使用者而言,這個基礎設施之上的業務是否可靠才是重點,比如紅線從Site61~Site110形成一個業務,表達的是使用者從61~110有通訊需求。按照傳統的可靠性分析,如果某一段光纖斷掉,這個業務就出了故障。智慧光網路之所以智慧,因為它使用了動態路由演算法,此光纖斷掉後可以自動重新找一條路徑,從而把這個業務持續下去,並沒有形成故障。這表現出了明顯的智慧和動態特徵。
同一個基礎設施網路上,業務會有很多。此外,業務還有不同的質量要求,比如有鑽石級、銀級、銅級等,系統設計了不同的策略來保證業務的可靠性。而多個業務可能共享某些光纖通路,因而形成了耦合關係。
對這樣的系統進行可靠性建模分析時,即使是一個4個節點的智慧光網,會出現多達100多個狀態,無論採用可靠性框圖、Petri網或是馬爾可夫都會非常困難,更遑論一般的智慧光網多達100多個節點。
(二) 網路可靠性研究
上面講到的特點,以及目前可靠性技術的不實用或者存在問題,不僅空天智慧系統存在,交通網路、通訊網路,甚至電網等都存在類似問題。為此提煉出一個針對網路化系統的可靠性共性研究。我們定義了“網路系統”是一種網路產品,是一種網路形式的複雜系統,它提供互聯互通的基礎,完成傳送傳輸的功能,擁有資訊處理的輔助,具備對多工的支援。此定義包含了剛才所講到的空間智慧系統,比如“擁有資訊處理的輔助”就涵蓋了智慧化特徵。並定義“網路可靠性”為:網路系統在規定的時間內和規定的條件下完成規定功能的能力,不同的是,網路系統具有複雜特徵,所以它的規定條件和規定功能與傳統的不同。
我們從2008年開始網路可靠性的相關研究。目前從引數體系到模型演算法,乃至可靠性試驗,已經形成一套系統理論和方法,見下圖。
二、網路可靠性技術
下面從網路可靠性引數、故障及規律分析、可靠性評估模型、可靠性最佳化設計和可靠性試驗五個部分,分享我們的研究。
(一) 網路可靠性引數體系
網路可靠性研究涉及的網路物件非常複雜,傳統的 MTBF或者這樣類似的單個引數,難以全面描述一個可靠性系統,所以我們提出了網路可靠性三層體系,即連通可靠性、效能可靠性和業務可靠性。連通可靠性是比較典型的可靠性技術,硬體裝置出故障後網路通不通,國際國內研究的都很多,已經是較為公認的網路可靠性技術。效能可靠性針對網路系統對效能的要求強調基本功能可用但效能降級的故障,比如在丟包、時延等故障。業務可靠性是我們針對“網路即業務 / 服務”提出的概念,突出網路服務質量。如下圖所示,連通可靠性及效能可靠性針對的是整網,而業務可靠性是縱向切片。
網路系統應該從引數上就有一個多層、多角度的引數體系。對於不同領域和不同物件,具體的引數名稱、引數的定義等都會有一些區別。引數案例是我們針對機載網路所做的一個可靠性引數指標體系,已經發布為航標。
(二)網路故障及規律分析
故障是可靠性技術的核心。網路可靠性技術之所以不同於傳統可靠性技術,是因為網路故障的特殊性。下圖是美國蘭德公司做的一個海軍艦船故障統計。從圖中可以看到,硬體裝置故障只佔37%,其他的超過50%。其中有網路的配置網路configuration,以及包括settings等,在傳統的可靠性分析技術裡是非常難以cover的。
這些因素對網路可靠性的影響很大,這些故障規律也難以直接採用傳統可靠性技術中常用的指數分佈、正態分佈等。目前的相關研究非常少。雖然可靠性技術已經深入很多領域,有不少企業做了故障記錄,但很多記錄不是從網路故障的角度出發,難以統計分析出網路故障規律,更難以支援進一步的網路可靠性評估。
我們透過對不同型別網路系統的故障進行統計分析,歸納出三個網路故障的特性——複雜性、動態性和耦合性;並進一步把它分為內因、外因,再從連通、效能和業務三個大類涉及的故障型別分別進行規律方面研究和相關建模。比如,我們提出了基於ICD(International Classification of Disease)的網路故障分類方法,從致因、表象和病灶三個角度研究網路故障的分類,對各種型別網路進行分類統計和規律分析,並在分析時考慮了業務特徵採用了複雜網路技術。下圖是我們分析的機載網路故障,分析中單裝置上的故障由業務特徵關聯為業務故障。
(三)網路可靠性評估模型
我們已將網路可靠性分為連通可靠性、效能可靠性和業務可靠性三個層次,對網路系統的可靠性進行建模分析。
(1)連通可靠性
連通可靠性是基於圖論,在傳統可靠性的基礎上發展而來的。起源於上世紀50年代,早期用於計算機網路、通訊網路的可靠性評估。這裡列舉幾個連通可靠性的引數,它們可能與可靠度和MTBF不太一樣,比較經典的是兩端可靠度、K端可靠度和全端可靠度,怎麼去評估和計算?
目前國內外研究的很多,主要研究在於如何提高演算法效率使之能適應較大的網路規模。模型基本都基於圖論,比較典型的如狀態列舉、容斥原理、BDD、因子分解、動態故障數和蒙特卡洛等。
這部分我們的研究主要是針對專案本身的特殊性和具體研究應用領域進行模型和演算法的改進和完善。比如,艦船網路的連通可靠性案例,考慮了重組和容錯;戰術網際網路案例我們提出了考慮不同移動模式的無線網路連通可靠性模型和演算法。
(2)效能可靠性
網路效能可靠性從引數到模型演算法並沒有公認的。大家所熟悉的丟包、誤碼和時延其實是網路性 能指標。我們結合做的很多專案內容,歸納了三個效能方面的可靠性指標——及時可靠性、完整可靠性和正確可靠性。
我們前期的研究總結和歸納了幾個適用於效能可靠性評估的模型與演算法。比如,基於狀態空間評估模型等,以及行程時間可靠性模型、流網路模型和網路演算模型等。
這裡介紹一個我們針對機載網路的效能可靠性評估案例,基於隨機型網路演算的時延/及時可靠性方法。
(3)業務可靠性
目前我們的研究重點是業務可靠性。業務可靠性就是希望面對現在所說的網路即服務,還有軟體定義網路,對一個網路不僅是能看到各個裝置,更重要的是能看到網路提供的服務。這個服務是否可靠、怎麼去考察,這是業務可靠性概念。
業務可靠性涉及的影響因素很複雜,且涉及智慧和動態,為此我們提出了“網路演化模型”。
下圖展示了前面介紹的智慧光網路案例的業務可靠度計算結果。紅色的線是鑽石級業務,藍色的線是銀級業務。能夠明顯看到鑽石級和銀級在可靠度上有明確的量化指標和較大區別。
在對業務可靠性建模分析的過程可以看到,要描述業務非常困難。以前對業務的表達比較多的是用工作流的方式去做相關建模和描述,可是仍然缺乏很多細節,難以適用不同的場景。為此我們提出業務的三個分類,即隨機型業務、定製型業務和程式化業務。對業務進行分類的好處是能夠針對不同型別的業務,就像針對規則網路、小世界網路、無標度網路去考慮它有不同規律,針對不同型別業務能夠去考察業務的特徵。
這裡介紹一個比前面智慧光網路更加複雜的一個案例——雲化虛擬化網路可靠性評估。此網路由128個伺服器組成,每個伺服器包含10個虛擬機器,部署了150個不同型別的VNF和9個業務。相當於此案例中有各種型別的異質節點1634個,鏈路2137條以及多種型別業務,且控制平面還分為集中式和分散式。
所以,本案例會出現很多故障型別,每一種的處理方式都不一樣,且業務動態可以動態遷移,變化很複雜難以進行可靠性評估。為此我們提出網路演化模型,包含OCR3個關鍵要因素,分別指演化物件、演化條件和演化規則。最後設計了業務可用度演算法,分別計算了集中式控制平面和分散式控制平面下的業務可靠度,並進行了對比分析。
(四)網路可靠性最佳化及設計
可靠性評估是可靠性技術的基礎,更重要的是希望根據評估出來的結果,對網路的設計進行一個最佳化。首先我們做了一些先期研究,包括考慮業務的、資源的,然後評估不同最佳化策略的效果。目前做的是針對A380這樣一個網路拓撲結構,考慮了資源的處理能力和節點的快取分配方式能夠使其業務可靠性得到比較大的提高。
(五)網路可靠性試驗
網路可靠性試驗目前需求很大,比如5G賦能的工業控制網路真正要實際應用,僅靠模擬、建模評估大家總感覺不踏實,希望去設計相應的可靠性試驗方案。可靠性試驗技術和一般的測試不同,需要對試驗過程中網路系統所發生的事件、過程、狀態、功能及所處環境的描述進行相關設計,也就是試驗剖面的設計。由於網路在用的過程中涉及流量,包括人的因素、網路的架構,所以剛才講到的各種動態的特徵真的要去搭建一個試驗檯非常困難。這是第一點。第二點網路按照各種配置可以有各種型別的組合,這種組合方式往往難以窮舉。如果試驗過程中有的東西窮舉不到,不能做相應試驗,產品的設計人員心裡就不踏實。
目前我們研究了全實物的網路可靠性試驗方法,主要是研究網路試驗剖面;此外還研究基於opnet的全模擬和半實物模擬試驗方法。Opnet是目前各大通訊廠商都比較認可的平臺,經常用於做一些網路效能方面的測試。但缺乏故障資訊,難以支援可靠性分析,為此我們針對三種類型的網路故障進行了二次開發,然後進行可靠性評估。
可靠性試驗的案例有戰術網際網路可靠性試驗和AFDX機載網路可靠性試驗,戰術網際網路可靠性試驗我們針對網路特徵設計了業務剖面和移動剖面;機載網路是確定性網路,屬於工業控制網路,在當前強調工業網際網路和工業4.0等概念的形式下,可靠性問題是首先要解決的問題。
三、機遇——網路可靠性建模新理論
網路可靠性研究是一個多技術融合和交叉的系統工程技術,現在並沒像以前傳統的可靠性技術一樣形成確定的標準和技術。傳統可靠性技術中,當我們確定了一個可靠性指標,就可以有明確的方法去進行分配,設計完成後就可以進行明確的評估和最佳化。但網路可靠性甚至連引數體系都沒有明確,更遑論相關技術。雖然在工程實踐中對網路系統確實有一些技術去保障其可靠性,但並沒有形成如傳統可靠性一樣的共性技術,仍然是一個open question。
我們做了多年網路可靠性研究,在各個層面有了一些進展,也有不少企業的應用、實踐和案例。但網路可靠性研究仍然是一個挑戰性問題,但挑戰也是機遇。隨著5G技術、人工智慧和雲化技術的應用推廣,更多的產品和工程應用會涉及網路化、動態化和智慧化帶來的可靠性問題。目前我們走過了基於圖論的網路可靠性研究、基於複雜網路理論的研究,開始從系統生物學的角度開展相關研究。
總之,網路可靠性是一個非常具有挑戰的問題,隨著新技術革命的推廣應用,也呼喚更多的網路可靠性建模分析新理論,形成可工程適用的網路可靠性共性技術。這對於可靠性技術研究者而言也是很好的新機遇!
( 本報告根據速記整理 )
CAAI原創 丨 作者黃寧教授
未經授權嚴禁轉載及翻譯
如需轉載合作請向學會或本人申請
轉發請註明轉自中國人工智慧學會