日前,備受業內矚目的國際權威AI基準測試MLPerf公佈了最新一期訓練(Training)榜單V1.1。其中,中國系統廠商浪潮資訊提交了AI伺服器所有8項單機測試的固定任務(Closed Division)成績,並斬獲其中7項冠軍。而縱觀即將過去的2021年,在該年度總共4次效能測試中,浪潮AI伺服器共斬獲44項第一,名列MLPerf2021年度冠軍榜首。
那麼問題來了,MLPerf榜單緣何如此重要?以浪潮資訊為代表的中國系統廠商獲得該榜單年度總冠軍背後意味著什麼?
大咖雲集、接地氣,MLPerf榜單含金量高
提及與ICT產業相關領域的榜單,相信業內有相當部分的人會抱有不屑的態度。這很容易理解,畢竟在“不服跑個分”已經成為某些廠商口頭禪和誰都要跑個分的今天,某些榜單的含金量大打折扣確是不爭的事實。
而在我們看來,衡量和判斷一個榜單含金量的標準非常簡單,即參與榜單廠商在與測試相關的產業中的實力和地位如何(代表權威性),更重要的是,該榜單的測試標準及專案是否更貼近該市場和使用者的實際應用場景(代表實用性),即俗話說的是否更接地氣。
據此,我們來看看MLPerf榜單的含金量究竟如何?
以MLPerf公佈的最新一期訓練(Training)榜單V1.1為例,我們看到,它吸引了包括谷歌、微軟雲、英偉達、浪潮資訊、百度、戴爾、聯想等14家公司及科研機構的參與。其中谷歌、英偉達、微軟無疑是業內公認的,當下AI領域軟硬體方面絕對的大咖,而浪潮資訊則是AI系統(例如AI伺服器)市場中的No.1(中國及全球AI伺服器市場始佔據榜首)。從參與的廠商看,我們不難發現,其涵蓋了AI的硬體、軟體、系統、應用等業內頂尖的企業。
接下來我們再看其是否更貼近市場和使用者的實際應用廠商場景。這裡我們還是以MLPerf公佈的最新一期訓練(Training)榜單V1.1為例,上述參與的相關企業共提交180項固定任務成績,6項開放任務成績。其中固定任務要求參賽各方使用與參考模型等價的模型和限定的最佳化器,對於實際使用者評測AI計算系統性能具備很強的參考意義,也一直是MLPerf中角逐最激烈及主流廠商最關注的領域。
對此,浪潮資訊高階 AI 產品經理王磊此前接受全球權威資料中心媒體The Next Platform採訪時曾表示:“MLPerf 是基於最廣泛的 AI 負載和應用場景,例如計算機視覺、自然語言處理和推薦系統。”“MLPerf 訓練基準中的八項任務提供了較為完整的各類神經網路模型,對客戶的應用場景有非常好的代表性”。而也正是這份權威雜誌,其在《WHY THE MLPERF BENCHMARK IS GOOD FOR AI, AND GOOD FOR YOU》https://www.nextplatform.com/2021/08/10/why-the-mlperf-benchmark-is-good-for-ai-and-good-for-you/,文章中,作為第三方,詳細分析了MLPerf榜單權威性的原因,有興趣的業內人士不妨拿來一閱,相信會對MLPerf榜單,尤其是其權威性和實用性會有更加客觀和深刻的理解,我們這裡不再贅述。
我們認為,無論是從參與的廠商(AI產業相關大咖雲集),還是其接近市場和使用者實際應用場景(專案設定更符合實際應用)以及獨立第三方的分析和解讀,MLPerf榜單不僅權威,還更接地氣,是它對於市場和使用者的真正價值所在,即市場和使用者以此榜單作為標準做出的選擇,與其在實際業務場景中的應用表現應相差無幾。
當我們明確了MLPerf榜單的權威性及實用性再來看看中國系統廠商浪潮資訊的表現。
2021年,浪潮AI伺服器在MLPerf資料中心AI推理場景的總32項任務中斬獲17項冠軍,在邊緣AI推理場景的總31項任務中斬獲16項冠軍,從雲到邊全面領先;在單機AI訓練場景的16項任務中浪潮AI伺服器共斬獲11項冠軍。
可以說,無論是從MLPerf榜單,還是實際應用的角度,中國系統廠商在AI計算確實走在了前列。
系統級創新,榜單背後的硬核支撐
所謂知其然,需知所以然。中國系統廠商緣何會在MLPerf榜單中名列前茅?
眾所周知,對於AI算力,雖然晶片是核心,但事實是,晶片從造出來到大規模用起來,往往還隔著一個巨大的產業鏈鴻溝,主要體現在,算力的供給需要構建算力平臺,需要解決架構設計、核心部件、高速互聯、散熱設計等一系列工程問題。而要解決這些問題,就涉及到系統創新。
需要提醒的是,千萬不要忽視系統創新的難度,具體到一臺AI伺服器,除了晶片外,系統廠商需要解決超過300個關鍵的過程控制點和設計難題,同時還需要解決與演算法框架和AI應用的最佳化和適配等挑戰。
業內知道,與單純的晶片廠商相比,系統廠商由於長期位居服務市場和客戶的最前沿(離市場和使用者最近),最知曉他們的痛點和需求,所以在我們看來,有且只有系統廠商,依靠其系統級的創新能力,有的放矢,化解我們前述面臨的挑戰,最終釋放出AI算力的最大價值,高效率地輸出算力,滿足市場和使用者實際的應用場景及業務需求。而這一規律,透過此次和全年霸榜MLPerf的中國系統廠商浪潮資訊在AI計算系統創新方面的系統設計和全棧最佳化能力的表現得到了很好的驗證。
具體表現在,針對AI訓練中常見的密集I/O傳輸瓶頸,浪潮AI伺服器以領先設計大幅降低通訊延遲,極大提升了AI訓練效率;同時,針對高負載多GPU協同任務排程,對NUMA節點與GPU之間的資料傳輸進行全面最佳化和深度調校,確保訓練任務中的資料IO無阻塞;在散熱層面,針對目前業界功率最高的A100-SXM-80GB(500W) GPU,浪潮率先開發的先進冷板液冷系統,確保GPU在全功率甚負載下依然穩定工作,將AI計算系統的效能發揮到極致。
針對不同AI任務的計算特點,浪潮AI伺服器的精細化調優能力也走在前列。在2020年的MLPerf V0.7評測中,浪潮資訊開創性提出效率更高的影象分類(ResNet50)收斂性最佳化方案,即在ImageNet資料集上,僅使用85%的迭代步數就達到了75.9%的目標精度,該最佳化方案將訓練效能提升了15%。目前,該方案已被MLPerf社群成員普遍採納。此外,在本次V1.1競賽中,浪潮資訊對Resnet任務中的影象的前處理進行了最佳化,使用DALI框架並在GPU上執行解碼,解決了CPU執行的計算瓶頸,實現了浪潮資訊在ResNet任務上連續3屆領先。
由此看,本次浪潮AI伺服器在8項AI訓練任務中,取得7項冠軍,正體現了浪潮AI伺服器對多元AI計算場景的洞察和深刻理解。
除了具備系統級的創新能力外,我們認為在解決這些市場和使用者痛點及滿足他們需求的同時,系統廠商還能形成自己對於相關產業發展趨勢的洞察和理解,做到先知先覺,並率先付諸於行動,進而形成市場先發和領先優勢。
例如鑑於人工智慧在演算法領域的不斷突破,不同數值精度帶來了跨度更大的計算型別,對計算晶片指令集、架構的要求更加細分。對此,圖靈獎獲得者 John Hennessy和 David Patterson2019年共同發表的《計算機架構的新黃金時代》,詳見原文https://cacm.acm.org/magazines/2019/2/234352-a-new-golden-age-for-computer-architecture/fulltext中提出:當摩爾定律不再適用,一種更以硬體為中心的針對特定問題領域定製設計計算機體系架構的方法DSAs(Domain-Specific Architectures)會成為主導,這種設計的核心在於針對特定問題或特定領域來定義計算架構。
而我們從系統廠商浪潮資訊上述的系統級創新不難判斷,其不僅對於計算產業的發展趨勢早有認知(例如率先推出採用GPU加速的AI伺服器例項,並至今引領這一市場),且已經透過自身的系統級創新能力正在化解擺在業內面前、讓新的計算架構真正落地所面臨的挑戰(如我們前述阻礙AI晶片充分發揮算力產生的產業鏈鴻溝)。而這也是中國系統廠商霸榜MLPerf榜單背後的又一個重要原因。
服務數字經濟,智算時代迎挑戰仍需更多
眾所周知,ICT產業的創新最終都是要為市場和使用者服務。而在人工智慧為代表的智算時代同樣如此。我們前述AI計算系統創新的根本目的,最終還是要讓算力、演算法和資料去服務數字經濟,去支撐科研創新,去推動智慧轉型,這就需要加大以AI計算為核心的智慧計算中心—這一新型人工智慧基礎設施建設,以此推動AI產業化、產業AI化和政府治理的智慧化。
但隨之而來的,面對智算中心建設所需大規模AI算力部署,AI算力平臺建設將面臨高功耗、高電流密度、高匯流排速率、高系統複雜度的新挑戰。
對此,中國工程院院士、浪潮首席科學家王恩東認為,要想釋放多元算力價值、促進人工智慧創新,一是要重視智算系統的創新,加大人工智慧新型基礎設施建設,把從技術到應用的鏈條設計好,從體系結構、晶片設計、系統設計、系統軟體、開發環境等各個領域形成既分工明確又協同創新的局面;二是要加快推動開放標準建設,透過統一的、規範的標準,將多元化算力轉變為可排程的資源,讓算力好用、易用。
不知業內從王恩東院士的言論看到了什麼?我們看到的是,系統級創新在智算中心的建設中依然是重中之重,畢竟AI計算是智算中心的核心,而AI伺服器又是智算中心生產算力的“動力機組”,是產出強大算力的源泉。而放置於智算系統(例如智算中心),系統創新又被賦予了更寬泛的內涵,即不僅應是算力的生產,還應包括聚合、排程和釋放,同時需要產業鏈相關參與者在遵守統一、規範的標準之下,通力協作,各施所長,打造智算生態。
實際的情況是,去年釋出的《智慧計算中心規劃建設指南》已經就上述做了明確的說明。而系統廠商,無論是在算力的生產、聚合、排程和釋放,還是在打造生態方面,已走在了業內的前列。
以浪潮資訊為例,除了我們前述的在算力生產層面的系統級創新外,在算力排程層面,浪潮AIStation人工智慧開發平臺能夠為AI模型開發訓練與推理部署提供從底層資源到上層業務的全平臺全流程管理支援,幫助企業提升資源使用率與開發效率90%以上,加快AI開發應用創新(解決了算力的效率問題);在聚合算力方面,浪潮持續打造更高效率更低延遲硬體加速裝置與最佳化軟體棧;在算力釋放上,浪潮AutoML Suite為人工智慧客戶與開發者提供快速高效開發AI模型的能力,開啟AI全自動建模新方式,加速產業化應用。
總結:綜上,我們看到,系統廠商在MLPerf中能取得優異成績的能力,是建立在其對市場及客戶應用場景的理解之上,而其在產品研發、客戶需求、實際應用中所獲得的洞察和理解,又指導著MLPerf測試,是其能夠取得優異成績的一個重要原因。與此同時,系統廠商在MLPerf測試中的探索和創新也反過來幫助其更好地回饋產業客戶的實際應用,以此形成一種良性的迴圈。而這種良性迴圈,在保持系統廠商持續領先的同時,更重要的是會加速AI產業化和產業AI化的落地。而在智算中心到來的時代,這種能力和良性迴圈又會被放大,進而促進中國數字經濟的發展。