隨著人工智慧、大資料應用的進一步普及和元宇宙的興起,人們對算力的需求正成指數級增長。這種需求不僅體現在更強大的效能,還體現在更低時延、更快速地得到運算結果。
對算力的追求正是IT產業不斷進步的源動力之一。在日前舉行的2021阿里雲彈性計算年度峰會上,阿里雲一口氣釋出了多款基於自研神龍架構的彈性計算新品,包括RDMA增強型例項、800G GPU超算例項、FPGA計算型例項、GPU圖形計算型例項等,不僅在效能方面大幅提升,同時增加了多種服務形態,為企業提供了更豐富也更具價效比優勢的產品服務。其中,RDMA增強型例項c7re、800G GPU超算例項更是讓人眼前一亮,c7re是基於第四代神龍架構的首款產品,將Redis混合讀寫效能提升130%,將AI深度學習場景效能提升30%。同樣搭載RDMA高效能網路的還有800G GPU超算例項,將模型訓練效率最大提升9倍。
彈性RDMA到底是什麼黑科技,它有什麼魔力讓計算效能得到大幅提升?
01 從RDMA到彈性RDMA
RDMA是Remote Direct Memory Access的縮寫,直譯是遠端直接資料存取。RDMA本質上是一種記憶體讀寫技術,它將資料直接從一臺計算機的記憶體傳輸到另一臺計算機,無需雙方作業系統和CPU的參與。RDMA的好處是能節省寶貴的CPU資源,還能實現高吞吐、低延遲的網路通訊,非常適合在大規模平行計算機叢集中使用,此前主要應用於高效能計算領域。
近年來,隨著大資料分析和AI應用興起以及一些浪湧型IO高併發、低時延應用出現,網路傳輸瓶頸問題開始凸顯,人們希望透過RDMA的高速通訊能力解決兩個問題,即海量資料的傳輸和時延。
第一個需求以大資料分析和AI訓練最為典型。這兩類應用有一個共同點就是資料量大,資料互動頻繁。如今資料叢集規模越來越大,資料分析規模動則達到PB級,AI訓練模型引數達到萬億級。比如,阿里巴巴達摩院推出的多模態大模型 M6 引數達到 10 萬億。同時,大資料分析和挖掘的時間週期越來越長,時效性越來越差,嚴重影響了業務的效率。
第二類是時間敏感性業務需求。比如,網際網路場景下資料庫業務通常承載高併發的業務需求,尤其是記憶體型資料庫(如Redis)對時延有極高的敏感度。另外,還有工業模擬、自動駕駛等也是對延時極度敏感的業務場景,過大的延遲嚴重影響應用的效果。
傳統RDMA雖然可以滿足資料傳輸的效能需求,但是業務的彈性上往往無法很好的應對,而且應用場景和規模受限。傳統RDMA的不足主要體現在兩個方面:首先是成本,目前實現RDMA的實現方式主要有IB網路、RoCE網路,都需要專用的網絡卡和交換機(這些裝置通常價格昂貴),同時需要配備專人運維,而且需要對應用進行改造。其次,傳統RDMA難以大規模組網,一旦規模上來,非常依賴於交換機的流控能力,否則網路通訊質量會快速下降,丟包嚴重,系統很快面臨崩潰。
“RDMA的典型應用場景是高效能計算,這種規模都不太大,比如幾百臺、上千臺伺服器的規模情況下,RDMA確實提供非常極致的延時體驗,延遲可以達到1~2微秒左右。但是,由於不能在上萬臺、數萬臺規模叢集用RDMA進行網路通訊,因此無法直接用在雲環境中。”阿里雲彈性計算產品線負責人張獻濤在接受採訪時表示。
張獻濤說,規模化對雲非常關鍵。畢竟,雲資料中心都是幾萬臺伺服器起步。在上萬臺伺服器規模的場景下,如何解決RDMA的規模化和成本等不足,以滿足大資料、AI以及高效能計算的上雲需求,成為阿里雲研發彈性RDMA網路的主攻方向。這其中技術挑戰很大,阿里雲圍繞RDMA進行了多年研發,直到2021年10月份在雲棲大會上阿里雲推出第四代神龍架構,並宣佈首次搭載彈性RDMA網路,阿里雲的彈性RDMA才正式對外公開。
02 將雲計算帶進5微秒時延時代
實際上,這些年來為了滿足各種不同應用對資料高速傳輸的需求,人們一直在不斷改進RDMA,先後有了IB、RoCE、iWARP等各種協議。阿里雲研發的彈性RDMA本質上與它們一樣,只是阿里雲沒有給它一個新名字,簡單稱之為彈性RDMA(eRDMA)。
張獻濤解釋說:“我們內部也給這個RDMA協議取名了,但對外我們還是用通用名字來描述它,主要是希望讓客戶能夠從產品的視角去看待RDMA,這裡‘e’強調的是在雲上的彈性。”
張獻濤介紹,阿里雲對傳統RDMA的改進本質上是在幾個因素,包括延遲、規模化、可靠性等之間做平衡。比如,傳統RDMA和RoCE、IB一樣,延遲很小但可靠性不高,而且難以大規模部署。另外,傳統高效能計算中心裡使用IB網路架構,從應用模型到下面的通訊模型都比較固定。但是,在公有云平臺上應用複雜多樣,可能是AI也有可能是大資料、HPC,還有可能是微服務,要讓改進後的RDMA能適用更多應用型別,更是要做好可靠性、規模化和延遲等眾多因素之間的平衡。
資料表明,阿里雲的平衡做得非常優秀。張獻濤分享了幾個資料:傳統的RDMA延時能做到1~2微秒,阿里雲彈性RDMA延時低至5微秒,但傳統RDMA規模只能做到1000臺左右,而阿里雲彈性RDMA可以做到10萬臺以上,提升了100倍。另外,傳統RDMA在可靠性方面依賴於交換機的優先順序流控,而阿里雲部署於普通交換機上就能確保可靠傳輸。另外,阿里雲面對的是多租戶應用,為此提供了RDMA over VPC的能力來進行多租戶的隔離。
阿里雲能做到這一切的秘密武器就是阿里雲的神龍架構,搭載大規模彈性RDMA加速網路第四代神龍架構,將網路延遲整體降低80%以上,第一次將雲計算帶進5微秒時延時代。
阿里雲透過神龍架構的軟硬體結合和協同設計的思路,實現了自己的RDMA協議。而且在實現底層協議的時候,保持了上層的應用程式設計介面,比如相容Verbs的程式設計介面,這樣傳統的高效能應用直接就可以用,而大資料或者AI類應用也只需要做簡單的介面適配,就可以獲得RDMA網路帶來的高效能通訊能力。另外,還有非常重要的一點是,阿里雲的彈性RDMA大幅降低了應用門檻,無需專用裝置和專用網路,用阿里雲神龍伺服器和VPC網路實現了RDMA技術,而且足夠有“彈性”,想用就能用,隨開隨用,無需花長時間部署,不用專門做最佳化。
實際上,無獨有偶,AWS也從其視角出發研發了類似的技術,這就是EFA。張獻濤說,與AWS的EFA相比,“大家在場景需求思考路徑一樣,但是在具體的實現,在軟硬體介面的協同設計方面,神龍架構有自己的優勢,比如傳輸可靠性、延遲等方面。”
03 掌握關鍵核心技術
神龍架構是阿里雲自研的一個軟硬一體的虛擬化架構,張獻濤正是神龍架構的提出者與發明者。第一代神龍架構於2017年正式釋出,到今年10月份的雲棲大會上阿里雲釋出最新一代神龍架構,已經演進到了第四代。神龍架構透過把虛擬化轉移到專用硬體中進行加速,將物理機的高效能與虛擬機器的靈活性融為一體,虛擬化損耗幾乎為零,效能比傳統物理機更強勁,還可隨時擴容,極大降低了客戶的成本。
本質上神龍架構和當下熱門的DPU要做的事情是一樣的,都是為了解決虛擬化後的管理損耗問題,而把CPU的一些非必要的管理工作解除安裝到專用晶片(如DPU)中,但阿里雲多年以前就提出了整個思路並在2017年有了第一代研究成果,這也正是阿里雲的領先之處。實際上,不只是阿里雲,AWS也在差不多的時間推出了自己的DPU,這就是AWS的Nitro系統,目前Nitro系統也同樣演進到第四代。
“我們兩家都是在雲計算做到一定規模的時候遇到了瓶頸,這就是效能很難提升上去,成本降不下來,服務質量也是提升不上去。在共同的問題的驅動下,大家不約而同地選擇了研發DPU。”張獻濤說。
研發DPU的深層原因在於,目前的IT架構中是以CPU為中心,CPU不只是要進行各種複雜計算還要負責管理和排程各種資源,比如虛擬機器的排程和管理、網路通訊的加解密和資料包的封裝以及各種安全策略的執行等。有研究資料顯示,上述這部分工作可能耗用CPU 30%的算力。把這部分工作解除安裝到效率更高的專用晶片上,不僅可以提高計算效率,還可以降低總體擁有成本,對於那些擁有幾十萬到幾百萬臺伺服器規模資料中心的雲服務商而言,無疑非常有意義。更為重要的是,面對超大規模資料處理的需求,CPU的算力已經達到瓶頸,為CPU減負勢在必行。
其實不僅是雲服務商非常關注DPU,在DPU有望成為繼CPU、GPU之外資料中心第三大晶片的憧憬下,更多的廠商投入DPU的研發中,其中不乏像英偉達、英特爾這樣的行業巨頭。不過,在張獻濤看來,真正能夠把DPU做出來,並且能夠大規模應用的,一定是雲廠商。
“不管是架構設計還是功能特性,雲廠商一定會走在傳統裝置廠商的前面。因為雲廠商有真實業務場景體驗,會從業務視角出發,而傳統廠商因為缺乏業務視角,是很難做出一個通用的DPU,它們更多的是參照雲廠商定義的標準然後再研發自己的DPU。”張獻濤說。
作為新一代虛擬化技術的代表,第四代神龍架構代表了目前DPU最先進的技術水平,其在IO加速、晶片級安全、雲原生彈性和高速網路四大領域做了非常多的最佳化,因而為資料庫、AI、大資料等通用場景帶來效能的飛躍,彈性RDMA就是眾多新增的特性之一。
張獻濤表示,在激烈的市場競爭環境中,掌握關鍵核心技術越來越重要。今天已經全面進入雲時代,算力越來越集中在一些大型雲服務商,如果說像DPU這樣的技術不自己掌控。一旦出現故障,需要修復其中的Bug,後者解決一個安全問題,可能會面臨災難性的後果。
實際上,不止是DPU,在伺服器、網路、儲存乃至整個基礎架構的關鍵核心技術上,阿里雲都在發力。以晶片為例,在今年10月的雲棲大會上,阿里就釋出了自研的Arm晶片倚天710,搭載這款Arm晶片的例項不久會上線。除了通用Arm晶片,阿里還在專用晶片上發力,推出了含光800、玄鐵910等。正因為多年堅持關鍵技術的研發,在Garnter剛釋出的IaaS+PaaS解決方案能力評估報告中,阿里雲IaaS基礎設施能力成績優異,在計算、儲存、網路、安全四項核心評比中均獲高分,超過一些國際大廠。
展望未來,張獻濤表示,在計算方面,一雲多芯、異構計算是阿里雲的長期戰略,未來阿里雲會引入和自研更多晶片,為客戶提供效能更好、更具價效比的算力服務。另外,計算部門還將堅決貫徹阿里雲的發展戰略,支援“一雲多形態”,透過智慧全託管、雲盒、本地Region和中心Region等眾多部署形態,讓阿里雲的服務更加靠近客戶。同時,構建開放的生態,透過計算巢把阿里雲的IaaS能力開放出來,讓ISV和阿里雲的客戶能基於此更好地進行創新,更好地服務自己的客戶,以加速各自的數字化轉型程序。