sponsored links

阿里雲釋出新計算例項,這項黑科技讓企業都用得起RDMA

隨著人工智慧、大資料應用的進一步普及和元宇宙的興起,人們對算力的需求正成指數級增長。這種需求不僅體現在更強大的效能,還體現在更低時延、更快速地得到運算結果。

對算力的追求正是IT產業不斷進步的源動力之一。在日前舉行的2021阿里雲彈性計算年度峰會上,阿里雲一口氣釋出了多款基於自研神龍架構的彈性計算新品,包括RDMA增強型例項、800G GPU超算例項、FPGA計算型例項、GPU圖形計算型例項等,不僅在效能方面大幅提升,同時增加了多種服務形態,為企業提供了更豐富也更具價效比優勢的產品服務。其中,RDMA增強型例項c7re、800G GPU超算例項更是讓人眼前一亮,c7re是基於第四代神龍架構的首款產品,將Redis混合讀寫效能提升130%,將AI深度學習場景效能提升30%。同樣搭載RDMA高效能網路的還有800G GPU超算例項,將模型訓練效率最大提升9倍。

彈性RDMA到底是什麼黑科技,它有什麼魔力讓計算效能得到大幅提升?

01 從RDMA到彈性RDMA

RDMA是Remote Direct Memory Access的縮寫,直譯是遠端直接資料存取。RDMA本質上是一種記憶體讀寫技術,它將資料直接從一臺計算機的記憶體傳輸到另一臺計算機,無需雙方作業系統和CPU的參與。RDMA的好處是能節省寶貴的CPU資源,還能實現高吞吐、低延遲的網路通訊,非常適合在大規模平行計算機叢集中使用,此前主要應用於高效能計算領域。

近年來,隨著大資料分析和AI應用興起以及一些浪湧型IO高併發、低時延應用出現,網路傳輸瓶頸問題開始凸顯,人們希望透過RDMA的高速通訊能力解決兩個問題,即海量資料的傳輸和時延。

第一個需求以大資料分析和AI訓練最為典型。這兩類應用有一個共同點就是資料量大,資料互動頻繁。如今資料叢集規模越來越大,資料分析規模動則達到PB級,AI訓練模型引數達到萬億級。比如,阿里巴巴達摩院推出的多模態大模型 M6 引數達到 10 萬億。同時,大資料分析和挖掘的時間週期越來越長,時效性越來越差,嚴重影響了業務的效率。

第二類是時間敏感性業務需求。比如,網際網路場景下資料庫業務通常承載高併發的業務需求,尤其是記憶體型資料庫(如Redis)對時延有極高的敏感度。另外,還有工業模擬、自動駕駛等也是對延時極度敏感的業務場景,過大的延遲嚴重影響應用的效果。

傳統RDMA雖然可以滿足資料傳輸的效能需求,但是業務的彈性上往往無法很好的應對,而且應用場景和規模受限。傳統RDMA的不足主要體現在兩個方面:首先是成本,目前實現RDMA的實現方式主要有IB網路、RoCE網路,都需要專用的網絡卡和交換機(這些裝置通常價格昂貴),同時需要配備專人運維,而且需要對應用進行改造。其次,傳統RDMA難以大規模組網,一旦規模上來,非常依賴於交換機的流控能力,否則網路通訊質量會快速下降,丟包嚴重,系統很快面臨崩潰。

阿里雲釋出新計算例項,這項黑科技讓企業都用得起RDMA


阿里雲彈性計算產品線負責人張獻濤

“RDMA的典型應用場景是高效能計算,這種規模都不太大,比如幾百臺、上千臺伺服器的規模情況下,RDMA確實提供非常極致的延時體驗,延遲可以達到1~2微秒左右。但是,由於不能在上萬臺、數萬臺規模叢集用RDMA進行網路通訊,因此無法直接用在雲環境中。”阿里雲彈性計算產品線負責人張獻濤在接受採訪時表示。

張獻濤說,規模化對雲非常關鍵。畢竟,雲資料中心都是幾萬臺伺服器起步。在上萬臺伺服器規模的場景下,如何解決RDMA的規模化和成本等不足,以滿足大資料、AI以及高效能計算的上雲需求,成為阿里雲研發彈性RDMA網路的主攻方向。這其中技術挑戰很大,阿里雲圍繞RDMA進行了多年研發,直到2021年10月份在雲棲大會上阿里雲推出第四代神龍架構,並宣佈首次搭載彈性RDMA網路,阿里雲的彈性RDMA才正式對外公開。

02 將雲計算帶進5微秒時延時代

實際上,這些年來為了滿足各種不同應用對資料高速傳輸的需求,人們一直在不斷改進RDMA,先後有了IB、RoCE、iWARP等各種協議。阿里雲研發的彈性RDMA本質上與它們一樣,只是阿里雲沒有給它一個新名字,簡單稱之為彈性RDMA(eRDMA)。

張獻濤解釋說:“我們內部也給這個RDMA協議取名了,但對外我們還是用通用名字來描述它,主要是希望讓客戶能夠從產品的視角去看待RDMA,這裡‘e’強調的是在雲上的彈性。”

阿里雲釋出新計算例項,這項黑科技讓企業都用得起RDMA

張獻濤介紹,阿里雲對傳統RDMA的改進本質上是在幾個因素,包括延遲、規模化、可靠性等之間做平衡。比如,傳統RDMA和RoCE、IB一樣,延遲很小但可靠性不高,而且難以大規模部署。另外,傳統高效能計算中心裡使用IB網路架構,從應用模型到下面的通訊模型都比較固定。但是,在公有云平臺上應用複雜多樣,可能是AI也有可能是大資料、HPC,還有可能是微服務,要讓改進後的RDMA能適用更多應用型別,更是要做好可靠性、規模化和延遲等眾多因素之間的平衡。

資料表明,阿里雲的平衡做得非常優秀。張獻濤分享了幾個資料:傳統的RDMA延時能做到1~2微秒,阿里雲彈性RDMA延時低至5微秒,但傳統RDMA規模只能做到1000臺左右,而阿里雲彈性RDMA可以做到10萬臺以上,提升了100倍。另外,傳統RDMA在可靠性方面依賴於交換機的優先順序流控,而阿里雲部署於普通交換機上就能確保可靠傳輸。另外,阿里雲面對的是多租戶應用,為此提供了RDMA over VPC的能力來進行多租戶的隔離。

阿里雲能做到這一切的秘密武器就是阿里雲的神龍架構,搭載大規模彈性RDMA加速網路第四代神龍架構,將網路延遲整體降低80%以上,第一次將雲計算帶進5微秒時延時代。

阿里雲透過神龍架構的軟硬體結合和協同設計的思路,實現了自己的RDMA協議。而且在實現底層協議的時候,保持了上層的應用程式設計介面,比如相容Verbs的程式設計介面,這樣傳統的高效能應用直接就可以用,而大資料或者AI類應用也只需要做簡單的介面適配,就可以獲得RDMA網路帶來的高效能通訊能力。另外,還有非常重要的一點是,阿里雲的彈性RDMA大幅降低了應用門檻,無需專用裝置和專用網路,用阿里雲神龍伺服器和VPC網路實現了RDMA技術,而且足夠有“彈性”,想用就能用,隨開隨用,無需花長時間部署,不用專門做最佳化。

阿里雲釋出新計算例項,這項黑科技讓企業都用得起RDMA

實際上,無獨有偶,AWS也從其視角出發研發了類似的技術,這就是EFA。張獻濤說,與AWS的EFA相比,“大家在場景需求思考路徑一樣,但是在具體的實現,在軟硬體介面的協同設計方面,神龍架構有自己的優勢,比如傳輸可靠性、延遲等方面。”

03 掌握關鍵核心技術

神龍架構是阿里雲自研的一個軟硬一體的虛擬化架構,張獻濤正是神龍架構的提出者與發明者。第一代神龍架構於2017年正式釋出,到今年10月份的雲棲大會上阿里雲釋出最新一代神龍架構,已經演進到了第四代。神龍架構透過把虛擬化轉移到專用硬體中進行加速,將物理機的高效能與虛擬機器的靈活性融為一體,虛擬化損耗幾乎為零,效能比傳統物理機更強勁,還可隨時擴容,極大降低了客戶的成本。

本質上神龍架構和當下熱門的DPU要做的事情是一樣的,都是為了解決虛擬化後的管理損耗問題,而把CPU的一些非必要的管理工作解除安裝到專用晶片(如DPU)中,但阿里雲多年以前就提出了整個思路並在2017年有了第一代研究成果,這也正是阿里雲的領先之處。實際上,不只是阿里雲,AWS也在差不多的時間推出了自己的DPU,這就是AWS的Nitro系統,目前Nitro系統也同樣演進到第四代。

阿里雲釋出新計算例項,這項黑科技讓企業都用得起RDMA

“我們兩家都是在雲計算做到一定規模的時候遇到了瓶頸,這就是效能很難提升上去,成本降不下來,服務質量也是提升不上去。在共同的問題的驅動下,大家不約而同地選擇了研發DPU。”張獻濤說。

研發DPU的深層原因在於,目前的IT架構中是以CPU為中心,CPU不只是要進行各種複雜計算還要負責管理和排程各種資源,比如虛擬機器的排程和管理、網路通訊的加解密和資料包的封裝以及各種安全策略的執行等。有研究資料顯示,上述這部分工作可能耗用CPU 30%的算力。把這部分工作解除安裝到效率更高的專用晶片上,不僅可以提高計算效率,還可以降低總體擁有成本,對於那些擁有幾十萬到幾百萬臺伺服器規模資料中心的雲服務商而言,無疑非常有意義。更為重要的是,面對超大規模資料處理的需求,CPU的算力已經達到瓶頸,為CPU減負勢在必行。

其實不僅是雲服務商非常關注DPU,在DPU有望成為繼CPU、GPU之外資料中心第三大晶片的憧憬下,更多的廠商投入DPU的研發中,其中不乏像英偉達、英特爾這樣的行業巨頭。不過,在張獻濤看來,真正能夠把DPU做出來,並且能夠大規模應用的,一定是雲廠商。

“不管是架構設計還是功能特性,雲廠商一定會走在傳統裝置廠商的前面。因為雲廠商有真實業務場景體驗,會從業務視角出發,而傳統廠商因為缺乏業務視角,是很難做出一個通用的DPU,它們更多的是參照雲廠商定義的標準然後再研發自己的DPU。”張獻濤說。

作為新一代虛擬化技術的代表,第四代神龍架構代表了目前DPU最先進的技術水平,其在IO加速、晶片級安全、雲原生彈性和高速網路四大領域做了非常多的最佳化,因而為資料庫、AI、大資料等通用場景帶來效能的飛躍,彈性RDMA就是眾多新增的特性之一。

張獻濤表示,在激烈的市場競爭環境中,掌握關鍵核心技術越來越重要。今天已經全面進入雲時代,算力越來越集中在一些大型雲服務商,如果說像DPU這樣的技術不自己掌控。一旦出現故障,需要修復其中的Bug,後者解決一個安全問題,可能會面臨災難性的後果。

實際上,不止是DPU,在伺服器、網路、儲存乃至整個基礎架構的關鍵核心技術上,阿里雲都在發力。以晶片為例,在今年10月的雲棲大會上,阿里就釋出了自研的Arm晶片倚天710,搭載這款Arm晶片的例項不久會上線。除了通用Arm晶片,阿里還在專用晶片上發力,推出了含光800、玄鐵910等。正因為多年堅持關鍵技術的研發,在Garnter剛釋出的IaaS+PaaS解決方案能力評估報告中,阿里雲IaaS基礎設施能力成績優異,在計算、儲存、網路、安全四項核心評比中均獲高分,超過一些國際大廠。

阿里雲釋出新計算例項,這項黑科技讓企業都用得起RDMA

展望未來,張獻濤表示,在計算方面,一雲多芯、異構計算是阿里雲的長期戰略,未來阿里雲會引入和自研更多晶片,為客戶提供效能更好、更具價效比的算力服務。另外,計算部門還將堅決貫徹阿里雲的發展戰略,支援“一雲多形態”,透過智慧全託管、雲盒、本地Region和中心Region等眾多部署形態,讓阿里雲的服務更加靠近客戶。同時,構建開放的生態,透過計算巢把阿里雲的IaaS能力開放出來,讓ISV和阿里雲的客戶能基於此更好地進行創新,更好地服務自己的客戶,以加速各自的數字化轉型程序。

分類: 娛樂
時間: 2021-12-27

相關文章

6天票房賣了10萬,潘長江女兒新片沒人看,10餘位明星助陣都白搭

6天票房賣了10萬,潘長江女兒新片沒人看,10餘位明星助陣都白搭
可能這些年娛樂圈中的明星太多了,所以星二代也不再稀缺,沒有了以前的光環. 這不,眼前就有一個活生生的例子,潘長江女兒新片請來10餘位明星都沒人看,上映6天票房才賣了10萬,這樣拉胯的資料,恐怕想回本都 ...

身高最有欺騙性的7位女星,看臉是大高個,實際上卻不到1米七

身高最有欺騙性的7位女星,看臉是大高個,實際上卻不到1米七
所謂"高個臉"與"矮個臉",有人看臉感覺不太高,而有人看臉就覺得身形魁偉,得有一米八以上. 但實際上,身高和臉有時候並不對等,像毛不易,乍一看認為他只有一米七出 ...

人前是巨星,人後是玩物?這些明星早就翻身成資本大佬了

人前是巨星,人後是玩物?這些明星早就翻身成資本大佬了
當下的明星也太突破審美下限了吧? 尤其是古裝劇,簡直可以說是"醜男橫行". 因此,有不少網友懷念以前的"煤老闆審美",吐槽現在的資本眼光太差. 甚至還有網友調侃 ...

輟學是為了看日出?這個“一貓一狗一人”的旅行團,有錢有閒

輟學是為了看日出?這個“一貓一狗一人”的旅行團,有錢有閒
我聽說過輟學的原因一般是因為貧困沒辦法,或者是有錢不用讀書,還有人輟學是為了看日出?這個倒還有點新奇,還是帶著一隻哈士奇和狸花貓一起,貓狗不是天敵嗎?能和平相處的嗎?還真有,他帶著他的貓狗已經探索世界 ...

那些一刀切削骨的明星還好嗎?後遺症一大堆,小方臉成最大贏家

那些一刀切削骨的明星還好嗎?後遺症一大堆,小方臉成最大贏家
娛樂圈裡雲集各種不同風格的帥哥美女,想要在一眾容貌出色的人中出頭,五官漂亮固然重要,可是鏡頭對於臉型也格外挑剔. 因此很多明星都選擇了去削骨. 可是太多明星削錯骨了-- 大家通常說的削骨,就是下頜骨切 ...

單眼皮歪嘴還有齙牙,五官不端正卻依舊絕美的明星,只服這7位

單眼皮歪嘴還有齙牙,五官不端正卻依舊絕美的明星,只服這7位
01.嘴歪的金晨 金晨嘴有點歪已經不是什麼秘密了. 她自己也回應過,毫不在意. 除了嘴,還有她的鼻子也被人質疑過. 在被人質疑鼻子不好看之後,金晨本人還特別回應,一副大大咧咧不在乎的樣子. 作為女演員 ...

人前好閨蜜,人後是死敵?這6對“明星姐妹花”,永遠不會和好

人前好閨蜜,人後是死敵?這6對“明星姐妹花”,永遠不會和好
娛樂圈是個名利場,大家同在一個圈子,總會有一些利益牽扯.然而,一旦利益分配不均時,雙方的關係必然會受到影響. 時間一久,有些好姐妹.好兄弟的關係,就會因為利益而受到影響,進而變得微妙,甚至撕破臉,互相 ...

26年後看《孽債》:嚴曉頻像王菲、思凡真帥、女神就是池華瓊

26年後看《孽債》:嚴曉頻像王菲、思凡真帥、女神就是池華瓊
當年熱淚盈眶看完的熱播劇<孽債>,承載著多少粉絲對這部作品的摯愛.可惜,1995年沒有"粉絲"一說. 據說,當年電視臺當天要播出"群星愛心演唱會", ...

11年後再看《唐山大地震》,我終於明白了徐帆為什麼要救兒子

11年後再看《唐山大地震》,我終於明白了徐帆為什麼要救兒子
2009年,張子楓8歲,她被馮小剛相中去拍了電影<唐山大地震>. 可是拍完這部電影,張子楓久久都沒有從這部電影之中走出來,原因就是她腦中的那麼一個疑惑,那就是:"為什麼都是孩子, ...

闊太用上海5棟別墅換十八羅漢,專家一看兩眼放光:值5000萬

闊太用上海5棟別墅換十八羅漢,專家一看兩眼放光:值5000萬
闊太用上海5棟別墅換十八羅漢,專家估價5000萬,闊太卻悔恨不已 所謂亂世黃金,太平古董,如今隨著人民物質生活水平的直線提高,大多數人都已經走上了小康社會,溫飽再也不是人們為之頭疼發藍的問題了,既然人 ...

閆妮來鄉下工作,穿的比同齡人年輕時髦,但一看臉還沒素人漂亮

閆妮來鄉下工作,穿的比同齡人年輕時髦,但一看臉還沒素人漂亮
閆妮其實現在的話,有的時候狀態真的是沒有那麼多好,因為她身材本來就是屬於那種有點發福的,所以整個人看起來就顯得特別的胖,尤其是看到她素顏的時候的臉蛋的話,整個看著非常的蒼老的,臉看起來更是顯得特別的憔 ...

日式風格裝修真的太溫馨了,全屋原木色系,看上去幹淨整潔,喜歡

日式風格裝修真的太溫馨了,全屋原木色系,看上去幹淨整潔,喜歡
簡潔,是日式設計中最重要的基調:清晰簡練的線條結構,帶給空間極強的立體感:樸素自然的色調,形成日式獨特的素雅之風:兩者的碰撞和交融,再透過藝術手法加以表現,讓整個空間盡顯優雅之態,將禪意展現得淋漓盡致 ...

被惡搞喝油漆、明星在素人家訴苦,盤點綜藝裡讓人氣憤的6大場面

被惡搞喝油漆、明星在素人家訴苦,盤點綜藝裡讓人氣憤的6大場面
01 不知道從什麼時候開始,明星們在享受高片酬的同時,還擁有了不知哪冒出來的"特權". 例如利用明星身份試圖在講價中獲得優勢,又或者是以明星身份隨意佔用公共資源. 綜藝<親愛 ...

環球影城穿搭明星速成教學

環球影城穿搭明星速成教學
不知道大家最近有沒有發現,微博熱搜都被"北京環球影城偶遇xxx"霸屏.自從開放試營業以來,這裡就成為最容易偶遇明星的景點之一了.網友們紛紛表示我和我的愛豆就差了一個內測機會! EL ...

明星基金經理換倉啦?坤坤或有“新歡”,葛蘭“變換陣型”,劉格菘“交銀三劍客”各自出新

明星基金經理換倉啦?坤坤或有“新歡”,葛蘭“變換陣型”,劉格菘“交銀三劍客”各自出新
作者 | 艾皛 編輯 | 袁暢 2021年國慶長假後,A股市場一片熱氣騰騰.盤中個股普漲,茅指數成分股帶著消費.旅遊.週期股掩殺而來,而新能源和新能車略有後撤. 這構成了觀察各位明星基金經理的絕佳時刻 ...

讀《素書》七:富在迎來,貧在棄時——得失之間看格局
得失之間看格局 昨天討論了<安禮章>這個標題.要安於禮,因禮而安,一是天下安,二是自己安. 安禮章開篇五句話,對如何修煉自己,提升格局,實現"自安"很有啟發. 怨在不捨 ...

娛樂圈裡的5對塑膠姐妹情,章子怡“勢利眼”,謝娜誰紅和誰玩?

娛樂圈裡的5對塑膠姐妹情,章子怡“勢利眼”,謝娜誰紅和誰玩?
娛樂圈裡的情感真真假假說不清,這幾年翻車的明星夫婦更是數不勝數,而那些塑膠姐妹情也一度成為了網友們茶餘飯後的談論焦點.其實,在這個圈子裡,很多建立友誼的基礎便是現實. 有些人紅的時候朋友圈十分熱鬧,過 ...

遊本昌:52歲演濟公,晚年出家、賣房、賠光家產,人生比劇本傳奇

遊本昌:52歲演濟公,晚年出家、賣房、賠光家產,人生比劇本傳奇
<濟公劇照> 「沒有小角色,只有小演員.」 01. 37年前,遠在大連拍戲的遊本昌,接到妻子打來的電話.妻子說上海電視臺很欣賞他的表演風格,想讓他拍喜劇<濟公>,希望他得空可以 ...

6年虧了30萬,我是如何在二手寶馬上翻車的?

6年虧了30萬,我是如何在二手寶馬上翻車的?
果不其然,我的客官老爺裡還是德粉比較多,上期節目發出去以後是近幾期互動量最大的節目,作為塑膠德粉的我倍感欣慰~ 經過上期的投票,大多數客官老爺本期還是更想看寶馬特輯,話不多說,安排! 上期漏了一個大眾 ...

32張電影特效前後對比!原來是這樣拍出來的

32張電影特效前後對比!原來是這樣拍出來的
這些年好萊塢的各種超現實大片以迅雷不及掩耳之勢興起,各種大製作加上特效,簡直讓人目不暇接,再回頭看看以前的五毛錢特效,簡直隔著螢幕都覺得尷尬,雖然我們看電影的時候可能會看出來哪裡是加了特效的,但是對特 ...