sponsored links

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370

在7nm製程工藝、chiplet、LPDDR5記憶體、MagicMind推理加速引擎等技術加持下,11月3日,寒武紀釋出了國內首顆chiplet AI晶片思元370。值得關注的是,這款思元370在去年三季度就已完成流片,並於今年二季度陸續送測客戶。寒武紀延續低調傳統,依然選在客戶完成測試、匯入並進入早期銷售階段後才對外發布,新品效能表現超出預期,收穫客戶認可及好評。

2021年11月3日,寒武紀釋出第三代雲端AI晶片思元370、基於思元370的兩款加速卡MLU370-S4和MLU370-X4、全新升級的Cambricon Neuware軟體棧。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ 寒武紀第三代雲端AI晶片思元370

基於7nm製程工藝,思元370是寒武紀首款採用chiplet(芯粒)技術的AI晶片,集成了390億個電晶體,最大算力高達256TOPS(INT8),是寒武紀第二代產品思元270算力的2倍。憑藉寒武紀最新智慧晶片架構MLUarch03,相較於峰值算力的提升,思元370實測效能表現更為優秀:以ResNet-50為例,MLU370-S4加速卡(半高半長)實測效能為同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全長)實測效能與同尺寸主流GPU相當,能效則大幅領先。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ 寒武紀MLU370-S4(左)與MLU370-X4加速卡

思元370也是國內第一顆支援LPDDR5記憶體的雲端AI晶片,記憶體頻寬是上一代產品的3倍,訪存能效達GDDR6的1.5倍。

同時,寒武紀全新升級了Cambricon Neuware軟體棧,新增推理加速引擎MagicMind,實現訓推一體,顯著提升了開發部署的效率,降低使用者的學習成本、開發成本和運營成本。

新一代智慧處理器架構MLUarch03

寒武紀智慧處理器架構MLUarch03,擁有新一代張量運算單元,內建Supercharger模組大幅提升各類卷積效率;採用全新的多運算元硬體融合技術,在軟體融合的基礎上大幅減少運算元執行時間;片上通訊頻寬是上一代MLUarch02的2倍、片上共享快取容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完備,更高效且向前相容。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ Supercharger和多運算元硬體融合技術

有7nm先進工藝和全新MLUarch03架構的加持,思元370晶片算力最高可達256TOPS(INT8),是上一代產品思元270算力的2倍。相較於峰值算力的提升,思元370在實測效能和能效方面的表現更為優秀:以ResNet-50為例,MLU370-S4加速卡(半高半長)實測效能為同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全長)實測效能與同尺寸主流GPU相當,能效則大幅領先。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ 7nm先進工藝和全新MLUarch03架構加持, 思元370實測效能和實測能效超市場主流GPU產品

*測試環境:

MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU資料:ResNet-50來自於相關產品官網,Transformer、VGG16、YOLOv3均取自實測最大吞吐效能。

思元370全面加強了FP16、BF16以及FP32的浮點算力,同時支援推理和訓練任務。此外,思元370還是國內第一顆支援LPDDR5的雲端AI晶片,記憶體頻寬是上一代產品的3倍,訪存能效達GDDR6的1.5倍。

值得強調的是,寒武紀堅持自研智慧晶片架構、指令集,是全球範圍內在該技術方向積累最為深厚的公司之一。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ 寒武紀智慧晶片架構演進

先進chiplet技術

思元370採用chiplet(芯粒)技術,在一顆晶片中封裝2顆AI計算芯粒(MLU-Die),每一個MLU-Die具備獨立的AI計算單元、記憶體、IO以及MLU-Fabric控制和介面,透過MLU-Fabric保證兩個MLU-Die間的高速通訊,可以透過不同MLU-Die組合規格多樣化的產品,為使用者提供適用不同場景的高性價比AI晶片。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ 思元370採用chiplet技術, 可實現不同算力、記憶體和編解碼器的組合

MLU-Fabric是實現芯粒技術的關鍵所在。它為兩個MLU-Die提供低功耗、低延時和超高頻寬的互聯,支援晶片上實現統一的記憶體獲取和地址對映,建立虛擬通路避免程序死鎖,支援資料校驗錯誤發生時進行資料重傳,保證資料準確性。

得益於芯粒技術,思元370可透過不同的組合為客戶提供更多樣化的產品選擇,此次寒武紀釋出了兩款加速卡,未來還將推出更多基於思元370的產品。

全新推理加速引擎MagicMind

MagicMind是寒武紀全新打造的推理加速引擎,也是業界首個基於MLIR圖編譯技術達到商業化部署能力的推理引擎。MagicMind支援跨框架的模型解析、自動後端程式碼生成及最佳化。在MLU、GPU、CPU訓練好的演算法模型上,藉助MagicMind,使用者僅需投入極少的開發成本,即可將推理業務部署到寒武紀全系列產品上,並獲得頗具競爭力的效能。

MagicMind的優勢不僅在於可以提供極致的效能、可靠的精度以及簡潔的程式設計介面,讓使用者能夠專注於業務本身,無需理解晶片更多底層細節就可實現模型的快速高效部署,MagicMind外掛化的設計還可以滿足在效能或功能上追求差異化競爭力的客戶需求。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ 推理加速引擎MagicMind是寒武紀軟體棧Cambricon Neuware全新升級的重要組成部分

訓推一體的Cambricon Neuware

為了加快使用者端到端業務落地的速度,減少模型訓練研發到模型部署之間的繁瑣流程,寒武紀的統一基礎軟體平臺Cambricon Neuware整合了訓練和推理的全部底層軟體棧,包括底層驅動、執行時庫、運算元庫以及工具鏈等,將MagicMind和深度學習框架Tensorflow,Pytorch深度融合,實現訓推一體。依託於訓推一體,在寒武紀全系列計算平臺上,從雲端到邊緣端,使用者均可以無縫地完成從模型訓練到推理部署的全部流程,進行靈活的訓練推理業務混布和潮汐式的業務切換,可快速響應業務變化,提升算力利用率,降低運營成本。

在通用性方面,Cambricon Neuware支援FP32、FP16混合精度、BF16和自適應精度訓練等多種訓練方式並提供靈活高效的訓練工具,高效能運算元庫已完整覆蓋視覺、語音、自然語言處理和搜尋推薦等典型深度學習應用,可滿足使用者對於運算元覆蓋率以及模型精度的需求。

全新推理加速引擎MagicMind和訓推一體特性,將為使用者帶來更為便捷、高效的開發體驗,大幅降低學習成本、開發成本和運營成本。

領先的媒體效能,支援8K解碼

思元370升級了影片影象編解碼單元,可提供更高效的影片處理能力和更優的編碼質量,支援更復雜、更繁重、低延時要求的計算機視覺任務。

解碼方面,思元370集成了強大的媒體效能,可支援132路1080p影片解碼或10路8K影片解碼。編碼方面,全新編碼器透過靈活的位元速率最佳化(RDO)控制、多參考幀、二次編碼等特性組合,在相同影象質量(全高畫質影片PSNR)的情況下比上一代產品節省42%頻寬,有效降低頻寬成本。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ 思元370影片編碼質量顯著提升

*測試環境:

MLU270-S4:SYS-4029GP-TRT/2x Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz

MLU370-S4:NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz

影片內容:BQTerrace_1920x1080_60.yuv

內建安全模組,加強資料安全保護

寒武紀高度重視使用者隱私,保護資料和模型的安全,在思元370晶片內建安全模組,切實保障使用者資訊保安。思元370是寒武紀第一顆支援國內外主流加密標準的雲端晶片,支援使用者資料、深度學習模型的加解密以及計算結果的加密輸出,透過信任根的方式,保障AI晶片在啟動及執行過程中載入的所有程式碼的安全性,還支援遠端認證,使用者可在業務執行過程中遠端驗證AI環境安全性。透過多方面的安全特性,思元370系列產品將更好地確保使用者AI業務安全。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ 安全啟動驗證過程

搭載思元370的兩款AI加速卡正式亮相

此次釋出中,兩款基於思元370的加速卡正式亮相:高密度、半高半長、功耗75W的MLU370-S4智慧加速卡和高效能、全高全長、功耗150W的MLU370-X4智慧加速卡。與上一代產品相比,370系列加速卡在效能、能效方面都有更為卓越的表現。例如,對標準ResNet-50v1進行軟體定製最佳化後,MLU370-X4加速卡效能高達30204fps。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ 寒武紀MLU370-S4加速卡

在Cambricon Neuware SDK上實測,在常用的4個深度學習網路模型上,MLU370-S4加速卡的效能平均接近市場主流70W GPU的2倍。而在能效方面,MLU370-S4優勢更為明顯,處理相同AI任務相較於70W GPU用電量減少50%以上,將有力地幫助使用者實現“雙碳”目標。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ 相比主流同尺寸GPU產品, MLU370-S4加速卡效能優勢明顯

*測試環境:

MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU資料來自於相關產品官網。

MLU370-S4加速卡在解碼方面具有強勁競爭力,相較於同尺寸GPU,可提供3倍的解碼能力和1.5倍的編碼能力。總體而言,MLU370-S4加速卡的能效出色,體積小巧,可在伺服器中實現高密度部署。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ 寒武紀MLU370-X4加速卡

MLU370-X4加速卡的優勢則表現為高效能,算力可達256TOPS(INT8),加強了FP16、FP32的計算效能,新增BF16計算型別。

在Cambricon Neuware SDK上實測,常用的4個深度學習網路模型中,MLU370-X4加速卡與市場主流150W GPU相比,效能表現2項持平2項更優,實測能效則為GPU的2倍。比如YOLOv3網路中,MLU370-X4的效能是150W GPU效能的1.5倍,能效為GPU的2.5倍。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ 相比主流GPU產品,MLU370-X4效能領先

*測試環境:

MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU資料:ResNet-50來自於相關產品官網,Transformer、VGG16、YOLOv3均取自實測最大吞吐效能。

國內首顆chiplet AI晶片,寒武紀釋出第三代雲端晶片思元370


▲ MLU370-S4、MLU370-X4加速卡規格

370系列加速卡廣受客戶期待,

思元全系列產品為產業升級提供算力支撐

從雲端推理思元270、邊緣推理思元220、雲端訓練思元290,到最新發布的推訓一體思元370,寒武紀為使用者提供了覆蓋不同場景、不同算力規模的全系列產品。此次釋出的256TOPS算力的思元370主要面向中高階推訓場景,與主要面向訓練的512TOPS高階產品思元290形成協同,共同為客戶提供全功能、全場景的智慧算力。

思元370在2020年三季度流片,相關加速卡產品於2021年二季度陸續送測客戶。目前,部分客戶已完成測試、匯入,產品進入早期銷售階段。

思元370系列加速卡已與國內主流網際網路廠商開展深入的應用適配,在語音、視覺等場景的效能表現超出客戶預期。

阿里雲基礎設施異構計算負責人張偉豐博士表示:“阿里雲基礎設施異構計算團隊已經完成了思元370的測試及匯入,結合阿里雲震旦異構計算加速平臺完成了ODLA的介面適配,總體效能表現超出預期。雙方將在vODLA池化,HALO編譯以及面向業務場景的效能調優等技術領域深度合作。”

百度異構計算架構師黎世勇對思元370也同樣充滿期待,他說:“自2018年起,百度與寒武紀展開了多維度的軟硬體協作,思元100等產品服務百度語音合成等多種業務場景。我們相信,隨著思元370等新產品的落地,雙方軟硬體充分結合的生態勢必將發揮更大的效能,助力人工智慧行業多場景落地。”

除網際網路之外,近年來,寒武紀在智慧金融、智慧能源、智慧交通等行業與合作伙伴共同完成了諸多落地案例。

“今年年初,招商銀行已成功上線基於寒武紀上一代雲端推理產品思元270的智慧模型推理服務,並憑藉高效、便捷、安全的服務贏得了金融客戶的高度認可。”招商銀行人工智慧實驗室負責人李金龍介紹了寒武紀與招商銀行的合作內容,就未來深化合作表示說:“寒武紀第三代產品思元370,在效能、通用性和軟體易用性等方面均達到業內領先水平,我們希望與寒武紀繼續深化合作,一同為智慧金融等應用場景提供更高質量的人工智慧計算服務。”

思元370系列加速卡已與國內主流伺服器合作伙伴完成適配。浪潮資訊副總裁、人工智慧和高效能產品線總經理劉軍表示:“浪潮跟寒武紀長久以來保持著緊密合作,思元370在效能、能效等方面較之思元270均有大幅提升,我們期待雙方未來能夠攜手為更多行業和領域提供人工智慧計算相關服務。”劉軍還介紹了與寒武紀之前合作的進展:“浪潮搭載寒武紀晶片的AI伺服器已經在中國移動、網際網路、智算中心等客戶和行業中實現落地。”



寒武紀長期秉承“雲邊端一體、訓推一體、軟硬體協同”的技術理念。370新品釋出和寒武紀統一基礎軟體平臺Cambricon Neuware的全新升級,將這一技術理念的落實又向前推進了重要的一步。

寒武紀用自己的研發實力和研發速度向市場印證自己的初心與決心:為人工智慧的大爆發提供最好用的AI晶片,讓機器更好地理解和服務人類。

分類: 數碼
時間: 2021-11-04

相關文章

手把手教你,如何解鎖 戴爾G15 RTX 3060 130W功率+獨顯直連

手把手教你,如何解鎖 戴爾G15 RTX 3060 130W功率+獨顯直連
前言 2021年選一款遊戲本有兩點非常重要:一個是看顯示卡的功耗.另一個是看有沒有獨顯直連.因為這兩點會直接影響筆記本效能,尤其是遊戲效能.在7月份的時候,曾經給表弟推薦了戴爾 DELL 遊匣 G15 ...

機械革命Umi Pro開始預售:AMD銳龍9、RTX3070,獨顯直連全有

機械革命Umi Pro開始預售:AMD銳龍9、RTX3070,獨顯直連全有
對於想買遊戲本的小夥伴來說,今年選購機型確實有點困難,很多熱門筆記本都缺貨漲價,購買成本高.價效比卻不高.但也有一些例外,比如機械革命推出的Umi Pro新品開始預售了,這款筆記本採用了頂配AMD處理 ...

紅米銳龍游戲本重磅釋出,全系標配光追獨顯,5000元價效比之皇?

紅米銳龍游戲本重磅釋出,全系標配光追獨顯,5000元價效比之皇?
九月的數碼圈異常熱鬧,以蘋果秋季新品釋出會為起點,各大數碼廠商也都紛紛推出了旗下的重磅新品,就彷彿是往一鍋"火鍋"裡,塞入各種各樣的菜品,需要使用者們去細心品味.關於最近新出的旗艦 ...

戴爾靈越14 Pro推新版:MX450獨顯沒了,CPU升級價格不變

戴爾靈越14 Pro推新版:MX450獨顯沒了,CPU升級價格不變
對於戴爾靈越14 Pro這款筆記本,在今年的輕薄產品裡還是比較不錯的,至少產品的價格以及一些細節設計上,絲毫不必網紅級別的聯想小新Pro系列差,所以兩者都有各自的擁躉.而戴爾的優勢,可能就是現貨,以及 ...

紅米遊戲本2021款有啥賣點:AMD處理器、獨顯直連,你要的它全有

紅米遊戲本2021款有啥賣點:AMD處理器、獨顯直連,你要的它全有
最近紅米越來越多在曝光自家紅米遊戲本G的訊息,也引起了不少人的期待.此前紅米已經推出過自家的遊戲本產品,不過產品反饋只能說差強人意,畢竟還是以價效比為主導優勢,產品配置.效能釋放等都有提升空間.而這代 ...

真滿血3070獨顯 & AMD臺式CPU,吾空X5空妖2筆記本再續傳奇

真滿血3070獨顯 & AMD臺式CPU,吾空X5空妖2筆記本再續傳奇
9月20日,搭載NVIDIA RTX 3070 8G獨顯以及AMD第三代銳龍5000系桌上型電腦CPU的膝上型電腦,吾空X5空妖2全球首發.配備了NVIDIA RTX 3070 8G滿血版顯示卡及主頻 ...

英特爾獨顯渲染圖曝光 雙散熱風扇

英特爾獨顯渲染圖曝光 雙散熱風扇
芯研所訊息,近日@Moore's Law is Dead爆料一組關於Intel獨立顯示卡Arc Alchemist的渲染圖片,根據圖片內容顯示,Intel獨顯採用雙風扇散熱設計,風扇周圍還裝有LED燈 ...

ThinkBook 15p新品登場,配置RTX3050 MaxQ獨顯,僅7999元

ThinkBook 15p新品登場,配置RTX3050 MaxQ獨顯,僅7999元
很多時候,人們想要一臺效能更強,圖形能力更強的筆記本,但只是用來工作,製圖.剪輯等等,這時候,類似以往的移動工作站,現在的設計師筆記本就脫穎而出,成為很多人的關注物件了. 而這次,ThinkBook ...

ROG魔霸新銳混合模式綜合體驗跑贏獨顯直連,240Hz好屏是關鍵
網遊從來不缺少現象級的產品,幾年前的<絕地求生>,今年網易的<永劫無間>,都以或唯美或真實的畫面.酣暢的操縱感,吸引了大批玩家重回端遊.但這類手遊對電腦的配置.螢幕要求很高,這 ...

微星武士66遊戲本:RTX3050光追獨顯,最新直連技術,售價緊逼6千

微星武士66遊戲本:RTX3050光追獨顯,最新直連技術,售價緊逼6千
最近微星武士66有點火爆,一度在各大電商平臺位居熱銷榜前十.那麼在眾多的RTX3050顯示卡的遊戲本中,微星武士66受歡迎主要原因是什麼,難道是緊逼6千的售價嗎?感興趣的朋友我們就一起來了解一下. 微 ...

對配置要求不高,偶爾玩3A遊戲的大學生,買輕薄本還是遊戲本?

對配置要求不高,偶爾玩3A遊戲的大學生,買輕薄本還是遊戲本?
遊戲本就是名字沒取好,其實應該是高效能筆記本才對,除了重量和造型(造型主要是指在公共場合拿出來不尷尬,並不一定是說輕薄本就比遊戲本好看,不過這兩年也有很多偏商務造型的遊戲本出來了),遊戲本是全面碾壓輕 ...

53歲周濤私下工作狀態曝光!紅裙配運動鞋顯俏皮,單手叉腰好可愛

53歲周濤私下工作狀態曝光!紅裙配運動鞋顯俏皮,單手叉腰好可愛
近日,有網友在社交平臺上曬出一則周濤在臺下候場的工作狀態影片,引發網友關注. 影片中周濤身穿一襲紅裙配運動鞋,打扮很是混搭,一頭波浪捲髮端莊中的透露著些許嫵媚,一條銀色金屬腰帶勒出細腰.由於天氣太熱的 ...

筆記本獨顯無法使用

筆記本獨顯無法使用
我的筆記本大家幫我看看,外接顯示器怎麼用獨立顯示卡輸出,現在不論我怎麼設定都是整合顯示卡輸出,或者你有什麼好辦法讓我用上獨立顯示卡輸出

紅米強勢出擊!光追獨顯+5800H+144Hz高刷屏,才賣5699起?

紅米強勢出擊!光追獨顯+5800H+144Hz高刷屏,才賣5699起?
現在的手機市場,各個廠商們打得不可開交,而在筆記本市場也迎來了新的競爭,除了像聯想,戴爾一類的傳統筆記本廠商之外,新興的手機廠商也都在筆電市場取得了不錯的成績. 就比如紅米系列在筆記本市場就拿下了非常 ...

隴南徽縣出土宋代豪華墓葬 墓室華麗 色彩斑斕 獨顯當時墓制

隴南徽縣出土宋代豪華墓葬 墓室華麗 色彩斑斕 獨顯當時墓制
墓葬內圖景 在甘肅隴南徽縣柳林鎮出土了一穴宋代非常典型的墓葬,墓葬屬空墓,沒有安葬墓主人,也沒有陪葬品,顯然這座墓葬是墓主人還活著的時候給自己修建的墓葬,但為什麼最終沒有安葬墓主人我們不得而知,但從墓 ...

體驗低配第七代伊蘭特,軸距超2米7配自動擋,油耗低至5.3L/100km

體驗低配第七代伊蘭特,軸距超2米7配自動擋,油耗低至5.3L/100km
預算十萬左右,絕大部分消費者買車,可能不會考慮低配入門級車型.但在筆者看來,若是僅用於日常家用代步,目前車市中,還是有一些車型是可以考慮的,比如咱們今天的主角--第七代伊蘭特,就比較不錯. 怎麼說?第 ...

輕薄本處理器怎麼選?5800U、1165G7還是1135G7?

輕薄本處理器怎麼選?5800U、1165G7還是1135G7?
移動辦公需求增長等原因下,輕薄本成為更多人的購買選擇.CPU作為筆記本的核心大腦,選擇一款適合自己的處理器是十分重要的.2021年輕薄本處理器市場精彩紛呈,英特爾和AMD都推出了幾款比較優秀的產品,例 ...

最強 Surface 來了,微軟釋出 Surface Laptop Studio 等多款新品

最強 Surface 來了,微軟釋出 Surface Laptop Studio 等多款新品
沒有 Surface Book 4,迎來的是 Surface Laptop Studio. 在昨晚的微軟 Surface 新品釋出會上,微軟釋出了包括全新 Surface Laptop Studio ...

救救孩子吧!顯示卡依然難買的開學季如何配電腦?

救救孩子吧!顯示卡依然難買的開學季如何配電腦?
一.前言 一晃眼,618過去好幾個月了,開學季又來臨了,想必一部分童鞋迎來了畢業季,接下來要更換新地圖了.這不,我家的那個熊孩子也小學畢業了,成功換到了初中副本.透過開學一週的體驗發現,小傢伙似乎比小 ...

華碩a豆Redolbook14輕薄本:配8核CPU,續航12小時,售價不足四千

華碩a豆Redolbook14輕薄本:配8核CPU,續航12小時,售價不足四千
最近華碩a豆Redolbook14有點火熱,它是一款售價不足四千元的輕薄膝上型電腦,還高配了8核心的CPU,這在一線品牌機中還是不多見的.那麼華碩a豆Redolbook14的真實效能及配置情況如何,下 ...