在7nm製程工藝、chiplet、LPDDR5記憶體、MagicMind推理加速引擎等技術加持下,11月3日,寒武紀釋出了國內首顆chiplet AI晶片思元370。值得關注的是,這款思元370在去年三季度就已完成流片,並於今年二季度陸續送測客戶。寒武紀延續低調傳統,依然選在客戶完成測試、匯入並進入早期銷售階段後才對外發布,新品效能表現超出預期,收穫客戶認可及好評。
2021年11月3日,寒武紀釋出第三代雲端AI晶片思元370、基於思元370的兩款加速卡MLU370-S4和MLU370-X4、全新升級的Cambricon Neuware軟體棧。
基於7nm製程工藝,思元370是寒武紀首款採用chiplet(芯粒)技術的AI晶片,集成了390億個電晶體,最大算力高達256TOPS(INT8),是寒武紀第二代產品思元270算力的2倍。憑藉寒武紀最新智慧晶片架構MLUarch03,相較於峰值算力的提升,思元370實測效能表現更為優秀:以ResNet-50為例,MLU370-S4加速卡(半高半長)實測效能為同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全長)實測效能與同尺寸主流GPU相當,能效則大幅領先。
▲ 寒武紀MLU370-S4(左)與MLU370-X4加速卡
思元370也是國內第一顆支援LPDDR5記憶體的雲端AI晶片,記憶體頻寬是上一代產品的3倍,訪存能效達GDDR6的1.5倍。
同時,寒武紀全新升級了Cambricon Neuware軟體棧,新增推理加速引擎MagicMind,實現訓推一體,顯著提升了開發部署的效率,降低使用者的學習成本、開發成本和運營成本。
新一代智慧處理器架構MLUarch03
寒武紀智慧處理器架構MLUarch03,擁有新一代張量運算單元,內建Supercharger模組大幅提升各類卷積效率;採用全新的多運算元硬體融合技術,在軟體融合的基礎上大幅減少運算元執行時間;片上通訊頻寬是上一代MLUarch02的2倍、片上共享快取容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完備,更高效且向前相容。
有7nm先進工藝和全新MLUarch03架構的加持,思元370晶片算力最高可達256TOPS(INT8),是上一代產品思元270算力的2倍。相較於峰值算力的提升,思元370在實測效能和能效方面的表現更為優秀:以ResNet-50為例,MLU370-S4加速卡(半高半長)實測效能為同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全長)實測效能與同尺寸主流GPU相當,能效則大幅領先。
▲ 7nm先進工藝和全新MLUarch03架構加持, 思元370實測效能和實測能效超市場主流GPU產品
*測試環境:
MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU資料:ResNet-50來自於相關產品官網,Transformer、VGG16、YOLOv3均取自實測最大吞吐效能。
思元370全面加強了FP16、BF16以及FP32的浮點算力,同時支援推理和訓練任務。此外,思元370還是國內第一顆支援LPDDR5的雲端AI晶片,記憶體頻寬是上一代產品的3倍,訪存能效達GDDR6的1.5倍。
值得強調的是,寒武紀堅持自研智慧晶片架構、指令集,是全球範圍內在該技術方向積累最為深厚的公司之一。
先進chiplet技術
思元370採用chiplet(芯粒)技術,在一顆晶片中封裝2顆AI計算芯粒(MLU-Die),每一個MLU-Die具備獨立的AI計算單元、記憶體、IO以及MLU-Fabric控制和介面,透過MLU-Fabric保證兩個MLU-Die間的高速通訊,可以透過不同MLU-Die組合規格多樣化的產品,為使用者提供適用不同場景的高性價比AI晶片。
▲ 思元370採用chiplet技術, 可實現不同算力、記憶體和編解碼器的組合
MLU-Fabric是實現芯粒技術的關鍵所在。它為兩個MLU-Die提供低功耗、低延時和超高頻寬的互聯,支援晶片上實現統一的記憶體獲取和地址對映,建立虛擬通路避免程序死鎖,支援資料校驗錯誤發生時進行資料重傳,保證資料準確性。
得益於芯粒技術,思元370可透過不同的組合為客戶提供更多樣化的產品選擇,此次寒武紀釋出了兩款加速卡,未來還將推出更多基於思元370的產品。
全新推理加速引擎MagicMind
MagicMind是寒武紀全新打造的推理加速引擎,也是業界首個基於MLIR圖編譯技術達到商業化部署能力的推理引擎。MagicMind支援跨框架的模型解析、自動後端程式碼生成及最佳化。在MLU、GPU、CPU訓練好的演算法模型上,藉助MagicMind,使用者僅需投入極少的開發成本,即可將推理業務部署到寒武紀全系列產品上,並獲得頗具競爭力的效能。
MagicMind的優勢不僅在於可以提供極致的效能、可靠的精度以及簡潔的程式設計介面,讓使用者能夠專注於業務本身,無需理解晶片更多底層細節就可實現模型的快速高效部署,MagicMind外掛化的設計還可以滿足在效能或功能上追求差異化競爭力的客戶需求。
▲ 推理加速引擎MagicMind是寒武紀軟體棧Cambricon Neuware全新升級的重要組成部分
訓推一體的Cambricon Neuware
為了加快使用者端到端業務落地的速度,減少模型訓練研發到模型部署之間的繁瑣流程,寒武紀的統一基礎軟體平臺Cambricon Neuware整合了訓練和推理的全部底層軟體棧,包括底層驅動、執行時庫、運算元庫以及工具鏈等,將MagicMind和深度學習框架Tensorflow,Pytorch深度融合,實現訓推一體。依託於訓推一體,在寒武紀全系列計算平臺上,從雲端到邊緣端,使用者均可以無縫地完成從模型訓練到推理部署的全部流程,進行靈活的訓練推理業務混布和潮汐式的業務切換,可快速響應業務變化,提升算力利用率,降低運營成本。
在通用性方面,Cambricon Neuware支援FP32、FP16混合精度、BF16和自適應精度訓練等多種訓練方式並提供靈活高效的訓練工具,高效能運算元庫已完整覆蓋視覺、語音、自然語言處理和搜尋推薦等典型深度學習應用,可滿足使用者對於運算元覆蓋率以及模型精度的需求。
全新推理加速引擎MagicMind和訓推一體特性,將為使用者帶來更為便捷、高效的開發體驗,大幅降低學習成本、開發成本和運營成本。
領先的媒體效能,支援8K解碼
思元370升級了影片影象編解碼單元,可提供更高效的影片處理能力和更優的編碼質量,支援更復雜、更繁重、低延時要求的計算機視覺任務。
解碼方面,思元370集成了強大的媒體效能,可支援132路1080p影片解碼或10路8K影片解碼。編碼方面,全新編碼器透過靈活的位元速率最佳化(RDO)控制、多參考幀、二次編碼等特性組合,在相同影象質量(全高畫質影片PSNR)的情況下比上一代產品節省42%頻寬,有效降低頻寬成本。
*測試環境:
MLU270-S4:SYS-4029GP-TRT/2x Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz
MLU370-S4:NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz
影片內容:BQTerrace_1920x1080_60.yuv
內建安全模組,加強資料安全保護
寒武紀高度重視使用者隱私,保護資料和模型的安全,在思元370晶片內建安全模組,切實保障使用者資訊保安。思元370是寒武紀第一顆支援國內外主流加密標準的雲端晶片,支援使用者資料、深度學習模型的加解密以及計算結果的加密輸出,透過信任根的方式,保障AI晶片在啟動及執行過程中載入的所有程式碼的安全性,還支援遠端認證,使用者可在業務執行過程中遠端驗證AI環境安全性。透過多方面的安全特性,思元370系列產品將更好地確保使用者AI業務安全。
搭載思元370的兩款AI加速卡正式亮相
此次釋出中,兩款基於思元370的加速卡正式亮相:高密度、半高半長、功耗75W的MLU370-S4智慧加速卡和高效能、全高全長、功耗150W的MLU370-X4智慧加速卡。與上一代產品相比,370系列加速卡在效能、能效方面都有更為卓越的表現。例如,對標準ResNet-50v1進行軟體定製最佳化後,MLU370-X4加速卡效能高達30204fps。
在Cambricon Neuware SDK上實測,在常用的4個深度學習網路模型上,MLU370-S4加速卡的效能平均接近市場主流70W GPU的2倍。而在能效方面,MLU370-S4優勢更為明顯,處理相同AI任務相較於70W GPU用電量減少50%以上,將有力地幫助使用者實現“雙碳”目標。
▲ 相比主流同尺寸GPU產品, MLU370-S4加速卡效能優勢明顯
*測試環境:
MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU資料來自於相關產品官網。
MLU370-S4加速卡在解碼方面具有強勁競爭力,相較於同尺寸GPU,可提供3倍的解碼能力和1.5倍的編碼能力。總體而言,MLU370-S4加速卡的能效出色,體積小巧,可在伺服器中實現高密度部署。
MLU370-X4加速卡的優勢則表現為高效能,算力可達256TOPS(INT8),加強了FP16、FP32的計算效能,新增BF16計算型別。
在Cambricon Neuware SDK上實測,常用的4個深度學習網路模型中,MLU370-X4加速卡與市場主流150W GPU相比,效能表現2項持平2項更優,實測能效則為GPU的2倍。比如YOLOv3網路中,MLU370-X4的效能是150W GPU效能的1.5倍,能效為GPU的2.5倍。
*測試環境:
MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU資料:ResNet-50來自於相關產品官網,Transformer、VGG16、YOLOv3均取自實測最大吞吐效能。
370系列加速卡廣受客戶期待,
思元全系列產品為產業升級提供算力支撐
從雲端推理思元270、邊緣推理思元220、雲端訓練思元290,到最新發布的推訓一體思元370,寒武紀為使用者提供了覆蓋不同場景、不同算力規模的全系列產品。此次釋出的256TOPS算力的思元370主要面向中高階推訓場景,與主要面向訓練的512TOPS高階產品思元290形成協同,共同為客戶提供全功能、全場景的智慧算力。
思元370在2020年三季度流片,相關加速卡產品於2021年二季度陸續送測客戶。目前,部分客戶已完成測試、匯入,產品進入早期銷售階段。
思元370系列加速卡已與國內主流網際網路廠商開展深入的應用適配,在語音、視覺等場景的效能表現超出客戶預期。
阿里雲基礎設施異構計算負責人張偉豐博士表示:“阿里雲基礎設施異構計算團隊已經完成了思元370的測試及匯入,結合阿里雲震旦異構計算加速平臺完成了ODLA的介面適配,總體效能表現超出預期。雙方將在vODLA池化,HALO編譯以及面向業務場景的效能調優等技術領域深度合作。”
百度異構計算架構師黎世勇對思元370也同樣充滿期待,他說:“自2018年起,百度與寒武紀展開了多維度的軟硬體協作,思元100等產品服務百度語音合成等多種業務場景。我們相信,隨著思元370等新產品的落地,雙方軟硬體充分結合的生態勢必將發揮更大的效能,助力人工智慧行業多場景落地。”
除網際網路之外,近年來,寒武紀在智慧金融、智慧能源、智慧交通等行業與合作伙伴共同完成了諸多落地案例。
“今年年初,招商銀行已成功上線基於寒武紀上一代雲端推理產品思元270的智慧模型推理服務,並憑藉高效、便捷、安全的服務贏得了金融客戶的高度認可。”招商銀行人工智慧實驗室負責人李金龍介紹了寒武紀與招商銀行的合作內容,就未來深化合作表示說:“寒武紀第三代產品思元370,在效能、通用性和軟體易用性等方面均達到業內領先水平,我們希望與寒武紀繼續深化合作,一同為智慧金融等應用場景提供更高質量的人工智慧計算服務。”
思元370系列加速卡已與國內主流伺服器合作伙伴完成適配。浪潮資訊副總裁、人工智慧和高效能產品線總經理劉軍表示:“浪潮跟寒武紀長久以來保持著緊密合作,思元370在效能、能效等方面較之思元270均有大幅提升,我們期待雙方未來能夠攜手為更多行業和領域提供人工智慧計算相關服務。”劉軍還介紹了與寒武紀之前合作的進展:“浪潮搭載寒武紀晶片的AI伺服器已經在中國移動、網際網路、智算中心等客戶和行業中實現落地。”
寒武紀長期秉承“雲邊端一體、訓推一體、軟硬體協同”的技術理念。370新品釋出和寒武紀統一基礎軟體平臺Cambricon Neuware的全新升級,將這一技術理念的落實又向前推進了重要的一步。
寒武紀用自己的研發實力和研發速度向市場印證自己的初心與決心:為人工智慧的大爆發提供最好用的AI晶片,讓機器更好地理解和服務人類。