作者 | 心緣
編輯 | 漠影
智東西12月7日報道,今日,AI晶片獨角獸燧原科技正式推出其第二代雲端AI推理加速卡雲燧i20。
這距離燧原科技釋出其第二代雲端AI訓練加速卡“雲燧T20”,僅僅相隔5個月。雲燧i20的釋出,標誌著燧原科技在雲端AI算力加速領域,從訓練到推理的完整產品線已全面迭代到第二代。
燧原科技CEO趙立東和COO張亞林釋出第二代雲端AI推理產品
據悉,雲燧i20是業內首個擁有超大儲存頻寬的AI推理加速卡,其單精度張量TF32峰值算力達128TFLOPS,整型INT8峰值算力達256TOPS。
基於燧原科技的自主創新晶片架構,採用12nm工藝製造的新一代“邃思”AI推理晶片實現了媲美業內7nm GPU的計算能力,並可在相同效能表現下提供更高性價比。
很難想象,僅用三年多的時間,燧原科技便憑藉極強的團隊執行力、高效的研發落地能力,連續迭代兩代、三款雲端AI晶片,在數十家雲端AI晶片玩家中脫穎而出。
如今,搭載第一代邃思晶片的叢集規模落地,其第一代訓練及推理產品已產生過億訂單及收入,雲燧i20加速卡將於明年第二季度量產。燧原科技累計融資超30億元,其團隊也完成新的組織調整,團隊規模從年初的約400人增至逾650人。
它是怎樣做到的?近日,智東西對話燧原科技創始人兼COO張亞林,以期更深層次地瞭解這個中國AI晶片賽道中尤為獨特的樣本。
一、對標業內旗艦GPU,訓練&推理產品全面進入2.0階段
新一代“邃思”雲端AI推理晶片和雲燧2.0加速卡,讓燧原科技在2.0階段完成了閉環。
“效能趕超業內旗艦GPU的雲燧i20正是我們的關鍵成果之一。”燧原科技CEO趙立東說,“當前,我國晶片產業正處於激烈的成長與蛻變時代。燧原科技以「做大晶片,拼硬科技」時代使命,基於原始創新的軟硬體架構,正在不斷加速技術創新與產品迭代。”
從2018年3月成立至今,燧原科技整個團隊像齒輪般嚴密地咬合轉動,精準執行了產品路線圖。
在燧原1.0階段,燧原成立18個月即推出第一代雲端訓練產品,實現從0到1的破冰。如今其第一代訓練及推理產品已規模化落地,它從客戶處收集到的需求反饋,正被輸入到第二代產品中。
2020年,“從1到N”的燧原2.0階段順利推進,陸續完成新融資、叢集商用落地、第一代推理產品量產釋出等重要節點。同年4月,燧原正式啟動新一代“邃思”AI推理晶片及雲燧i20的研發。
自立項起,燧原便定下目標,第二代推理產品效能要達到國際友商前一代旗艦的2.5倍以上,大部分打平甚至在某些方面超越友商的新旗艦產品。
為了達成一年流片的目標,燧原將從前期架構、設計、整合、驗證、模擬、軟體適配到量產等全流程分解成多個收斂階段,透過全體工程團隊高度協同、精準合作,確保每一步按期作業。
應對來自晶圓、基板、材料及測試裝置等各層面的全球供應鏈挑戰,燧原密集地與全球供應商進行前期溝通,努力解決意料之外的供應鏈問題,最終如期完成計劃。
據張亞林分享,在多項基準測試中,雲燧i20加速卡的模型效能、能效比均處於國內領先水平。
浪潮資訊與燧原科技透過元腦生態聯合創新,在AI整機系統、AI算力最佳化、場景方案落地等多方面深入合作。浪潮資訊副總裁劉軍評價道:“此次雲燧i20的釋出,標誌著燧原從訓練到推理全面進入2.0時代,這也是國產AI算力發展的里程碑。”
二、業內首個超大頻寬推理加速卡,打出軟硬協同系統組合拳
與第一代推理產品雲燧i10相同,雲燧i20主要面向泛網際網路、傳統行業和新基建等賽道。
該AI推理加速卡支援視覺檢測跟蹤分類、語音識別與合成、自然語言處理等主流AI應用場景,並進一步提升了模型覆蓋和泛化支援能力。
搭載於雲燧i20的新一代“邃思”採用12nm工藝、第二代高效能計算核心和資料引擎,透過升級其自研架構GCU-CARA(通用計算單元和全域計算架構),大大提高了單位面積的電晶體效率,實現堪與當前業內7nm GPU匹敵的計算能力。
得益於12nm成熟工藝帶來的成本優勢,雲燧i20在相同效能表現下更具價效比優勢,且供應鏈體系更加穩定成熟,能及時滿足客戶的業務需求。
從算力規格來看,其目標實現得相當不錯:
計算方面,雲燧i20全面支援從FP32、TF32、FP16、BF16到INT8的計算精度,並在兼顧全精度算力的同時,大幅提高了整型運算。
其單精度FP32峰值算力達到32TFLOPS,單精度張量TF32峰值算力達到128TFLOPS,整型INT8峰值算力達到256TOPS。
透過軟硬體技術多重最佳化,雲燧i20大幅提升了推理效能,浮點算力較雲燧i10提升到1.8倍,整型算力提升到3.6倍。
與主流旗艦GPU相比,雲燧i20的模型效能可以對標英偉達A10,是T4的2.5~3倍,並在效能深度最佳化能力、成本方面更具優勢。
儲存方面,雲燧i20擁有迄今業內最大的雲端AI加速卡儲存頻寬。
此前燧原科技第二代雲端AI訓練晶片在國內率先支援HBM2E高頻寬儲存方案。如今雲燧i20推理加速卡更進一步,基於HBM2E可提供超越同類產品水平的819GB/s超大儲存頻寬,為各類雲端推理業務提供高吞吐、低延時的效能。
如今神經網路引數越來越多,無論是語音識別、圖片識別、影片內容分析等感知類應用,還是內容推薦、欺詐交易攔截等決策類AI應用,在雲端大部分都是以實時線上的方式提供服務,對資料頻寬的需求不斷上漲。而速度更快、密度更高的記憶體,有助於高階處理器兼顧高頻寬和低延遲,保障AI相關服務準確、平穩、高效的執行。
軟體方面,根據客戶反饋的需求,燧原將其推理軟體棧馭算進一步升級,使其在效能、開發效率和模型覆蓋面上得到大幅提升。
馭算引入了通用高層圖最佳化和大規模運算元融合技術,充分釋放了大容量片記憶體儲和高頻寬儲存的利用率,將模型平均效能提升3.5倍,硬體算力利用率平均提升2倍。
為了更加匹配客戶開發習慣,馭算透過升級的程式設計模型以及運算元自動分片、自動生成技術,使得自定義運算元開發效率翻倍,大大降低模型遷移成本。馭算還增強了對動態性的支援,使雲燧i20在檢測、語音識別、語義理解等場景更具競爭力。
在經濟效益和部署靈活性層面,基於虛擬化和多例項加速技術,雲燧i20能夠實現單卡多使用者,同時支援6個業務互不干擾、安全隔離執行。這讓更多雲端推理應用同時享受專有的算力加速,為客戶業務架構帶來輕耦合、靈活可靠的實現方式,顯著提升資源利用率與投入產出比。
作為一家資料中心基礎設施提供商,燧原科技已經能提供包括算力、資料、儲存、互聯在內的一系列系統化解決方案。
三、一代落地、二代量產、三代設計,高效滾動式研發背後的三大核心競爭力
對於創業公司來說,雲端AI晶片是難攻的高地。
一方面,晶片研發有高壁壘、高成本、低容錯率等特徵,任何一個環節出現差池,此前投入的數千萬資金就可能通通打水漂。另一方面,NVIDIA獨霸雲端AI訓練市場,英特爾不斷強化CPU的AI推理效能,其技術和生態壁壘均十分深厚。
面對殘酷的市場環境,燧原科技一路高舉高打,快速迭代研發落地,第一代產品還未量產,第二代產品已經開始滾動式研發。
是怎樣的底氣,讓燧原無懼風險,制定如此緊密的產品迭代週期?張亞林將燧原科技的核心競爭力歸納為三點:迭代快、系統化、成熟配置。
首先,天下武功,唯快不破。
雲端AI產品具有共享的、多使用者等特徵,每個客戶有差異化的場景及業務模型,與對AI晶片架構的通用性提出了更高要求。相比晶片採用幾奈米工藝、什麼技術,雲端AI客戶更關注遷移成本、降本增效和價效比是否能達到自身應用的要求。
“當我們開始工程化AI產品的時候,一定要把客戶的終極訴求和使用者使用習慣帶進去,而不是一味地講紙面引數。”張亞林認為,只有進入客戶整個業務系統,才能夠真正理解其需求。
因此,對於一家創業公司,最重要的不是產品引數,而是儘快觸達客戶,拿到反饋,再將其最佳化思路應用到下一代產品中,透過快速迭代,把晶片與工具鏈打磨至成熟,並構築自家客戶生態。
燧原科技即是按照這樣的邏輯,緊鑼密鼓地推進產品迭代:當前其第一代產品規模化落地,第二代產品走向量產,第三代產品已經啟動設計。
隨著其第二代訓練及推理產品成熟,燧原科技可以針對客戶的業務場景,提供具有高效能及價效比的“訓練+推理”完整解決方案,並支援國產伺服器和作業系統,幫助客戶進行雲端系統部署。
其次,燧原科技已經成長為一家AI系統提供商,儲備了比純晶片供應商更廣泛的能力。
在雲端資料中心,AI的發展不再侷限於單點的軟體或硬體,計算正規化正趨於系統化、整合化。這要求AI公司不僅能提供AI基礎設施,也要能提供更高整合度、價效比和能效比的系統,更便捷易用的軟體和使用者介面,從而提升使用者的生產力。
因此,燧原科技從系統的角度思考AI落地,持續佈局整個資料中心的新技術,包括叢集互連方式、分散式計算拓撲結構、高階封裝、先進製程及軟硬體全棧的高階編譯等。這些先進技術,構成了燧原快速迭代產品的護城河。
在此支撐下,燧原循序漸進地搭建出一支包含晶片、板卡、叢集、軟體全棧的完整建制團隊,以超強執行力快速推進整體的系統最佳化,並透過計算、資料、儲存、互聯四個維度的平衡,將產品成本結構牢牢控制在自己手中。
在千卡液冷叢集方面,燧原科技與之江實驗室合作的1280卡高效能計算液冷叢集方案正在部署,該叢集採用燧原科技第一代人工智慧訓練產品“雲燧T11”,計劃打造符合國家碳中和政策導向的低碳綠色資料中心。張亞林稱:“這是我們在整個系統化方面走出的堅實一步。”
燧原的第三重核心競爭力,是完成了燧原2.0組織、人才、流程、規範制度的全方位底層構建,已具備一家較成熟公司的配置。
AI晶片流片回來,僅僅走完晶片工程化的30%,另外70%的路要靠工程化、量產化,推動其走向業務落地和交付。這背後,要兌現對客戶的承諾,離不開一個成熟組織架構的支撐。
目前燧原的研發組織、供應鏈、IT部門、商務部門、客戶支援部門及運營支援團隊均組建完備,使其運營底座能夠支撐一、二、三代產品間的交疊,從而支援更大範圍的客戶落地。
這就形成了一個閉環。由客戶需求驅動技術更新,將技術價值附著在產品價值上,隨著產品規模化落地,再快馬加鞭地將客戶反饋融入下一代產品設計中,進而驅動產品價值的迭代升級。
四、下一代產品將採用更先進工藝,三個核心生態已打好地樁
自第一代雲端AI推理加速卡雲燧i10釋出,燧原科技便著力構建原始創新的通用算力和自主生態。
以其國產AI算力產品為核心,以商業生態和科研生態為支撐,燧原科技的雲端AI訓練及推理產品已實現在國家重點實驗室、網際網路、智慧城市、智慧金融等多家客戶的商業落地。
例如在智慧金融領域,燧原科技與上海銀行展開戰略合作,助力上海銀行實現數字化、智慧化轉型,將金融科技融入銀行服務的全流程來最佳化其客戶體驗和服務品質。
張亞林也透露了燧原科技的下一步計劃。此前其第一代、第二代晶片均採用12nm工藝,第三代產品則將步入更先進的工藝及封裝方式。
儘管頭部IP廠商已經推出頗具競爭力的AI加速核心,但張亞林並不為此感到擔心。相較會造成同質化的第三方IP,他相信:“AI最好的架構一定誕生在自己的軟硬體聯合設計和原生體系之中。”
明年燧原科技有兩個重要目標:一是更大規模地落地燧原2.0產品,實現預期的客戶泛化和商業價值;二是按照產品路線圖推進產品迭代,用更好的技術和架構,在後續產品中更大化客戶價值。
“我們希望用三年的時間,初步達成對整個資料中心解決方案的統一整合,再用五年,實現從整個使用者介面來看,燧原的資料中心解決方案是易用、好用、可以遷移的。”張亞林說。
至於如何拓展生態,張亞林認為,從客戶視角思考產品,實現產品可用性,然後才到易用性、可遷移性和可維護性,是為關鍵。
晶片公司必須非常關注需求端的前瞻趨勢,包括新的AI演算法和應用、新的軟硬體技術,並將相應的前瞻性技術納入到未來產品設計範疇中,與業內更加通用的、更加前瞻的技術生態接軌。
目前燧原科技聚焦於三個生態建設:客戶生態、產品和行業生態、技術生態。
其中,硬體技術生態是燧原一直以來的優勢,燧原與EDA商、封裝、測試、製造、晶圓商等緊密合作,在包含先進整合、封裝及各種高階IP開發的整個技術生態上持續積累。燧原科技與上海交大、西安交大、之江實驗室等高校在構建通用異構計算生態方面的合作,也都是有的放矢,將為其軟體技術生態的增強提供助力。
在客戶生態方面,燧原儘快讓更多不同型別的客戶用起來,在泛網際網路、傳統行業、新基建以及產學研各業務線上均已逐步構建客戶群和客戶生態,並持續收集更多反饋。
在產品和行業生態方面,燧原與晶片、板卡、伺服器OEM/ODM提供商、雲服務商CSP、演算法整合商ISV等均有良好對接,隨著客戶生態不斷擴大,整個行業生態也在不斷泛化。
結語:雲端資料中心日新月異,國產AI晶片大有可為
隨著國家加大對科技創新的支援力度,AI晶片發展進入快速通道。無論是更多資本湧向創企,還是晶片巨頭、網際網路巨頭及更多創業新秀悉數入局,都共同撐起雲端AI晶片產業的繁榮。
雲端資料中心日新月異,新的資料中心計算正規化正在形成,各類計算、資料、儲存、互聯、影片加速等解決方案,均有長足發展空間。“因為這個市場足夠大,我覺得機會和視窗都還在。”張亞林預測雲端AI晶片市場未來兩三年會出現頭部效應,這將給新進入的廠商一定壓力,但最終能否透過市場考驗,還是要看產品賦能客戶的速度。
在張亞林看來,任何技術路線都可能打造出優秀的使用者產品,關鍵在於理解AI應用場景的本質和規律,選擇與市場定位匹配的架構,真正為客戶帶來AI生產力的提升。因此,創業者們應更加關注客戶價值及產品落地,儘早打磨產品基本面。“我很期待更多的AI公司走向商業化之後更好地滿足客戶需求,共同把這個行業的生態推動起來。”