來源:內容來自「The Next Platform」,謝謝。
越來越多的大大小小的供應商正在努力為人工智慧工作負載製造處理器。人工智慧和機器學習是自動化和分析的關鍵推動因素,它們在跨越本地資料中心、公共和私有云以及不斷增長的邊緣空間的高度分散式 IT 環境中發揮著越來越重要的作用。
人工智慧晶片市場繼續由大型老牌玩家主導。在上個月的一份報告中,市場研究公司 Omdia 表示,幾年前將機器學習作為其增長計劃核心的英偉達,在 2020 年仍然是最大的供應商,在 40 億美元的全球收入中佔有 80.6% 的份額,其中32億美元。Omdia 預計,到 2026 年,資料中心和雲中 AI 晶片的全球收入將達到 376 億美元。
這樣的市場增長肯定會吸引晶片製造商。英特爾於 2019 年以 20 億美元的價格收購了人工智慧晶片製造商 Habana Labs,儘管三年前收購了 Nervana Systems,但仍希望加快其努力。今年 4 月,英特爾表示,它計劃在其資料中心安裝近十個基於 Habana 的系統機架。
其他人也繼續構建 AI 處理器或為他們的晶片注入 AI 功能,包括Google 的 Tensor Processor Unit (TPU)、AMD、IBM、Xilinx 的 Edge AI Platform和Amazon及其用於機器學習的 AWS Inferentia AI 推理晶片。
也就是說,越來越多的小型初創晶片製造商希望在市場上為自己開闢空間,專注於從效能到成本效率再到靈活性的各個領域。包括Graphcore、Ampere、Blaize、Cerebras、Groq和SambaNova。
Esperanto也屬於該領域的玩家之一,該公司成立於 2014 年,自那時以來已透過三輪融資籌集了 1.24 億美元,最後一輪融資是在 4 月份獲得的 6100 萬美元。Esperanto 於 2020 年 12 月釋出了 ET-SoC-1,這是一款基於開放式 RISC-V 架構的 7 奈米機器學習處理器。這家晶片製造商表示,該晶片將在一個小封裝中容納近 1,100 個定製核心,重點是透過利用能源效率來提高效能。
在最近的 Hot Chips 33 虛擬活動中,Esperanto 創始人兼執行主席 Dave Ditzel 公佈了他所謂的片上超級計算機的詳細資訊,它可以用作主處理器或加速器,旨在適應現有的資料中心需要在風冷環境中提高電源效率。
該晶片由臺積電製造,擁有 2400 萬個電晶體,主要設計用於機器學習推理工作負載。
“超大規模資料中心的機器學習推薦工作負載具有一些最苛刻的效能和記憶體要求,”Ditzel 在他的演講中說。“它們主要在 x86 伺服器上執行。對額外效能的需求正在迅速增長,與其簡單地構建更多的資料中心和購買更多的伺服器,客戶更希望有一種方法來提高他們已經安裝的伺服器的推理效能。”
這些系統通常有一個 PCIe 卡插槽,功率預算在 75 到 120 瓦之間。Ditzel 表示,該需求實質上是為Esperanto機器學習晶片設定引數。該公司需要構建一個基於 PCI3 的加速卡,該卡最多使用 6 個供應商的晶片,功耗不超過 120 瓦。
在那之後,卡的效能需要“大大高於 x86 主機 CPU 的效能”,計算速率為 100 到 1,000 TOPS,他說。此外,雖然可以使用 8 位整數進行大量推理,但該卡還必須能夠支援 16 位和 32 位浮點資料型別。它還應該有至少 100 GB 的儲存空間和 100 MB 的片上記憶體。
“計算與非常大的、訪問量很少的資料混合在一起是具有挑戰性的,因為片外儲存器的延遲非常大,這可能會導致處理停滯,”Ditzel 說。“最後,由於機器學習工作負載發展迅速,固定功能的硬體很快就會過時,因此強烈建議使用更通用的可程式設計解決方案。”
Esperanto 開發的是一種晶片,其中包含 1,088 個節能的 ET-Minion 有序核心,每個核心都帶有一個向量張量單元,以及四個 ET-Maxion 無序核心。ET-SoC-1 提供超過 1.6 億位元組的片上 SRAM、用於具有低功耗 LPDDR4x DRAM 和 eMMC 快閃記憶體的大型外部儲存器的介面以及與 PCIe x8 Gen4 和其他 I/O 介面的相容性。
最重要的是,該晶片可以驅動 100 到 200 TOPS 的峰值速率並以低於 20 瓦的功率執行,這意味著其中 6 個晶片將低於 120 瓦的功率預算。Ditzel 說,這來自Esperanto在晶片設計中的路線。
“其他一些解決方案使用一個巨大的熱晶片,用盡了加速卡的整個功率預算,”他說。“Esperanto 的方法是使用多個仍符合功率預算的低功率晶片。實際上可以放在單晶片封裝上的引腳數量有限,因此單晶片解決方案無法擴充套件以獲得記憶體頻寬,並且通常最終會得到昂貴的記憶體解決方案。Esperanto 的方法將處理和 I/O 分佈在多個晶片上。隨著更多晶片的加入,效能提高、記憶體容量增加、記憶體頻寬增加,低功耗和低成本的 DRAM 解決方案成為實用的解決方案。”
單晶片解決方案還傾向於推動導致高功率和低效率的最高工作頻率。Esperanto 認為電晶體(尤其是 7nm FinFET)在低電壓下執行時能效更高,從而降低了執行功率。Ditzel 說,Esperanto工程師必須圍繞電路進行創新並修改 RISC-V 核心,以建立不超過 6 個晶片且功耗不超過 120 瓦的高效能加速器。
他們關閉了關閉以將工作頻率降低到 1GHz。它們還可以將工作電壓降低至少兩倍,但很難在低電壓下進行穩健的操作。
“我們必須對電路和架構進行一些更改,”他說。“在千兆赫級和低電壓下執行需要設計每個流水線級的門極少。... Esperanto必須對 L1 快取和暫存器檔案進行電路和架構更改。即使有這些變化,仍然存在超過 50 倍的差距,彌補這種差異的唯一方法是降低動態開關電容、動態開關容量、每個電晶體和導線的容量以及這些開關的頻率。為了減少這些,你必須有一個非常簡單的架構,邏輯閘很少。這就是 RISC-V 是基本指令集的絕佳解決方案的地方,因為它可以用任何商業上可行的指令集中最少的邏輯閘來實現。我們還必須非常仔細地設計我們的向量張量單元。”
Ditzel 展示了說明 Esperanto 晶片功率效率的圖表,測量了不同工作電壓下每秒每瓦的推斷數。
由於 ET-Minion Tensor 核心在最低電壓和 8.5 瓦下執行,Esperanto 能夠在遠低於 120 瓦限制的情況下將 6 個晶片安裝到加速卡中,比單個 118 瓦晶片解決方案提高 2.5 倍的效能功率效率比 275 瓦點高 20 倍。
Ditzel 還展示了效能比較。對於基準測試,Esperanto使用了 MLPerf 深度學習推薦模型,將該晶片與英特爾的八路 Xeon Platinum 8380H 伺服器處理器以及 Nvidia 的 A10 和 T4 GPU 進行了較量。他說,如下所示,Esperanto 晶片的效能是英特爾處理器的 59 倍,是每瓦效能的 123 倍,並且優於兩個英偉達 GPU。據 Ditzel 稱,類似的結果來自使用 ResNet-50 推理基準。
在物理設計中,Esperanto 將八個 ET-Minion 核心組合在一起稱為 Neighborhood,這使該公司能夠透過架構改進來節省電力,例如使八個核心共享一個大型指令快取,而不是每個核心都擁有自己的指令快取。每個八核 Neighborhood 形成一個 32 核的 Minion Shire,它們透過每個 Shire 上的片上網狀互連進行連線。
Ditzel 談到了如何在系統中使用 ET-SoC-1,包括那些支援開放計算專案 (OCP) Glacier Point V2 設計的系統,該卡提供 6,558 個 RISC-V 核心、高達 192 GB 的 RAM 和高達822 GB/s 的 DRAM 頻寬。Ditzel 將其推斷為雪橇和機架,並表示一個 OCP 資料中心可以容納數百萬個Esperanto核心。
公司支援C++、PyTorch以及Caffe2、MXNet等機器學習框架。Ditzel 說Esperanto最近在其實驗室和準備測試中收到了矽。最早定於今年晚些時候進行。
1.https://www.caymancompass.com/2021/09/20/opportunity-in-semiconductors/
2.https://www.tomshardware.com/news/raja-koduri-explains-why-intels-outsourcing-gpu-manufacturing-to-tsmc
3.https://www.nextplatform.com/2021/09/20/where-chinas-long-road-to-datacenter-compute-independence-leads/
4.https://asia.nikkei.com/Business/Materials/Japan-fights-for-lead-in-advanced-chip-and-EV-materials
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第2804內容,歡迎關注。
★伺服器晶片三十年戰事
★晶片巨頭捉對廝殺
★半導體大蕭條必將到來?
晶圓|積體電路|裝置|汽車晶片|儲存|臺積電|AI|封裝