來源:內容來自【tom'shardware】,謝謝。
AMD 已為一種處理器申請了專利,該處理器具有堆疊在其 I/O 晶片 (IOD) 頂部的機器學習 (ML) 加速器。該專利表明,AMD 可能正計劃構建具有整合FPGA 或基於GPU 的機器學習加速器的專用或資料中心繫統級晶片 (SoC)。
就像AMD現在可以為其CPU新增快取一樣,它可能會在其處理器 I/O 晶片上新增 FPGA 或 GPU。但是,更重要的是,該技術允許該公司在未來的 CPU SoC 中新增其他型別的加速器。與任何專利作品一樣,該專利並不能保證我們會看到採用該技術的設計進入市場。然而,它讓我們瞭解了公司在研發方面的發展方向,我們有機會看到基於這種技術的產品或類似的衍生產品進入市場。
在 I/O 晶片上堆疊AI/ML加速器
這項名為“直接連線機器學習加速器”(Direct-connected machine learning accelerator)的專利公開地描述了AMD如何利用其堆疊技術,在其帶有IOD的CPU上新增ML加速器。顯然,AMD的技術允許它在帶有特殊加速器埠的I/O晶片上新增現場可程式設計處理陣列(FPGA)或用於機器學習工作負載的計算GPU。
AMD 描述了新增加速器的幾種方法:一種涉及具有自己本地記憶體的加速器,另一種暗示這種加速器使用連線到 IOD的記憶體,而在第三種情況下,加速器可能使用系統記憶體,在此在這種情況下,它甚至不必堆疊在 IOD 頂部。
機器學習技術將被未來的資料中心廣泛使用。然而,為了更具競爭力,AMD 需要使用其晶片加速 ML 工作負載。在 CPU I/O 晶片上堆疊機器學習加速器可以顯著加快 ML 工作負載,而無需將昂貴的定製 ML最佳化矽片整合到CPU小晶片中。它還具有密度、功率和資料吞吐量優勢。
該專利於2020 年 9 月 25 日提交,比 AMD 和 Xilinx 宣佈他們的管理團隊已達成最終協議 AMD 將收購 Xilinx 早一個多月。該專利於2022年3月31日公佈,AMD 研究員 Maxim V. Kazakov 被列為發明人。AMD 的首款採用 Xilinx IP 的產品預計將於 2023 年推出。
我們不知道 AMD 是否會將其專利用於實際產品,但將ML功能新增到幾乎所有CPU這個想法看起來似乎是合理的。假設AMD的代號為EPYC的“Genoa”和“Bergamo”處理器使用帶有加速器埠的 I/O 晶片,那麼很可能會有帶有ML加速器的Genoa-AI 和 Bergamo-AI CPU。
還值得注意的是,據傳 AMD正在為其第 5 代 EPYC 'Turin' 處理器考慮 600W 可配置熱設計功率 (cTDP),比當前一代 EPYC 7003 系列的 cTDP 高出兩倍以上“Milan”處理器。此外,用於第 4 代和第 5 代 EPYC CPU 的 AMD 的 AMD SP5 平臺可在極短的時間內為處理器提供高達 700W 的功率。
我們不知道 AMD 未來的 96 -128(Genoa和Bergamo)CPU 需要多少功率,但在處理器封裝中新增 ML加速器肯定會增加消耗。為此,確保下一代伺服器平臺能夠透過堆疊加速器支援cpu是很有意義的。
構建終極資料中心SoC
自2006年收購 ATI Technologies 以來,AMD 一直在談論資料中心加速處理單元 (APU)。在過去 15 年中,我們聽說過多個數據中心 APU 專案集成了用於典型工作負載的通用 x86 核心和用於高度並行的 Radeon GPU工作量。
這些專案都沒有實現,原因有很多。在某種程度上,由於 AMD 的 Bulldozer 核心沒有競爭力,因此構建一個需求非常有限的大型且昂貴的晶片沒有多大意義。另一個原因是,傳統的 Radeon GPU 並不支援資料中心/AI/ML/HPC 工作負載所需的所有資料格式和指令,而 AMD 的第一款以計算為中心的基於 CDNA 的 GPU 直到 2020 年才出現。
但是現在 AMD 擁有具有競爭力的 x86 微架構、面向計算的 GPU 架構、 Xilinx的 FPGA 產品組合以及Pensando的一系列可程式設計處理器,將這些不同的 IP 塊放入單個大晶片中可能沒有多大意義。恰恰相反,在TSMC和AMD自己的Infinity Fabric互連技術提供的封裝技術下,用通用x86處理器晶片、I/O晶片以及基於GPU或fpga的加速器來構建多tile(或多Chiplet)模組更有意義。
事實上,構建多晶片資料中心處理器比構建具有內建多樣化 IP 的大型單片 CPU 更有意義。例如,多塊資料中心 APU 可以受益於使用 TSMC 的 N4X 效能最佳化節點製成的 CPU 塊以及使用密度最佳化的 N3E工藝技術生產的 GPU 或 FPGA 加速器塊。
通用加速器埠
該專利的另一個重要部分不是旨在使用 FPGA 或計算 GPU 加速機器學習工作負載的特定實現,而是在任何 CPU 中新增專用加速器的原理。加速器埠將是 AMD 的 I/O 晶片上的通用介面,因此最終,AMD 可以在其處理器中新增其他型別的加速器,以針對客戶端或資料中心應用程式。
“應該理解的是,根據本專利的披露,可能會有很多變化,”專利的描述寫道。例如,合適的處理器包括通用處理器、專用處理器、傳統處理器、圖形處理器、機器學習處理器、[DSP、ASIC、FPGA]和其他型別的積體電路(IC)。這樣的處理器可以透過配置製造過程來製造,該製造過程使用已處理的硬體描述語言(HDL)指令的結果和其他中間資料,包括網表(這種指令能夠儲存在計算機可讀的介質上)。”
儘管即使在今天,FPGA、GPU 和 DSP 仍可用於各種應用,但用於資料中心的資料處理單元 (DPU) 之類的東西只會在未來幾年變得越來越重要。DPU 本質上是 AMD 現在碰巧擁有的新興應用程式。但隨著資料中心轉變為處理更多型別的資料並更快(客戶端 PC 也是如此,例如 Apple 如何將特定應用程式的加速(如 ProRes RAW)整合到其客戶端 SoC 中),加速器變得越來越普遍。這意味著必須有一種方法可以將它們新增到任何或幾乎任何伺服器處理器。事實上,AMD 的加速器埠是一種相對簡單的方法。
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第3006內容,歡迎關注。
晶圓|積體電路|裝置|汽車晶片|儲存|臺積電|AI|封裝