AMD 剛剛釋出了基於 Aldebaran GPU 架構的 Instinct MI200 加速卡,同時它也是該公司旗下首款 6nm 多晶片封裝(MCM)產品。規格方面,可知基於 CDNA 2 架構的 Instinct MI200 擁有 580 億個電晶體、超過 14000 個核心、以及高達 128GB 的 HBM2e 視訊記憶體,FP32 效能更是達到了驚人的 95 TFLOPs 。
AMD 指出,CDNA 2 核心可加速 FP64 和 FP32 矩陣運算,FP64 理論峰值效能最高可達上一代的 4 倍。
Introducing the AMD Instinct MI200 Series Accelerator(via)
得益於業內領先的 2.5D Elevated Fanout Bridge(EFB)封裝技術,AMD 首創的多晶片 GPU 設計,在核心數量上達到了上一代的 1.8 倍、記憶體頻寬達到了 2.7 倍,聚合理論峰值記憶體頻寬也高達 3.2 TB/s 。
第三代 Infinity Fabric 技術可管理多達 8 條 Infinity Fabric 鏈路,將 AMD Instinct MI200 計算節點與三代霄龍(EPYC)處理器和其它 GPU 連線起來,以實現統一的 CPU / GPU 一致性、並最大限度地提升系統吞吐量。
據悉,AMD Instinct MI200 內部是一塊 Aldebaran GPU,並且可進一步細分為主 / 副兩部分晶片。每個晶片有 8 組著色器引擎(總共 16 組 SE),且每 SE 包含 16 個具有全速率 FP64 / FP32 / 二代矩陣引擎的 CU(用於 FP16 / BF16 操作)。
每個晶片 die 上擁有 128 計算單元(CU)/ 8192 個流處理器,總計可輕鬆達成 220 計算單元 / 14080 個留處理器,輔以新穎的 XGMI 內部互聯設計、且每個小晶片具有 VCN 2.6 引擎 / 主 IO 控制器。
AMD Instinct MI200 系列加速器基於 AMD CDNA 2 架構,可為廣泛的高效能計算(HPC)工作負載提供業內領先的應用程式效能。
其中 MI250X 型號提供 4.9X 倍於競品的 FP64 效能,以及超過 380 萬億次的理論峰值半精度(FP16)浮點運算效能,可極大推動 AI 等資料驅動的研究工作。
效能方面,AMD Instinct MI200 也超越英偉達 A100 解決方案,並打破了多項紀錄,比如高達 3X 的 AMG 效能。
DRAM 方面,AMD 採用了 1024-bit @ 8 通道介面,總計 8192-bit 匯流排位寬,且每個介面可支援 2GB HBM2e 快取。
每個堆疊具有高達 16GB 的 HBM2e 快取,最大可達 128GB 。相比之下,英偉達 A100 平臺只有 80GB HBM2e 快取。
AMD Instinct MI200 的視訊記憶體速率也達到了 3.2 Gb/s,總頻寬 3.2 TB/s,較 2TB/s 的英偉達 A100 80GB 型號還領先 1.2 TB/s 。
目前已知的是,AMD Instinct MI200 將為三臺頂級超算提供支援,包括美國百億億級 Frontier 系統、歐盟 pre-exascale LUMI 系統、以及澳大利亞千萬億級 Setonix 系統。
最後,AMD 為 Instinct MI200 系列 GPU 加速卡提供了三種配置選項,包括 OAM 形式的 MI250 / MI250X、以及雙槽 PCIe 形式的 MI210 。