現代 GPU 計算引擎是整個高效能計算資料中心的縮影。在 HPC 的每個級別——跨資料中心的系統、在不同伺服器節點的叢集內、在具有不同和不同計算引擎的叢集節點內,以及在每種型別的計算引擎本身內——在數量和型別上都有混合正在進行的計算。
因此,購買超級計算機意味著嘗試預測您在未來三到四年(可能更長)內需要的新舊工作負載的組合,並確保您可以執行舊的東西並仍然接受新的東西。考慮到計算引擎的多樣性以及 CPU、GPU、FPGA 和定製 ASIC 的可能組合,在給定級別或整數或浮點精度下可能的效能組合數量是驚人的。
我們會開玩笑說,您需要一個注入了 AI 的 HPC 模型,可能嵌入水晶球中,以嘗試弄清楚要購買什麼——以及購買什麼容量——但這可能不是開玩笑。這是一個非常困難的提議,沒有什麼比試圖弄清楚 AMD上個月宣佈的新的“Aldebaran”Instinct MI200 系列 GPU 是如何更明顯的了,與 Nvidia 的“Ampere”A100 系列 GPU 相抗衡。但正如我們之前指出的,無論是在餐巾紙的背面還是在複雜的電子表格中,構建 HPC 和 AI 系統的客戶都必須嘗試弄清楚這些裝置在街上的成本以及它們的關鍵效能指標估計使用它們構建的美元系統將帶來的價值。然後他們必須考慮成熟軟體堆疊的價值才能使用這些裝置,這是非常難以量化的。
早在 2020 年 5 月,針對大型計算作業的資料中心並基於 GA100 GPU 的 Nvidia Ampere GPU 加速器就已釋出,而高階 A100 裝置則於 2020 年 11 月透過更大的 80 GB HBM2e 記憶體進行了增強。從那時起,英偉達又增加了一堆基於 Ampere 架構的加速器,包括2020 年 10 月的 Ampere A40 和 A6000 加速器,基於 GA104 GPU,2021 年 4 月的 Ampere A10 和 A30,基於 GA102 和 GA100 GPU分別是 2021 年 11 月的 Ampere A2,基於 GA107 GPU。
雖然總是有可能對 Ampere GPU 和不同的卡進行更多調整,但我們懷疑 Nvidia 將保持公開乾燥,直到明年 A100 首次亮相的“Ampere Next”踢球者準時為他們的兩個很可能在 2022 年 3 月 GTC 2022 在聖何塞舉辦時。大家認為Ampere Next GPU的代號也是“Hopper”,只是為了避免混淆。我們不確切知道將進行哪些架構更改,但我們非常確定 Nvidia 將在臺積電將工藝縮小到 5 奈米技術(N5 和 N4 是可能的,但 N4P 工藝,進一步的 5 奈米改進,贏得了直到 2023 年才可用)。英偉達可能不會透過 Hopper GPU 一直推到 3 奈米技術 (N3),並且那是因為那個 N3 過程顯然有一些問題。
無論如何,英偉達將透過 Hopper GPU 增加電晶體數量並新增許多功能。我們強烈懷疑 Nvidia 將轉向核心 GPU 計算引擎的小晶片架構,並最終轉向 3D 封裝技術。
關鍵在於:AMD 的 Aldebaran GPU 在許多指標上比當前的 Ampere GA100 GPU 提供了顯著的效能改進,但基於 Aldebaran GPU 的 Instinct MI210、MI250 和 MI250X 加速器尚未批量出貨給任何人除了美國能源部用於橡樹嶺國家實驗室的 1.5 exaflops “Frontier”超級計算機。到 AMD 將 Instinct MI200 投入生產領域時,無論 Nvidia 決定如何稱呼它,Hopper 都將是指日可待。
但就目前而言,Aldebaran GPU 的饋送和速度使其成為 Nvidia A100 的引人注目的替代品——當然,只要您可以讓您的程式碼在它們上執行。
在一個月前 Aldebaran 釋出前的簡報中,Brad McCredie 在兩年多前轉為 AMD 成為 GPU 平臺的企業副總裁之前曾負責 IBM 的 Power 處理器開發多年,他整理了這張圖表,比較了具有 64 位浮點效能的 Nvidia GPU 加速卡的峰值雙精度效能——“Maxwell”GPU 沒有太多 FP64,這就是為什麼“Kepler”和“Pascal”和“Volta”和“安培”代僅顯示在此圖表上 - 隨著時間的推移。
值得注意的是,基於 AMD 的“Vega10”和“Vego20”以及“Arcturus”GPU 的前幾代 Instinct MI50、MI60 和 MI100 GPU 加速器未顯示在上圖中。但是我們瀏覽了這裡的所有提要和速度如果你想把它們記下來。 Vega10 和 Vega20 GPU 不支援矩陣數學單元,不支援低於 FP16 的混合精度數學,也不支援常用於機器學習推理的整數運算。MI60 幾年前應該是高階 GPU,但從未真正以任何重要的方式推向市場,AMD 也沒有過多談論它。藉助 Arcturus 晶片,AMD 轉向只專注於資料中心計算的 CDNA 架構,並沒有給出關於圖形效能的卡片,並在該領域放置了一個可靠的引擎,該引擎在 FP64 和 FP32 方面做得很好,並增加了對矩陣數學的支援FP64、FP32、FP16 和 Bfloat16 格式。
藉助 Aldebaran GPU,AMD 建立了一個 GPU tile,它支援所有必要的向量和矩陣單元,並具有所有適當的精度和格式,然後將其中兩個 tile 放在 Instinct MI200 系列卡上,以雙重打擊Infinity Fabric 連結和 HBM2e 記憶體。以下是 McCredie 如何將 AMD 的 Aldebaran 與 Nvidia 的 A100 相提並論:
對於 Aldebaran 設計,顯而易見的是 AMD 全力以赴進行 FP64 向量處理,用於天氣建模和其他型別的物理模擬以及機器學習訓練,以及用於 FP32 向量處理,用於用於訊號處理和遺傳學模擬等。我們認為英偉達本可以放棄符合這些規格的 Hopper GPU,但可能不會以美國政府願意支付的價格。IBM 和 Nvidia 已經向能源部出售了兩臺前 exascale 超級計算機,“Summit”在橡樹嶺,“Sierra”在勞倫斯利弗莫爾國家實驗室,而且似乎並不熱衷於以低價重複這個過程,這是我們的猜測. 他們沒有什麼可以證明的,但 AMD 做到了。因此,惠普企業和 Cray 與 AMD 合作,
A100 和 MI200 不僅是兩個正面競爭的不同加速器,而且是兩個具有不同饋送、速度、插槽、功率和價格的裝置系列。所以這是一個更完整的表格,展示了 Aldebaran GPU 加速器如何疊加到 Ampere GPU 加速器:
AMD 並未過多提及基於 Aldebaran GPU 的 Instinct 卡的 PCI-Express 變體,即 Instinct MI210,因此我們嘗試了一下它可能是什麼樣子。我們假設時鐘速度降低並且所有計算單元都處於活動狀態,但承認它可能有更多的計算單元因晶片上的缺陷而閒置(以提高來自臺積電的晶片的整體有效良率)和更高的時鐘速度。它可以具有更低的時鐘速度和更少的計算單元以及更少的 HBM2e 記憶體。你明白了。
如果 Nvidia 願意,Hopper 可以只用兩個 A100 在小晶片架構中拍打,但這不足以匹配 Aldebaran 擁有的 4.9X FP64 向量和矩陣效能優勢,而且,是的,Nvidia 在以下情況下具有很大優勢它涉及混合精度和數字格式,特別是如果應用程式適合稀疏矩陣計算(AMD 尚不支援)。但是對於核心 HPC 客戶,他們需要做一些推理甚至大量推理,但他們不必在推理領域與 FPGA 或 Nvidia 等定製 ASIC 競爭,這與通用安培背後的整個想法有關用於資料中心的 GA100 GPU。
看看英偉達究竟做了什麼會很有趣,而且肯定會期待 AMD 用其 Instinct GPU 加速器贏得美國三大百億億級合同中的兩個。
當然,重要的是 MI200 與 A100 在 HPC 基準測試和實際 HPC 應用程式上的效能。McCredie 提供了這張圖表作為思考的食物:
如您所見,效能資料絕對有利於 Aldebaran GPU,在常見的 HPC 基準測試中,每一半的效能都比整個 A100 多一點,但比右側所示的 HPC 應用程式的效能要低一點這張桌子的。差距並不像原始資料和速度所顯示的那麼大,我們認為這與 AMD 用於自己 GPU 的 ROCm 堆疊中的編譯器和數學庫的成熟度有關,而 Nvidia 用於其自己的 GPU 的 CUDA 堆疊。僅在 Frontier 系統中就有 1 億美元的非經常性工程資金試圖縮小 ROCm-CUDA 的部分差距。
真正重要的是裝置的價效比,因此我們採用了 Nvidia A100 的街頭價格,以黑色顯示,然後以紅色顯示估算。AMD MI200 系列 GPU 加速器的定價估計是我們認為的平衡價格,在 HPC 中常見的 FP64 和 FP32 工作負載上提供了非常好的競爭優勢,然後在混合精度的東西上獲得了可觀的收益。
為了檢查我們的預感,我們做了這個小小的思想實驗。假設 Frontier 中定製的 64 核“羅馬”處理器的流行價格標籤約為 5,000 美元,並假設整個機器 5 億美元的成本中有 20% 用於 Slingshot 網路、磁碟儲存和 Shasta 機箱,以及 15 % 是主存,那麼 CPU 和 GPU 的成本應該是機器總成本的三分之二左右嗎?Instinct MI250X 的答案是 8,000 美元。如果你逆向做一些粗略的計算,Summit 超級計算機中使用的 V100 GPU 加速器在系統中的售價約為 7,500 美元,售價約為 4,000 美元。假設英偉達可能在 GPU 上提供的折扣水平相同,那麼 MI250X 的定價應為 14,500 美元左右。
如果您做出所有這些假設,那麼以下是這兩個 GPU 系列在峰值理論效能指標上的疊加效果:
真正、真正重要的是美元在現實世界工作負載上的價值,但我們必須等到有實際價格和實際基準才能進入。足夠危險地推斷當天。我只想說,如果實際基準測試和實際工作負載的效能差距沒有那麼大,那麼價格/效能差距也不會那麼大。但很大程度上取決於定價,在明年 AMD 批量出貨 MI200 之前,這些可以隨心所欲地改變。
來源:內容編譯自thenextplatform,侵刪!