僅僅在幾年前,訓練一個 AI 模型所需的時間還可能長達數週之久。
這也是過去幾年間,計算行業間湧現了眾多價值數十億美元的創新初創公司的重要原因所在——這些公司包括了 Cerebras Systems、Graphcore、Habana Labs 和 SambaNova Systems 等等。此外,谷歌、英特爾、英偉達和其他老牌公司也在企業內部投入了規模相當的鉅額資金(有時還會發起收購計劃)來探索這一領域。最新版本的 MLPerf 訓練基準結果表明,這筆錢是物有所值的。
MLPerf 母公司 MLCommons 的執行董事 David Kanter 表示,自 MLPerf 基準測試開始上線以來,人工智慧訓練效能的提升速度“成功地大大超過了摩爾定律”。
在早期版本的 MLPerf 基準測試最佳結果與 2021 年 6 月之後的基準測試最佳結果之間,電晶體密度的增長可以解釋其中一倍多的差異。但是軟體以及處理器和計算機架構的改進則貢獻了 6.8-11 倍的成績增長。在最新的 1.1 版測試中,最佳結果是 6 月份最佳成績的 2.3 倍。
根據英偉達的說法,使用 A100 GPU 的系統的效能相比 18 個月前的系統提高了 5 倍以上,相比三年前 MLPerf 基準測試成績首次釋出時的結果提高了 20 倍。
微軟首次將其 Azure 雲 AI 產品引入了 MLPerf,使用各種資源在所有八個測試網路中取得了極佳的成績。它們的規模從 2 個 AMD Epyc CPU 和 8 個英偉達 A100 GPU,直到 512 個 CPU 和 2048 個 GPU 不等。規模顯然很重要。頂級規格的系統在不到一分鐘的時間內就訓練完了 AI 模型,而二八組合通常需要 20 分鐘或更長時間。
“摩爾定律只能做到這麼多。軟體和其他進步在 AI 訓練的進化道路上發揮了重要作用。”
——MLCommons
英偉達在基準測試中與微軟密切合作。並且就像之前的 MLPerf 列表中人們看到的一樣,英偉達 GPU 是大多數參賽作品背後的 AI 加速器。包括戴爾、浪潮和 Supermicro 的作品都採用了他們的 GPU。
英偉達憑藉其 Selene AI 超級計算機無與倫比的規模,在商用系統的所有結果中名列前茅。Selene 由商用的模組化 DGX SuperPod 系統組成。在最大規模的測試中,Selene 使用 1080 個 AMD Epyc CPU 和 4320 個 A100GPU 在不到 16 秒的時間內就訓練完了自然語言處理器 BERT,大多數小型系統完成同樣的壯舉需要花費大約 20 分鐘。
根據英偉達的說法,使用 A100 GPU 的系統的效能相比 18 個月前的行業水平提高了 5 倍以上,相比三年前首次 MLPerf 基準測試結果釋出時提高了 20 倍。該公司表示,這要歸功於軟體創新和網路的改進成果。(有關更多資訊,請參閱英偉達的部落格)
鑑於英偉達在這些 AI 基準測試中的統治力和成績表現,新生的競爭對手很自然地會將自身與它進行比較。這就是總部位於英國的 Graphcore 正在做的事情,它指出他們研發的基本計算單元 Pod16(1 個 CPU 和 16 個 IPU 加速器)比英偉達的基本單元 DGX A100(2 個 CPU 和 8 個 GPU)快了近一分鐘。
Graphcore 推出了更大的系統
對於這一版本的 MLPerf,Graphcore 使用其基本單元 Pod64、Pod128 和(你肯定猜得到吧?)Pod256 的組合參加了影象分類和自然語言處理基準測試。Pod256 由 32 個 CPU 和 256 個 IPU 組成,是僅次於英偉達的 Selene 和英特爾的 Habana Gaudi 的第四快系統,以 3:48 完成了 ResNet 影象分類訓練。在自然語言處理方面,Pod256 和 Pod128 在榜單上排名第三和第四,再次落後於 Selene,分別以 6:54 和 10:36 結束。(有關更多資訊,請參閱 Graphcore 的部落格)
你可能已經注意到了,基於英偉達的產品(大約 1 比 4)和 Graphcore 的系統(低至 1 比 32)對比,它們的 CPU 與加速器晶片的比率有很大不同。Graphcore 工程師說,這是設計理念使然。IPU 旨在讓神經網路減少對 CPU 控制的依賴。
你會在 Habana Labs 系統上看到相反的情況,英特爾在 2019 年以大約 20 億美元的價格收購了它。例如,它在影象分類方面取得了很高的排名,為此英特爾使用 64 個 Xeon CPU 和 128 個 Habana Gaudi 加速器在不到 5 分半的時間內訓練完了 ResNet。它還使用 32 個 CPU 和 64 個加速器,用時 11 分 52 秒訓練完了 BERT 自然語言神經網路。(更多資訊請參閱 Habana 的部落格 )
谷歌對這批基準分數的貢獻有點不一樣。谷歌工程師沒有使用該公司的 TPU v4 處理器技術搭載在商業或雲系統上完成測試,而是提交了兩個超大自然語言處理神經網路的結果。
該公司使用其公開可用的 TPU v4 雲運行了一個版本的 Lingvo,這是一種 NLP,其引數高達 4800 億,而 BERT 的引數為 1.1 億。雲平臺使用 1024 個 AMD Epyc CPU 和 2048 個 TPU,在不到 20 小時的時間內完成了訓練任務。使用由 512 個 AMD Rome CPU 和 1024 個 TPU 組成的研究系統,谷歌在 13.5 小時內訓練了一個 2000 億引數版本的 Lingvo。(谷歌報告稱,從頭到尾完成整個過程需要 55 小時和 44 小時,包括開始訓練所需的步驟。)
在結構上,Lingvo 與 BERT 非常相似,可以歸入該類別,但它也類似於眾多計算巨頭一直在研究的其他真正巨型的對話 AI,例如 LaMDA 和 GPT-3。谷歌認為,巨大模型訓練最終應該成為未來 MLPerf 商業基準測試的一部分。(有關更多資訊,請參閱谷歌的部落格。)
然而,MLCommons 的 Kanter 指出,訓練此類系統的費用高到了足以將許多參與者排除在外。
原文連結:https://spectrum.ieee.org/ai-training-mlperf