編輯:David
【新智元導讀】微軟Azure團隊公佈了全新的AI基礎設施服務「奇點」平臺的技術細節。微軟表示,該平臺將成為微軟內部和外部AI的主要驅動力。
AI服務平臺的成本和效率問題,是各大服務提供商一直著力解決和改進的難題。
具體而言,就是如何在滿足客戶需求的同時,儘量降低整個系統資源的消耗,以及如何透過提高深度學習工作負載的利用率來降低成本。
近日,微軟 Azure 研究團隊合作構建了一個新的 AI 基礎設施服務,代號為「Singularity」。用研究人員的話說,這是「一個全新的人工智慧平臺服務,將成為微軟內部和外部人工智慧的主要驅動力。」
Singularity 服務旨在為資料科學家和 AI 從業者提供一種在微軟專為 AI 構建的分散式基礎架構服務上構建、擴充套件、試驗和迭代其模型的方法。
論文地址:
https://arxiv.org/pdf/2202.07848.pdf
在一篇系統介紹Singularity 服務的論文中,研究人員表示:
「Singularity 的核心是一種新穎的、可以感知工作負載的排程程式,可以透明地搶佔和彈性擴充套件深度學習工作負載,在不影響正確性和效能的情況下,提高全球範圍內的 AI 加速器(例如 GPU、FPGA)的利用率。」
據介紹,使用Singularity服務,活動作業負載可以動態且透明地佔用並遷移到一組不同的節點、叢集、資料中心或區域,並準確執行,還能夠在給定型別的一組不同的加速器上調整大小(即彈性縮放)。
Singularity平臺架構示意圖
使用者無須對程式碼進行任何更改,也不需要使用任何可能限制靈活性的自定義庫。微軟表示,這種方法顯著提高了深度學習工作負載的可靠性。
這篇論文的作者包括 Azure 首席技術官 Mark Russinovich;合作伙伴架構師 Rimma Nehme,他曾在 Azure Cosmos DB 工作,直到 2019 年轉到 Azure 從事人工智慧和深度學習工作;以及技術研究員 Dharma Shukla等。
和今天使用的彈性負載排程機制相比,Singularity排程程式可以將每個 worker 一對一對映到物理 GPU,或者使用多對一對映,將物理 GPU 虛擬化並跨多個 worker 進行時間切片,world-size不變。
相比之下,目前的彈性機制排程程式會將工作從上一個檢查點重新啟動,world-size減小至四分之一,導致資源浪費(比如自上一個檢查點以來的初始化和迭代需要重做)。
測試結果顯示,在不同模型上,使用Singularity服務(DP)相對基線水平(B)獲得的效能提升。
在透明彈性負載排程效能上,Singularity則取得了7%的平均優勢。
研究人員表示,Singularity在排程深度學習工作負載方面實現了重大突破,將諸如彈性等小眾特徵轉化為主流特徵,並在此基礎上實現了對深度學習工作負載的排程。
Singularity實現了前所未有的工作負載可替換性水平。工作負載能夠利用全球分佈的機群中的任何地方的空閒資源。
Singularity提供簡單的使用者體驗:使用者只需要關注機器學習任務本身,而不需要考慮檢查點或彈性負載問題。這些基礎設施的最佳化對使用者是完全透明的。
四年前的老專案「重生」?
ZD Net報道稱,Singularity 可能是將微軟此前推出的 Brainwave 專案推向商業化的下一個階段。
微軟此前曾討論過將 FPGA 或現場可程式設計門陣列作為服務提供給客戶的計劃。
2018 年,微軟公開了其旨在 Azure 中提供快速 AI 處理和計算能力的「Brainwave」專案。
當時,微軟在雲端提供了由 Brainwave 提供支援的 Azure 機器學習硬體加速模型的預覽——一個向客戶提供面向 AI 工作負載的 FPGA 處理平臺。
Brainwave 由高效能分散式系統架構組成;執行在可定製晶片(FPGA)上的硬體深度神經網路引擎,用於部署訓練模型的編譯器。
實際上,這不是微軟在自家平臺上第一次使用Singularity這個詞了。微軟之前就曾將 Singularity 用來命名微核心作業系統,以及一組完全以託管程式碼開發的相關工具和資源庫。
Singularity 最終催生和/或影響了微軟的其他幾個雲平臺和作業系統專案,對 Barrelfish、 Helios、 Midori和 Drawbridge等專案均產生了不小的影響。
AI計算平臺,大廠爭相佈局
值得注意的是,在人工智慧高效能計算和加速計算平臺的構建上,微軟早就開始佈局了。
2019年,微軟在OpenAI上投資了10億美元,並在一年後宣佈,他們已經與OpenAI合作並專門為OpenAI建造了第五強大的公開記錄超級計算機。
雖然微軟與OpenAI合作建造的AI超級計算機專門用於OpenAI,但微軟一直表示,他們計劃透過Azure AI服務和GitHub,想更多的使用者提供大型AI模型和訓練最佳化工具。
微軟還在其「Azure AI」旗下向不需要專用超級計算機的客戶提供各種加速計算服務。
2021年11月,微軟宣佈將在Azure中使用 80GB NVIDIA A100 GPU,以擴大其AI超級計算機陣容。
而且,微軟並不是唯一一家試圖在內部和客戶中提供人工智慧超級計算功能的科技公司。Meta也在做同樣的事情,如無意外,Meta已經將這項工作定位為解鎖元宇宙的關鍵。
參考資料:
https://www.joinaisupercomputer.com/current-positions/software-engineer-singularity-platform-infrastructure
https://arxiv.org/pdf/2202.07848.pdf
https://www.zdnet.com/article/microsoft-goes-public-with-details-on-its-singularity-ai-infrastructure-service/