sponsored links

微軟亞洲研究院釋出高效能MoE庫Tutel 為大規模DNN模型開發提速

編者按:作為目前唯一被證明能夠將深度學習模型擴充套件到萬億以上引數的方法,MoE 能讓模型學習更多資訊,併為計算機視覺、語音識別、自然語言處理和機器翻譯系統等提供支援。近期,微軟亞洲研究院釋出了一個高效能 MoE 庫——Tutel,並在 8x 80GB NVIDIA A100 和 8x 200Gbps 的 InfiniBand 網路的 Azure NDm A100 v4 節點上進行了實驗。讓我們來看一看,這個用於促進大規模 DNN 模型開發的高效能 MoE 庫有哪些優勢?其表現又如何?



混合專家(Mixture-of-Experts,簡稱 MoE)是一種深度學習模型架構,其計算成本與引數的數量呈次線性關係,因此更容易擴充套件。MoE 是目前唯一被證明能夠將深度學習模型擴充套件到萬億以上引數的方法,它能讓模型學習更多資訊,併為計算機視覺、語音識別、自然語言處理和機器翻譯系統等提供支援,從而以全新的方式為人類社會提供幫助。

近日,微軟亞洲研究院釋出了一個用於促進大規模 DNN 模型開發的高效能 MoE 庫——Tutel,並針對已普遍使用的新 Azure NDm A100 v4 系列進行了高度最佳化。藉助 Tutel 多樣化和靈活的 MoE 演算法支援,AI 領域的開發人員可以更輕鬆、高效地執行 MoE。與最先進的 MoE 實現方式,如 fairseq(Meta的Facebook AI 研究院基於 PyTorch 的 Sequence to Sequence 工具包)相比,對於單個 MoE 層,Tutel 在具有8個 GPU 的單個 NDm A100 v4 節點上實現了8.49倍的加速,在具有512個 A100 GPU 的64個 NDm A100 v4 節點上實現了2.75倍的加速。在端到端效能方面,得益於 all-to-all 通訊最佳化,Tutel 在 Meta(原 Facebook 公司)的1.1萬億引數的 MoE 語言模型中使用64個 NDm A100 v4 節點實現了40%以上的加速。

Tutel 具有良好的相容性和豐富的功能,確保了其在 Azure NDm A100 v4 群集上執行時可以發揮出色的效能。目前,Tutel 已開源,並已整合到 fairseq 中。

Tutel GitHub 連結:

https://github.com/microsoft/tutel

微軟亞洲研究院釋出高效能MoE庫Tutel 為大規模DNN模型開發提速

Tutel MoE的三大優勢

作為 fairseq、FastMoE 等其他高水平 MoE 解決方案的補充,Tutel 主要專注於最佳化面向 MoE 的計算和 all-to-all 通訊,以及其他多樣化和靈活的 MoE 演算法支援。Tutel 具有簡潔的介面,可以輕鬆整合到其他 MoE 解決方案中。當然,開發人員也可以從頭開始,利用 Tutel 的介面將獨立的 MoE 層合併到他們自己的 DNN 模型中,直接從高度最佳化的、最先進的 MoE 功能中受益。

與現有的 MoE 解決方案相比,Tutel 具有以下三個主要優勢:

最佳化面向 MoE 的計算。由於缺乏高效的實現方法,目前基於 MoE 的 DNN 模型依賴於深度學習框架(如 PyTorch、TensorFlow 等)提供的多個現成 DNN 運算子的拼接來組成 MoE 計算。由於需要冗餘計算,這種做法會導致顯著的效能開銷。Tutel 設計並實現了多個高度最佳化的 GPU 核心,為面向 MoE 的計算提供了運算子。例如,Tute l將排程“輸出選通(gating output)”的時間複雜度從 O(N^3)降低到 O(N^2),顯著提高了資料排程的效率。Tutel 還實現了快速 cumsum-minus-one 運算子(fast cumsum-minus-one operator),與 fairseq 實現方式相比,達到了24倍的加速。此外,Tutel 還利用 NVRTC(CUDA C++ 的執行時編譯庫)進一步實時優化了定製的 MoE 核心。

圖1對比了 Tutel 與 faireseq 在 Azure NDm A100 v4 平臺上的執行結果,如前所述,使用 Tutel 的單個 MoE 層在8個 A100 GPU 上實現了8.49倍的加速,在512個 A100 GPU 上實現了2.75倍的加速。

微軟亞洲研究院釋出高效能MoE庫Tutel 為大規模DNN模型開發提速

圖1:與 fairseq 相比,對於單個 MoE 層,Tutel 在具有8個 GPU 的單個 NDm A100 v4 節點上實現了8.49倍的加速,在具有512個 A100 GPU 的64個 NDm A100 v4 節點上實現了2.75倍的加速。詳細設定為:batch_size = 32, sequence_length = 1,024, Top_K = 2, model_dim = 2,048, ands hidden_size = 2,048

Azure NDm A100 v4 群集上實現底層 all-to-all 通訊最佳化。Tutel 針對 Azure NDm A100 v4 群集上的大規模 MoE 訓練,優化了 all-to-all 聚合通訊(collective communication),其中包括 CPU-GPU 繫結和自適應路由(AR)調整。在非一致儲存訪問結構(NUMA)系統上,尤其是在 NDv4 VM上,正確的 CPU-GPU 繫結對於 all-to-all 效能非常關鍵。但是,現有的機器學習框架(TensorFlow、PyTorch 等)並未提供高效的 all-to-all 通訊庫,導致大規模分散式訓練的效能下降。

Tutel 可以自動最佳化繫結,併為使用者微調提供簡潔的介面。此外,Tutel 在 NDm A100 v4 叢集上使用了多路徑技術,即 AR。對於 MoE 中的 all-to-all 通訊,每個 GPU 通訊的總資料流量規模並不會發生變化,但每個 GPU 之間的資料規模會隨著 GPU 數量的增加而變小。而更小的資料規模會在 all-to-all 通訊中產生更大的開銷,導致 MoE 訓練效能下降。藉助 Azure NDm A100 v4 叢集提供的 AR 技術,Tutel 提高了小訊息組的通訊效率,並在 NDv4 系統上提供了高效能的 all-to-all 通訊。得益於 CPU-GPU 繫結和AR調整,Tutel 使用512個 A100 GPU,對通常用於 MoE 訓練的每次交換的數百兆位元組的訊息,實現了2.56倍到5.93倍的 all-to-all 加速,如圖2所示。

微軟亞洲研究院釋出高效能MoE庫Tutel 為大規模DNN模型開發提速

圖2:在應用 Tutel 前後,具有64個 NDm A100 v4 節點(512個 A100 GPU)的不同訊息大小的 all-to-all 頻寬。Tutel 使用512個 A100 GPU,對大小為數百兆位元組的訊息實現了2.56倍到5.93倍的 all-to-all 加速。

多樣、靈活的 MoE 演算法支援。Tutel 為最先進的 MoE 演算法提供了多樣化且靈活的支援,包括:

  • 為 Top-K gating 演算法設定任意K值(大多數實現方法僅支援 Top-1 和 Top-2 )。
  • 不同的探索策略,包括批次優先路由、輸入資訊丟失、輸入抖動。
  • 不同的精度級別,包括半精度(FP16)、全精度(FP32)、混合精度等(下一個版本中將支援 BF16)。
  • 不同的裝置型別,包括 NVIDIA CUDA 和 AMD ROCm 裝置等。

Tutel 將積極整合來自開源社群的各種新興 MoE 演算法。

微軟亞洲研究院釋出高效能MoE庫Tutel 為大規模DNN模型開發提速

Tutel與Meta的MoE語言模型整合

此前,Meta 就開源了自己的 MoE 語言模型,並利用 fairseq 實現了 MoE。微軟亞洲研究院與 Meta 合作將 Tutel 整合到了 fairseq 工具包中。Meta 也一直用 Tutel 在 Azure NDm A100 v4 上訓練其大型語言模型,該模型中基於注意力的神經架構類似於 GPT-3。

微軟亞洲研究院的研究員們使用 Meta 的語言模型評估了 Tutel 的端到端效能。該模型有32個注意力層,每個層都有32個128維注意力頭(32x128-dimension heads)。每2層中包含1個 MoE 層,而每個 GPU 都配有一名專家(expert)。表1總結了模型的詳細設定引數,圖3則顯示了Tutel的加速效果。由於 all-to-all 通訊成為瓶頸,所以隨著 GPU 數量的增加,Tutel 帶來的改進從8個 A100 GPU 的131%提升至512個 A100 GPU 的40%。研究員們將在下一個版本中對此做進一步最佳化。

微軟亞洲研究院釋出高效能MoE庫Tutel 為大規模DNN模型開發提速


表1:512個 A100 (80G) GPU 的 MoE 語言模型配置

微軟亞洲研究院釋出高效能MoE庫Tutel 為大規模DNN模型開發提速


圖3:在端到端效能方面,Tutel 在 Meta 的1.1萬億引數的 MoE 語言模型中使用64個 NDm A100 v4 節點實現40%以上的加速

微軟亞洲研究院釋出高效能MoE庫Tutel 為大規模DNN模型開發提速

Tutel將繼續進化,充分發揮MoE潛力

MoE 技術前景廣闊,它可以基於許多領域的技術,實現整體訓練,例如系統路由、海量節點的網路平衡,甚至可以從基於 GPU 的加速中受益。微軟亞洲研究院展示了一個高效的 MoE 實現方式——Tutel,它比 fairseq 框架有著顯著的進步。

現在,Tutel 也已整合到了 DeepSpeed 框架中。相信 Tutel 和相關的整合將使更多 Azure 服務受益,特別是對於那些希望高效擴充套件自有大型模型的客戶。今天的 MoE 仍處於早期階段,需要付出更多努力才能充分發揮 MoE 的潛力,因此研究員們也將繼續最佳化 Tutel,希望未來可以給大家帶來更多令人興奮的研究和應用成果。

分類: 科技
時間: 2021-11-24

相關文章

陝西理工大學:網傳資訊不實
關於網傳我校不實資訊的情況說明 近日,微博超話關於"陝西理工大學跳樓大甩賣"資訊,引發網路關注.我校獲悉後高度重視,立即就網傳資訊進行調查. 經核實,"陝西理工大學跳樓大 ...

網傳湖北工業大學一新生因偷拍女生裙底被學校開除?校方:已嚴肅處理

網傳湖北工業大學一新生因偷拍女生裙底被學校開除?校方:已嚴肅處理
9月17日,有網友發文稱,湖北工業大學一新生因偷拍女生裙底被學校開除.事後校方回應,涉事學生已被學校與公安機關嚴肅處理. 網傳影片中顯示,15日晚眾多學生集聚在草坪上,一男生彎腰用手機偷拍站在人群后身 ...

網傳教輔書全部下架?有家長一次性囤了12年的試卷

網傳教輔書全部下架?有家長一次性囤了12年的試卷
一大早,我就被家長群裡一句"聽說現在教輔要全部下架了"給炸了一激靈! 什麼???教輔下架?輔導班沒了教輔要是也沒了我拿什麼輔導孩子? 一絲恐慌和緊張過後,我找回了理智:等等,群裡也 ...

陝西理工大學:已成立工作組調查核實網傳學生因感情糾葛產生的負面網路資訊

陝西理工大學:已成立工作組調查核實網傳學生因感情糾葛產生的負面網路資訊
據@陝西理工大學 微博訊息,網傳陝西理工大學學生因感情糾葛產生的負面網路資訊,校方高度重視,組成專門工作組正在進行調查核實.若經核實此資訊屬實,學校將對相關學生嚴肅處理,以正校紀校風:若此資訊不屬實, ...

網傳南開大學設夫妻寢室,校方回應:屬實

網傳南開大學設夫妻寢室,校方回應:屬實
又到一年開學季,很多大學生最關心的問題之一就是寢室和室友分配,通常來講都是隨機分配的.但近日,南開大學推出"夫妻宿舍"引發網友討論. 據@沸點影片 訊息:近日,網傳#南開大學推出夫 ...

網傳湖南衛視新訊息,主持人汪涵被換,似乎要迎來大整改

網傳湖南衛視新訊息,主持人汪涵被換,似乎要迎來大整改
網傳湖南衛視新訊息,汪涵被金星代替,主持人工作受限制 近段時間以來,娛樂圈迎來前所未有的大整頓,明星們也開始人人自危,生怕哪天行差踏錯,迎來被封殺的結局.除了明星以外,各大衛視也紛紛響應,出臺各種新政 ...

校方回應網傳“陝西理工大學跳樓大甩賣”:不實資訊

校方回應網傳“陝西理工大學跳樓大甩賣”:不實資訊
據@陝西理工大學 微博訊息,近日,微博超話關於"陝西理工大學跳樓大甩賣"資訊,引發網路關注.獲悉後高度重視,立即就網傳資訊進行調查.經核實,"陝西理工大學跳樓大甩賣&qu ...

都是晶片短缺鬧的?網傳大眾朗逸或取消中控屏,到店自行加裝

都是晶片短缺鬧的?網傳大眾朗逸或取消中控屏,到店自行加裝
當前國內車市受晶片短缺影響甚大,從近幾個月各大車企公佈的銷量報表就能看出一二,即便熱度再高,沒有產能大家也只能等著.缺晶片的大環境下,誰能更好處理這方面問題,誰就能掌握主動,此前還有傳聞車企蹲守晶片廠 ...

網傳朗逸全系取消中控屏,如果車價更便宜,我認為可以接受

網傳朗逸全系取消中控屏,如果車價更便宜,我認為可以接受
眾所周知,合資車型的配置向來比較吝嗇,特別是最低配的車型.正因如此,自主品牌與合資品牌的競爭中.自主品牌也主要是依靠配置上的優勢與合資品牌競爭的. 近日,網傳大眾朗逸將直接取消中控屏,帶"洞 ...

網傳《天賜的聲音3》即將錄製,劉惜君或將成為常駐嘉賓

網傳《天賜的聲音3》即將錄製,劉惜君或將成為常駐嘉賓
網傳<天賜的聲音3>即將錄製,劉惜君或將成為常駐嘉賓 前段時間網傳音綜<最美的歌>成為了很多人關注的焦點,不僅是因為它將接檔<歌手>,同樣也因為它不再淘汰選手,而是 ...

網傳“人體器官夜間睡眠排毒表”能信嗎?

網傳“人體器官夜間睡眠排毒表”能信嗎?
網傳訊息截圖 網上熱傳"人體器官夜間睡眠排毒表""人體五臟六腑排毒時間"等訊息,訊息稱:晚上9:00-11:00為淋巴排毒時間.每天晚上23:00-01:00, ...

網傳大衣哥露面談兒子婚變,否認5點傳聞,兒媳線上被“打臉”?

網傳大衣哥露面談兒子婚變,否認5點傳聞,兒媳線上被“打臉”?
大衣哥作為一位歌手,此時他最擔心的,並非是自己未來的事業發展,而是自己膝下的兩個孩子,一個無所事事,一個又懶又饞,確實相當令人頭疼.就在近日,其兒子還迎來了婚變風波,面對外界的紛紛揣測,作為父親,對方 ...

官方通報網傳信陽司馬光中學教師吃拿卡要、師德敗壞:已責令暫停教學工作

官方通報網傳信陽司馬光中學教師吃拿卡要、師德敗壞:已責令暫停教學工作
大河報記者 李鑫 通訊員 汪星晨 9月25日上午,記者獲悉,據@光山宣傳 通報,9月24日,信陽市光山縣教體局接到網民反映司馬光中學教師謝某吃喝嫖賭.吃拿卡要.師德敗壞情況.光山縣教體局高度重視,第一 ...

聲網的關鍵時刻:在夾縫中對決騰訊、阿里

聲網的關鍵時刻:在夾縫中對決騰訊、阿里
21世紀經濟報道 賀泓源 北京報道 上市一年間,聲網跌宕起伏. 去年6月,該公司上市後,市值漸入狂奔區間,今年2月底,一度飆至114.96美元高位.9月17日,聲網報收29.29美元,與市值巔峰間隔不 ...

網傳北理工一碩士研究生論文涉嫌抄襲,校方:成立工作組調查

網傳北理工一碩士研究生論文涉嫌抄襲,校方:成立工作組調查
9月20日,北京理工大學研究生院在官網釋出公告: 近日,某網站上釋出了關於我校2020級碩士研究生張××以署名第二作者的身份(共同一作)向arxiv上傳了一篇學術論文涉嫌抄襲的訊息,學校對此高度重視, ...

恆大深夜闢謠!網傳《關於召開全國恆大財富投資人大會通知》系偽造 #熱點覆盤#
點藍字關注,不迷路~ 9月19日晚間,恆大集團釋出公告稱,近日,網路流傳<關於召開全國恆大財富投資人大會通知>.經核實,該通知系偽造,非我集團旗下恆大金融財富管理(深圳)有限公司官方釋出, ...

網傳小鵬飛行器試飛成功?小鵬回應:該訊息屬實
近日,一段小鵬飛行器的測試影片在網路流傳,小鵬汽車方面證實,就是飛行汽車,是小鵬對未來出行的部署.有網友表示,再也不用擔心堵車了.(東方網·縱相影片 張俊學)

花樣年迎“至暗時刻”?網傳出售北京密雲兩專案,官方回應“訊息不實”

花樣年迎“至暗時刻”?網傳出售北京密雲兩專案,官方回應“訊息不實”
花樣年被爆債務違約,也牽扯出旗下物管子公司彩生活出售核心資產部分相關交易情況. 10月5日,<國際金融報>記者就彩生活從碧桂園服務處獲得的30億資金向花樣年予以求證,並獲得回覆," ...

網傳南開大學設立夫妻寢室?校方給出明確回覆,網友不淡定了

網傳南開大學設立夫妻寢室?校方給出明確回覆,網友不淡定了
剛開學不久,浙江大學.復旦大學.大連理工大學等眾多高校紛紛發聲禁止大學生婚前性行為,這一發聲也獲得絕大多數網友的認可與贊同. 可近日,網上傳出了一條南開大學推出"夫妻寢室"的訊息再 ...

網傳6個省油小妙招,我差點就信了

網傳6個省油小妙招,我差點就信了
不管你是剛買車的新手司機還是開車十多年的老司機,只要聊到省油話題,大家都會津津樂道自己的各種省油妙招.這也難怪,只要你開車,油耗問題便會無時無刻伴隨著你.如果你每百公里能省0.1L油,那整個用車週期計 ...