編者按:微軟亞洲研究院創新提出的可應用於圖結構資料的 Graphormer 模型近日迎來重大升級!研究員們將此前開源的 Graphormer 升級為基於人工智慧的分子模擬通用工具包。關注分子模擬領域的科研人員和演算法工程師們可透過新版 Graphormer 工具包更好地對材料發現、藥物發現等應用中的重要問題進行最前沿的深度學習模型與演算法建模。在全新升級的 Graphormer 模型助力下,微軟亞洲研究院的研究員們在剛剛結束的公開催化劑挑戰賽中也取得了第一名的佳績。一起來看看此次升級都帶來了哪些更新吧!
Graphormer 模型是微軟亞洲研究院提出的新一代對圖(Graph)資料進行建模的深度學習模型(典型的圖資料包括分子化學式、社交網路等等)。相比於上一代傳統的圖神經網路(Graph Neural Network),Graphormer 模型具有更強大的模型表達能力、更高效捕捉圖結構資訊的能力以及可拓展性的更大潛力。在近期舉辦的 KDD Cup 2021 上,Graphormer 模型在 OGB-LSC 圖預測賽道上擊敗了全球包括 DeepMind 在內的多個技術實力強勁的公司和研究機構,奪得冠軍。
近年來,基於人工智慧演算法的分子性質預測與模擬在材料科學、生物製藥等領域都有著極其重要的應用。然而,在機器學習的開源社群中卻缺少支援前沿分子模擬深度學習的演算法與模型以及可方便使用的工具包。為了彌補領域內這一空白,微軟亞洲研究院的研究員們在過去一段時間內不斷迭代更新,將此前開源的 Graphormer 升級為基於人工智慧的分子模擬通用工具包,以幫助科研人員和演算法工程師更好地運用最先進的機器學習演算法進行分子模擬、分子性質預測、分子生成等任務。此次重大升級包括了最前沿的演算法、更易用的預訓練模型、更靈活的使用介面、更高效的架構與更完善的文件等。無論是科研人員,還是演算法工程師,Graphormer 都能在 AI 分子模擬上助你一臂之力。
GitHub 地址:
https://github.com/microsoft/Graphormer
專案主頁:
https://www.microsoft.com/en-us/research/project/graphormer/
Graphormer 模型再升級,助力奪魁公開催化劑挑戰賽
剛剛結束的公開催化劑挑戰賽(Open Catalyst Challenge)由 Facebook AI 研究院、卡耐基梅隆大學聯合機器學習頂級會議 NeurIPS 共同舉辦,旨在使用人工智慧演算法對新催化劑材料進行建模與發現,並助力解決新能源儲存、氣候變化等問題。
催化劑的發現和最佳化是解決許多社會和能源挑戰的關鍵,包括太陽能燃料合成、長期儲能和可再生肥料生產等。新的催化劑結構可以使用基於量子化學的分子與化學反應模擬(如密度泛函理論等)進行篩選與評估。然而,過於高昂的計算開銷與時間開銷不僅限制了可模擬的通量與規模,也大大限制了整個領域的發展。為此,使用機器學習演算法為分子和反應模擬提供高效的近似正逐漸成為催化劑發現中新的趨勢。
儘管催化界為將機器學習模型應用於計算催化劑的發現過程做出了相當大地努力,但構建可以泛化表面元素組成和吸附物特性的模型仍然是一個開放的挑戰。為了解決該挑戰並推動催化劑領域的發展,本次公開催化劑挑戰賽要求參賽隊伍開發機器學習演算法模擬超過66萬個密度泛函理論計算的催化劑-吸附物反應系統(超過1億4千萬個結構-能量估計),其中每個系統要模擬吸附物從初始狀態到鬆弛狀態(能量最低)過程中的結構與能量。
催化劑與吸附物反應鬆弛過程系統示意圖
由於該公開催化劑挑戰賽具有重大的科研意義,賽題富有且挑戰性,資料集規模也十分龐大,因此吸引了包括 DeepMind、FAIR、CMU 等在內的眾多科研機構與高校實驗室的關注和參與。在 NeurIPS 2021 大會上,競賽主辦方公佈了 Direct Track(直接預測鬆弛能量)的成績:微軟亞洲研究院達到了0.547eV的絕對誤差,以較大優勢奪冠。賽事的演算法效能分析顯示,對於多吸附物的複雜系統,Graphormer 模型能以89%的準確率預測最低能量系統,可以節省至少50%的密度泛函理論計算開銷。
Direct Track 公開(左)與非公開(右)測試集排行榜:微軟亞洲研究院的 Graphormer 模型均取得第一名
為了持續提升 Graphormer 模型的效能,微軟亞洲研究院的研究員們對模型進行了升級,包括支援對 3D 分子建模以及保持等變性的輔助任務等。
此前,為了更好的捕捉 2D 圖中的結構資訊,Graphormer 模型使用最短路距離作為空間編碼刻畫節點之間相互的空間位置關係;使用度資訊作為中心性編碼刻畫每個節點的結構重要性。然而 3D 分子中不存在化學鍵資訊,因此整個系統可視為由所有原子組成的全連線圖,所以研究員們使用了高斯核函式對節點之間的歐式距離進行了編碼作為空間編碼,並對每個節點的空間編碼進行求和,從而得到刻畫節點重要性的中心性編碼。
除了讓 Graphormer 模型直接預測系統鬆弛狀態下的能量,研究員們還為演算法設計了輔助任務:預測每個原子從初始狀態到鬆弛狀態的座標位移。在分子動力學任務中常常需要預測原子受力情況或座標位移等,因此模型的輸出需要對系統的旋轉平移等保持等變性。為此,研究員們為 Graphormer 模型設計了一個特殊的 3D 注意力層,使圖中目標節點對源節點的作用可以投影到 x,y,z 三軸上,從而讓模型輸出達到等變的效果。
公開催化劑挑戰賽中奪魁的 Graphormer-3D 模型
最新的開源 Graphormer 工具包中已經包括了此次公開催化劑挑戰賽所使用的全部模型、訓練推理程式碼與資料處理指令碼等,希望相關領域的科研人員與演算法工程師們可以方便地將 Graphormer 應用到分子動力學等任務中,助力人工智慧演算法在材料發現、生物製藥等領域的進展。
開源推動交叉領域的前沿研究與應用
當下,人工智慧演算法與自然科學的研究正在加速交叉融合,微軟亞洲研究院也在生物、材料、環境科學等多個領域的重要問題中取得了突破性進展。作為微軟亞洲研究院在人工智慧與自然科學交叉領域的第一個開源工具包,Graphormer 希望推進人工智慧與分子科學交叉領域的重要前沿研究與應用,如新型儲能材料發現、藥物發現等。除了前沿的演算法升級,Graphormer 還提供了在不同資料集上訓練的強大預訓練模型。
眾所周知,分子的精確物化性質或藥化性質往往需要在實驗室中測定,或臨床試驗中獲得,因此高質量的資料往往十分缺乏,導致一些前沿的深度學習模型無法發揮其強大的表達能力。而有了強大的預訓練模型,科研人員們往往只需要在自己特定的任務上使用非常少的資料對模型進行微調,即可得到效能強大的深度學習模型。例如在此次升級後,工具包中提供了在 PCQM4M 資料集上預訓練好的 Graphormer 模型,PCQM4M 資料集包含超過380萬個分子的量子化學屬性,可以讓預訓練 Graphormer 模型學到豐富的化學知識,並具有很好的遷移性。比如,當將在該資料集上預訓練的 Graphormer 模型遷移到生物測定任務(如 OGBG-PCBA 等資料集)上時,可以獲得遠超上一代圖神經網路的效能與效果。
此外,Graphormer 工具包目前支援 PYG、DGL、OGB 等多種主流圖工具包與資料庫,方便科研人員們快速在基準資料集或私有的特定資料上進行演算法開發與驗證。相比於上一版本,升級後的 Graphormer 效率更高,並且可提供高效能的大規模並行訓練以及靈活的自定義模型演算法。除了豐富的介面、強大的前沿演算法與預訓練模型以外,本次更新的 Graphormer 工具包還完善了文件支援,豐富的樣例程式也可幫助使用者們更容易理解、快速上手。
在未來,除了分子性質預測、分子動力學等,Graphormer 工具包還將支援多種科研與工業界的常見應用,如藥物分子與蛋白質相互作用、化學反應預測(逆合成)、分子生成、大體量分子(聚合物、蛋白質)模擬等等。大量的公開資料集、業界基準以及統一的評價標準將能夠幫助科研人員與企業使用者省去不必要的麻煩,專心於演算法或應用。
一直以來 Graphormer 都得到了社群成員和使用者的積極反饋。現在 Graphormer 的更新非常活躍,未來也將有更多功能開放出來,歡迎關心分子建模相關問題的使用者關注並使用微軟亞洲研究院 Graphormer 工具包。也希望透過更多的交流和分享可以助力分子建模領域形成大規模的良性迴圈。
Graphormer
GitHub地址:
https://github.com/microsoft/Graphormer
文件地址:
https://graphormer.readthedocs.io/en/latest/
專案主頁:
https://www.microsoft.com/en-us/research/project/graphormer/