編輯 | 蘿蔔皮
幾何深度學習(GDL)基於包含和處理對稱資訊的神經網路架構。GDL 為依賴於具有不同對稱性和抽象級別的分子表示的分子建模應用程式帶來了希望。
蘇黎世聯邦理工學院的研究人員對分子 GDL 進行了結構化和統一概述,重點介紹了其在藥物發現、化學合成預測和量子化學中的應用。它包含對 GDL 原理的介紹,以及相關的分子表示,例如分子圖、網格、曲面和字串,以及它們各自的屬性。討論了分子科學中 GDL 當前面臨的挑戰,並嘗試預測未來的機會。
該綜述以「Geometric deep learning on molecular representations」為題,於 2021 年 12 月 15 日釋出在《Nature Machine Intelligence》。
深度學習的最新進展,即基於神經網路的人工智慧(AI)的一個例項,已經在分子科學領域取得了開創性的應用,例如藥物發現、量子化學和結構生物學。深度學習的兩個特點使其在應用於分子時很有希望。
首先,深度學習方法可以處理「非結構化」資料表示,例如文字序列、語音訊號、影象和圖形。這種能力似乎對分子系統特別有用,化學家已經開發了分子表示,可以在不同的抽象級別捕獲分子特性。
其次,深度學習可以從輸入資料中進行特徵提取(或特徵學習);也就是說,從輸入表示中生成資料驅動的特徵。
深度學習的這兩個特徵補充了「經典」機器學習應用程式,例如定量結構-活性關係(QSAR),其中分子特徵(即「分子描述符」)使用基於規則的演算法進行先驗編碼。
多層神經網路從非結構化資料中學習並提取高階分子特徵的這種能力已經導致深度學習在分子科學中的大量應用。
圖示:所選分子的示例性分子表示。(來源:論文)
幾何深度學習(GDL)是人工智慧的一個新興概念。GDL 是一個總稱,涵蓋了將神經網路推廣到歐幾里德和非歐幾里德域的新興技術,例如圖、流形、網格或字串表示。一般來說,GDL 包括結合幾何先驗的方法,即輸入訊號的結構空間和對稱特性的資訊,例如分子結構的表示。利用幾何先驗來提高模型的質量,例如其預測準確性。儘管 GDL 已越來越多地應用於分子建模,但其在該領域的全部潛力仍未開發。
本綜述的主要目的是(1)對 GDL 在分子系統中的突出應用提供結構化和統一的概述,(2)描述該領域的主要研究方向,以及(3)嘗試對 GDL 的潛在未來影響進行批判性預測。突出了三個應用領域,即藥物發現、量子化學和計算機輔助合成規劃(CASP)。
GDL 的原則
GDL 一詞是在 2017 年創造的。雖然 GDL 最初用於應用於非歐資料的方法,但它現在擴充套件到所有包含幾何先驗的深度學習方法。對稱性是 GDL 中的一個關鍵概念,因為它包含系統在操作(轉換)方面的屬性,例如歐幾里得群 E(3) 所涵蓋的屬性。分子的其他相關轉換包括尺度分離(例如,網格的粗粒度和細粒度)或排列(即,分子中原子的不同排序)。
對稱性通常根據不變性和等方差性進行重新定義,以表達任何數學函式相對於作用對稱群的變換 T(例如旋轉、平移、反射或置換)的行為。這裡,數學函式是應用於給定分子輸入 X 的神經網路 F。F(X ) 可以在其中對 T 進行等變、不變或非等變變換。
等方差和不變性的概念也可以用於參考從給定的分子表示 (X) 獲得的分子特徵,這取決於它們在對 X 應用變換時的行為。神經網路提取的分子特徵的對稱性取決於輸入分子表示和所用神經網路的對稱性。
許多相關的分子特性(例如,平衡能、原子電荷或物理化學特性,如滲透性、親油性或溶解性)對於某些對稱操作是不變的。因此,對於化學應用,設計在預定義對稱群作用下等變變換的神經網路是可取的。
如果目標特性在分子對稱變換後發生變化(例如,在分子反轉時改變的手性特性或在分子旋轉時改變的向量特性),則會出現例外情況。在這種情況下,等變神經網路的歸納偏差(學習偏差)將不允許對對稱變換的分子進行區分。
雖然神經網路可以被視為通用函式逼近器,但結合先驗知識(如合理的幾何資訊)已經發展成為神經網路建模的核心設計原則。透過結合幾何先驗,GDL 可以提高模型的質量,並繞過與將資料強制轉換為歐幾里得幾何(例如,透過特徵工程)相關的幾個瓶頸。此外,GDL 提供了新的建模機會,例如低資料機制中的資料增強。
圖示:分子圖的深度學習。(來源:論文)
分子 GDL
GDL 在分子系統中的應用具有挑戰性,部分原因是有多種有效的方式來表示相同的分子實體。分子表示可以根據它們不同的抽象級別以及它們捕獲的物理化學和幾何方面進行分類。重要的是,所有這些表示都是同一現實的模型,因此適用於某些目的,而不適用於其他目的。GDL 提供了對同一分子的不同表示進行試驗的機會,並利用其內在的幾何特徵來提高模型的質量。此外,由於其特徵提取(特徵學習)能力,GDL 一再證明在為手頭的任務提供相關分子特性的見解方面很有用。
論文中,作者描述了最流行的分子 GDL 方法及其在化學中的應用,根據用於深度學習的各自分子表示進行分組:分子圖和點雲、網格、表面和字串符號。
圖示:化學語言建模。(來源:論文)
總結
化學中的 GDL 使研究人員能夠利用非結構化分子表示的對稱性,從而提高用於分子結構生成和性質預測的計算模型的靈活性和多功能性。
這些方法補充了基於分子描述符或其他人工工程特徵的化學資訊學。對於通常以需要工程規則為特徵的建模任務(例如,從頭設計的分子構建和 CASP 的反應位點規範),GDL 擴充套件了現有的方法庫。在已發表的 GDL 應用程式中,每個分子表示都顯示出特徵性的優勢和劣勢。
SMILES 等分子串已被證明特別適合生成式深度學習任務,例如從頭設計和 CASP。這一成功可能歸功於這種化學語言的直接語法,它促進了下一個標記和序列到序列的預測。對於分子特性預測,SMILES 字串可能由於其非單一性而受到限制。
分子圖已被證明可用於屬性預測,部分原因是它們的人類可解釋性以及易於包含所需的邊緣和節點特徵。3D資訊的結合(例如,E(3)- 不變或 SE(3)/E(3)- 等變資訊傳遞)有助於量子化學相關建模,而在藥物發現應用中,這種方法往往無法明顯平衡模型增加的複雜性。E(3) 等變 GNN 也已應用於構象感知從頭設計,但正在等待實驗驗證。
分子網格長期以來一直是大型靜態分子系統(例如蛋白質)學習任務的標準 3D 表示。它們以使用者定義的解析度(體素密度)和輸入網格的歐幾里得結構捕獲資訊的能力使 3D CNN 高效並適用於蛋白質和其他大分子。然而,最近在 Transformer 網路、GNN 和測地線 CNN 方面取得的進展已經使模型達到了最先進的效能。
最後,分子表面是目前 GDL 的前沿。我們期待在不久的將來 GDL 在分子表面上有許多有趣的應用。
展望
為了進一步推動 GDL 在化學中的應用和影響,需要對演算法複雜性、效能和模型可解釋性之間的最佳權衡進行評估。這些方面對於調和「兩個 QSAR」以及連線計算機科學和化學界至關重要。作者鼓勵 GDL 從業者儘可能在他們的模型中包含可解釋性的方面(例如,透過可解釋的 AI),並與領域專家進行透明的交流。領域專家的反饋對於開發新的「化學感知」架構和實現具體的前瞻性應用也至關重要。
GDL 在分子特徵提取方面的潛力尚未得到充分探索。幾項研究表明,與經典分子描述符相比,學習表徵具有優勢,但在其他情況下,GDL 未能兌現其在卓越學習特徵方面的承諾。為下游應用程式推導有用的資料驅動特徵可能具有挑戰性,因為它需要演算法和各自應用領域的專業知識,有利於跨學科合作。雖然有評估機器學習模型用於屬性預測和分子生成的基準,但目前還沒有這樣的框架來系統評估 AI 學習的資料驅動特徵的有用性。這樣的基準和系統研究,包括前瞻性應用,對於獲得對深度表徵學習的直接評估是必不可少的。此外,研究學習特徵與輸入分子的物理化學和生物學特性之間的關係將增強 GDL 的可解釋性和適用性,以模擬結構 - 功能關係。
與常規執行適用性域(即模型預測被認為可靠的化學空間區域)評估的傳統 QSAR 方法相比,當代 GDL 研究缺乏這樣的評估。這種明顯的差距可能構成在前瞻性研究中更廣泛使用 GDL 方法的限制因素之一。
對模型的適用範圍進行徹底評估將有助於降低預測不可靠的風險,例如,對於具有與訓練資料不同的作用機制、官能團或物理化學特性的分子。建議開發用於適用性領域評估的「幾何感知」方法。
另一個機會是利用較少探索的 GDL 分子表示。例如,分子的電子結構在 CASP、分子性質預測和大分子相互作用(例如蛋白質-蛋白質相互作用)預測等任務中具有潛力。儘管準確的統計和量子力學模擬在計算上是昂貴的,但在大型量子資料集合上訓練的現代量子機器學習模型,允許以高精度更快地訪問量子化學特性。這方面可以使廣泛的分子資料集的量子和電子特徵化用作感興趣任務的輸入分子表示。
深度學習可以應用於多種生物和化學表示。相應的深度神經網路模型有可能增強人類的創造力,為以前不可行的科學研究鋪平道路。
然而,研究只是探索了冰山一角。將深度學習融入分子科學的最重要催化劑可能是學術機構和其他組織促進跨學科教育、協作和交流。只有對化學和計算機科學有深刻的理解,以及開箱即用的思維和協作創造力,才有可能摘到「懸而未決的果實」。在這樣的環境中,我們期望分子 GDL 能夠增加學術界對分子系統和生物現象的理解。
論文連結:https://www.nature.com/articles/s42256-021-00418-8