編輯 | 蘿蔔皮
從分子圖中預測分子的 3D 構象異構體在化學資訊學和藥物發現領域發揮著關鍵作用。現有的生成性模型有幾個缺點,包括缺乏對重要分子幾何元素(例如扭轉角)的建模,分離的最佳化階段容易累積誤差,以及需要基於近似經典力場或計算昂貴的方法(如在每個幾何體上進行近似量子力學計算的亞動力學)進行結構微調。
來自麻省理工學院的研究人員提出了 GeoMol —— 一種端到端、非自迴歸和 SE (3) - 不變的機器學習方法,用於生成低能量分子 3D 構象異構體的分佈。
利用訊息傳遞神經網路 (MPNN) 的強大功能來捕獲區域性和全域性圖資訊,預測區域性原子 3D 結構和扭轉角,避免幾何自由度的不必要的過度引數化(例如每個非末端鍵一個角度)。這種區域性預測對於訓練損失計算以及完整的確定性一致性元件(在測試時)都足夠了。
研究人員設計了一個基於非對抗性最優傳輸的損失函式來促進多樣化的構象異構體生成。GeoMol 主要優於流行的開源、商業或最先進的機器學習 (ML) 模型,同時實現了顯著的加速。
該研究以「GeoMol: Torsional Geometric Generation of Molecular 3D Conformer Ensembles」為題,於 2021 年 6 月 8 日釋出在 arXiv 預印平臺。
在尋找有效的新藥的過程中,科學家們正在尋找可以附著在致病蛋白質上並改變其功能的類藥物分子。他們知道分子的 3D 形狀以瞭解它如何附著在蛋白質的特定表面上至關重要。
但是單個分子可以以數千種不同的方式摺疊,因此透過實驗解決這個難題是一個耗時且昂貴的過程,就像在分子大海撈針一樣。
麻省理工學院的研究人員使用機器學習來簡化這項複雜的任務。他們建立了一個深度學習模型,該模型僅基於分子結構的二維圖形預測分子的三維形狀。分子通常用小圖表示。
從輸入的分子圖中生成低能三維構象集合。
他們的系統 GeoMol 只需幾秒鐘就可以處理分子,其效能優於其他機器學習模型,包括一些商業方法。該論文的作者 Octavian Eugen Ganea 說,透過縮小需要在實驗室實驗中測試的分子數量,GeoMol 可以幫助製藥公司加快藥物發現過程。
GeoMol 模型概述。
「當你思考這些結構如何在3D空間中移動時,實際上只有分子的某些部分是靈活的,這些可旋轉的鍵。我們工作的關鍵創新之一是,我們像化學工程師一樣考慮建模構象的靈活性。這真的是試圖預測結構中可旋轉鍵的整體分佈。」該研究的重要參與者 Lagnajit Pattanaik 說。
繪製分子圖
在分子圖中,分子的單個原子表示為節點,連線它們的化學鍵表示為邊。
GeoMol利用了一種最新的深度學習工具,稱為訊息傳遞神經網路,專門設計用於對圖形進行操作。研究人員採用了一種資訊傳遞神經網路來預測分子幾何的特定元素。
給定一個分子圖,GeoMol 最初預測了原子間化學鍵的長度和這些單個鍵的角度。原子排列和連線方式決定了哪些鍵可以旋轉。
然後,GeoMol 單獨預測每個原子的區域性鄰域的結構,透過計算扭轉角將其對齊來組裝相鄰的可旋轉鍵對。扭轉角決定了三個連線段的運動,在這種情況下,三個連線四個原子的化學鍵。
「在這裡,可旋轉鍵可以獲取大量的可能值。因此,使用這些資訊傳遞神經網路,我們可以捕獲影響該預測的許多本地和全球環境。可旋轉鍵可以獲取多個值,我們希望我們的預測能夠反映潛在分佈。」Pattanaik 說。
克服現有障礙
預測分子三維結構的一個主要挑戰是建立手性模型。手性分子不能像一雙手那樣疊加在它的映象上(無論你如何旋轉你的手,它們的特徵都不可能完全對齊)。如果一個分子是手性的,它的映象就不會以同樣的方式與環境相互作用。
手性分子。
這可能導致藥物與蛋白質不正確地相互作用,從而產生危險的副作用。Ganea 說,目前的機器學習方法通常涉及一個漫長而複雜的最佳化過程,以確保手性分子被正確識別。
由於 Gemool 單獨確定每個鍵的 3D 結構,因此它在預測過程中明確定義了手性,消除了事後最佳化的需要。
在完成這些預測之後,GeoMol 為分子輸出了一組可能的3D結構。
Ganea 說:「我們現在可以做的是將我們的模型與預測這種附著到特定蛋白質表面的模型進行端到端的連線。我們的模型不是一個單獨的管道。它很容易與其他深度學習模型整合。」
「超快」模型
研究人員使用分子資料集模型進行了測試。與機器學習模型和其他方法相比,他們評估了模型能夠捕捉到多少可能的三維結構。在幾乎所有情況下,GeoMol 在所有測試指標上都優於其他模型。
與其他計算模型比較。
「我們發現我們的模型速度非常快,這真的很令人興奮。重要的是,當你新增更多的可旋轉鍵時,你期望這些演算法會顯著減慢。但我們並沒有真正看到這一點。速度與可旋轉鍵的數量成正比,這很有可能用於後續使用這些型別的模型,特別是在試圖快速預測這些蛋白質內部3D結構的應用中。」Pattanaik 說。
未來,研究人員希望將 GeoMol 應用於高通量虛擬篩選領域,利用該模型確定與特定蛋白質相互作用的小分子結構。他們還希望透過額外的訓練資料不斷完善 GeoMol,以便它能夠更有效地預測具有許多柔性鍵的長分子的結構。
Relay Therapeutics 計算高階副總裁 Pat Walters 評價說:「構象分析是計算機輔助藥物設計中許多工的關鍵組成部分,也是推進藥物發現中機器學習方法的重要組成部分。」
論文連結:https://arxiv.org/abs/2106.07802
相關報道:https://phys.org/news/2021-12-deep-rapidly-3d-drug-like-molecules.html