導語
近年來, 由於計算能力、大資料和演算法的不斷進步, 人工智慧(Artificial intelligence, AI)重新興起, 已成為諸多研究領域變革性發展背後的重要推動力。隨著化學資訊學的發展, 人工智慧在化學領域展現出巨大的發展潛力, 也為藥物設計、性質預測以及化學合成的發展帶來了新的機遇。為幫助藥物化學家瞭解這一新興領域, 本文將從人工智慧在化合物性質預測、分子從頭設計、化學反應預測、合成分析等方面的應用做簡單介紹。
1引言
機器學習(Machine learning, ML)是人工智慧一個重要的研究領域。機器和人類的學習模式有相通之處,人類的大腦透過閱讀、觀察、探索和學習周圍世界的規則來獲得各種技能,如語言、決策、遊戲等。機器則透過海量資料和程式的自我學習,獲得了類似人類的語言、決策、遊戲等各種能力。機器獲得學習能力的前提是待解決問題存在基準真值(Ground truth),透過建立一個假設空間,程式學習資料中的通用模式,建立模型並嘗試預測基準真值。預測值與基準真值越接近,模型越精確。程式透過這樣一個不斷學習與最佳化的過程,試圖獲得人類大腦具有的學習和解決問題的能力。
圖1 人類與機器的學習模式
2人工智慧預測藥物性質
人工智慧很早就已應用於化合物性質預測。近年來,深度神經網路在該領域的應用展現出了巨大的優勢,並頻繁出現在各種化合物性質與活性預測挑戰賽中。如羅三中基於機器學習方法建立了pKa的全域性預測模型。他從iBonD資料庫中收集了39種溶劑的pKa實驗資料,清洗和整理後得到了包含15338種化合物的資料集。在描述符方面,他們開發了將分子指紋和物理有機引數相結合的SPOC描述符。在建模方面, 他們選擇5重交叉驗證方法對常用機器學習方法進行了篩選, 發現運用神經網路或XGBoost演算法訓練的全域性模型具有最佳預測表現,MAE 僅為0.87個pK單位。並可以實現多溶劑體系pKa的快速精準預測, 該研究還表明, 全域性模型的預測結果優於所有的單一溶劑模型,對不同溶劑中pKa預測值的相關度分析也驗證了遷移學習的特徵。此外,對樣本外藥物分子,二甲基亞碸中氫鍵催化劑以及乙腈中氨基催化劑pKa預測進一步驗證了該模型的穩健性。
圖2 建立 iBonD pKa 模型的工作流程
3人工智慧從頭設計藥物分子
分子從頭設計(De novo design)利用演算法虛擬設計和評估一系列符合特定性質的分子, 可用於藥物、材料等功能分子的發現。Gómez-Bombarelli發展了使用變分自編碼器(Variational autoencoder, VAE)生成分子結構的方法。他們從ZINC資料庫獲取分子並以SMILES格式輸入,編碼器將分子的這種離散表示轉換為隱含空間的連續向量,解碼器再將這些連續向量還原成分子SMILES。此方法的隱含空間中的分子表示是連續的,因此可以透過隨機解碼、擾亂或插入等方法產生新的分子,並透過一些最佳化演算法產生特定性質的分子。
圖3 用於分子從頭設計的自編碼器
近年來, 使用RNN模型進行分子從頭設計受到了越來越多的關注。2017年, Segler等報道了使用RNN生成新型分子結構。透過使用大量SMILES訓練RNN網路並學習SMILES的機率分佈,該網路可以高效生成訓練集之外的各種分子結構。Segler等嘗試預先在一個通用集上訓練神經網路模型, 隨後透過遷移學習將預訓練的模型應用於特定資料集, 以提高小資料集的預測效能。透過這一策略, 該模型能生成14%從未出現過的抗金色葡萄球菌和28%新型的抗瘧疾的活性分子。
4人工智慧預測化學反應
Baldi使用自定義的分子軌道概念和物理化學描述符作為輸入,透過對反應資料進行訓練,最終能以89.05%的精度預測極性反應。如果綜合考慮前4種可能,預測精度能進一步提升到99.86%。該策略考慮了具體的反應條件,因而能得出更加真實可信的結果。同時,該策略在一定程度上從機理層面闡釋了化學反應中電子轉移的基元過程,並能識別和預測多步反應過程。隨後,Baldi將這一方法進一步推廣到自由基反應和周環反應中。
圖5 Baldi等的化學反應預測框架
Jensen等使用分子圖表示反應物分子。分子圖的節點和邊分別描述原子和化學鍵,透過圖卷積神經網路計算了每個原子對之間化學鍵變化的可能性,可能性大的候選產物被組合列舉出來並透過另一個圖卷積網路重新預測出主要產物的機率分佈。他們對來自專利文獻中數十萬個反應進行訓練, 最終準確預測了85%以上的主要產物。
圖6 Jensen等的化學反應預測框架
5人工智慧預測和最佳化藥物合成反應條件
Jensen等發展了一種分層設計的神經網路模型來預測化學環境(催化劑、溶劑、試劑)和反應溫度。該模型對約1000萬個來自Reaxys的反應進行了訓練, 在訓練集以外的100萬個反應中進行了測試,以69.6%的準確率預測了排名前十的反應試劑, 以60%~70%的準確率預測了反應溫度(±20℃)。未經最佳化的化學反應在反應時間、試劑方面經常面臨低效和成本的問題. 最佳化反應的一種常用方法是一次改變一個實驗條件,同時固定所有其他條件,該方法常會錯過最佳條件; 另一種方法是透過組合化學篩選反應條件的所有組合,雖然這種方法有更大可能找到全域性最優條件,但是費時費力。因此, 透過機器學習方法構建有效的反應條件最佳化體系,對學術研究和工業生產都具有重要意義。溶劑選擇作為一個獨立的問題在早期得到了廣泛的研究。
圖7 分層設計的神經網路模型預測反應條件
6小結
總的來說,人工智慧(特別是機器學習)已在藥物研究中獲得了初步的應用, 可以進行分子從頭設計、提出切合實際的合成路線、預測給定反應的產物和化合物性質,並應用於自動化平臺中。不斷進步的人工智慧正不斷地致力於減少製藥公司面臨的挑戰,影響藥物開發過程以及產品的整個生命週期。未來,如何開發開放的大型資料庫、獲取高質量和標準化的資料、更有效的表示分子和反應、運用和開發適合研究藥物研發領域的機器學習演算法以及建立有效、通用的演算法評價基準, 將是未來機器學習在藥物研發領域應用的重要議題。
參考文獻
[1] Tenenbaum JB, Kemp C, Griffiths, TL, et al. How to grow a mind: statistics, structure and abstraction. Science[J]. 2011, 331(6022), 1279-1285.
[2] Yang Q, Li Y, Yang JD, et al. Holistic Prediction of the pKa in Diverse Solvents Based on a Machine-Learning Approach[J]. Angewandte Chemie, International Edition , 2020, 59(43), 19282-19291.
[3] Gómez-Bombarelli R,Wei JN,Duvenaud D, et al. Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules[J]. ACS Central Science 2018, 4(2), 268-276.
[4] Gao H, Struble TJ, Coley CW, et al. Using Machine Learning To Predict Suitable Conditions for Organic Reactions[J]. ACS Central Science, 2018, 4(11), 1465-1476.
[5] Segler MHS, Kogej T, Tyrchan C, et al. Generating Focused Molecule Libraries for Drug Discovery with Recurrent Neural Networks[J]. ACS Central Science, 2018, 4(1), 120-131.
[6] Kayala MA, Azencott CA, Chen JH, et al. Learning to Predict Chemical Reactions[J]. Journal of Chemical Information and Modeling, 2011, 51(9), 2209-2222.
宣告
本文系AIDD Pro接收的外部投稿,文中所述觀點僅代表作者本人觀點,不代表AIDD Pro平臺,如您發現釋出內容有任何版權侵擾或者其他資訊的錯誤解讀,請及時聯絡AIDD Pro(請新增微訊號plgrace)進行刪改處理。