sponsored links

人工智慧在藥物設計、性質預測以及合成中的應用進展

導語

近年來, 由於計算能力、大資料和演算法的不斷進步, 人工智慧(Artificial intelligence, AI)重新興起, 已成為諸多研究領域變革性發展背後的重要推動力。隨著化學資訊學的發展, 人工智慧在化學領域展現出巨大的發展潛力, 也為藥物設計、性質預測以及化學合成的發展帶來了新的機遇。為幫助藥物化學家瞭解這一新興領域, 本文將從人工智慧在化合物性質預測、分子從頭設計、化學反應預測、合成分析等方面的應用做簡單介紹。

1引言

機器學習(Machine learning, ML)是人工智慧一個重要的研究領域。機器和人類的學習模式有相通之處,人類的大腦透過閱讀、觀察、探索和學習周圍世界的規則來獲得各種技能,如語言、決策、遊戲等。機器則透過海量資料和程式的自我學習,獲得了類似人類的語言、決策、遊戲等各種能力。機器獲得學習能力的前提是待解決問題存在基準真值(Ground truth),透過建立一個假設空間,程式學習資料中的通用模式,建立模型並嘗試預測基準真值。預測值與基準真值越接近,模型越精確。程式透過這樣一個不斷學習與最佳化的過程,試圖獲得人類大腦具有的學習和解決問題的能力。



圖1 人類與機器的學習模式

2人工智慧預測藥物性質

人工智慧很早就已應用於化合物性質預測。近年來,深度神經網路在該領域的應用展現出了巨大的優勢,並頻繁出現在各種化合物性質與活性預測挑戰賽中。如羅三中基於機器學習方法建立了pKa的全域性預測模型。他從iBonD資料庫中收集了39種溶劑的pKa實驗資料,清洗和整理後得到了包含15338種化合物的資料集。在描述符方面,他們開發了將分子指紋和物理有機引數相結合的SPOC描述符。在建模方面, 他們選擇5重交叉驗證方法對常用機器學習方法進行了篩選, 發現運用神經網路或XGBoost演算法訓練的全域性模型具有最佳預測表現,MAE 僅為0.87個pK單位。並可以實現多溶劑體系pKa的快速精準預測, 該研究還表明, 全域性模型的預測結果優於所有的單一溶劑模型,對不同溶劑中pKa預測值的相關度分析也驗證了遷移學習的特徵。此外,對樣本外藥物分子,二甲基亞碸中氫鍵催化劑以及乙腈中氨基催化劑pKa預測進一步驗證了該模型的穩健性。



圖2 建立 iBonD pKa 模型的工作流程

3人工智慧從頭設計藥物分子

分子從頭設計(De novo design)利用演算法虛擬設計和評估一系列符合特定性質的分子, 可用於藥物、材料等功能分子的發現。Gómez-Bombarelli發展了使用變分自編碼器(Variational autoencoder, VAE)生成分子結構的方法。他們從ZINC資料庫獲取分子並以SMILES格式輸入,編碼器將分子的這種離散表示轉換為隱含空間的連續向量,解碼器再將這些連續向量還原成分子SMILES。此方法的隱含空間中的分子表示是連續的,因此可以透過隨機解碼、擾亂或插入等方法產生新的分子,並透過一些最佳化演算法產生特定性質的分子。



圖3 用於分子從頭設計的自編碼器

近年來, 使用RNN模型進行分子從頭設計受到了越來越多的關注。2017年, Segler等報道了使用RNN生成新型分子結構。透過使用大量SMILES訓練RNN網路並學習SMILES的機率分佈,該網路可以高效生成訓練集之外的各種分子結構。Segler等嘗試預先在一個通用集上訓練神經網路模型, 隨後透過遷移學習將預訓練的模型應用於特定資料集, 以提高小資料集的預測效能。透過這一策略, 該模型能生成14%從未出現過的抗金色葡萄球菌和28%新型的抗瘧疾的活性分子。

人工智慧在藥物設計、性質預測以及合成中的應用進展


圖4 用於分子從頭設計的RNN 模型

4人工智慧預測化學反應

Baldi使用自定義的分子軌道概念和物理化學描述符作為輸入,透過對反應資料進行訓練,最終能以89.05%的精度預測極性反應。如果綜合考慮前4種可能,預測精度能進一步提升到99.86%。該策略考慮了具體的反應條件,因而能得出更加真實可信的結果。同時,該策略在一定程度上從機理層面闡釋了化學反應中電子轉移的基元過程,並能識別和預測多步反應過程。隨後,Baldi將這一方法進一步推廣到自由基反應和周環反應中。



圖5 Baldi等的化學反應預測框架

Jensen等使用分子圖表示反應物分子。分子圖的節點和邊分別描述原子和化學鍵,透過圖卷積神經網路計算了每個原子對之間化學鍵變化的可能性,可能性大的候選產物被組合列舉出來並透過另一個圖卷積網路重新預測出主要產物的機率分佈。他們對來自專利文獻中數十萬個反應進行訓練, 最終準確預測了85%以上的主要產物。



圖6 Jensen等的化學反應預測框架

5人工智慧預測和最佳化藥物合成反應條件

Jensen等發展了一種分層設計的神經網路模型來預測化學環境(催化劑、溶劑、試劑)和反應溫度。該模型對約1000萬個來自Reaxys的反應進行了訓練, 在訓練集以外的100萬個反應中進行了測試,以69.6%的準確率預測了排名前十的反應試劑, 以60%~70%的準確率預測了反應溫度(±20℃)。未經最佳化的化學反應在反應時間、試劑方面經常面臨低效和成本的問題. 最佳化反應的一種常用方法是一次改變一個實驗條件,同時固定所有其他條件,該方法常會錯過最佳條件; 另一種方法是透過組合化學篩選反應條件的所有組合,雖然這種方法有更大可能找到全域性最優條件,但是費時費力。因此, 透過機器學習方法構建有效的反應條件最佳化體系,對學術研究和工業生產都具有重要意義。溶劑選擇作為一個獨立的問題在早期得到了廣泛的研究。



圖7 分層設計的神經網路模型預測反應條件

6小結

總的來說,人工智慧(特別是機器學習)已在藥物研究中獲得了初步的應用, 可以進行分子從頭設計、提出切合實際的合成路線、預測給定反應的產物和化合物性質,並應用於自動化平臺中。不斷進步的人工智慧正不斷地致力於減少製藥公司面臨的挑戰,影響藥物開發過程以及產品的整個生命週期。未來,如何開發開放的大型資料庫、獲取高質量和標準化的資料、更有效的表示分子和反應、運用和開發適合研究藥物研發領域的機器學習演算法以及建立有效、通用的演算法評價基準, 將是未來機器學習在藥物研發領域應用的重要議題。

參考文獻

[1] Tenenbaum JB, Kemp C, Griffiths, TL, et al. How to grow a mind: statistics, structure and abstraction. Science[J]. 2011, 331(6022), 1279-1285.

[2] Yang Q, Li Y, Yang JD, et al. Holistic Prediction of the pKa in Diverse Solvents Based on a Machine-Learning Approach[J]. Angewandte Chemie, International Edition , 2020, 59(43), 19282-19291.

[3] Gómez-Bombarelli R,Wei JN,Duvenaud D, et al. Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules[J]. ACS Central Science 2018, 4(2), 268-276.

[4] Gao H, Struble TJ, Coley CW, et al. Using Machine Learning To Predict Suitable Conditions for Organic Reactions[J]. ACS Central Science, 2018, 4(11), 1465-1476.

[5] Segler MHS, Kogej T, Tyrchan C, et al. Generating Focused Molecule Libraries for Drug Discovery with Recurrent Neural Networks[J]. ACS Central Science, 2018, 4(1), 120-131.

[6] Kayala MA, Azencott CA, Chen JH, et al. Learning to Predict Chemical Reactions[J]. Journal of Chemical Information and Modeling, 2011, 51(9), 2209-2222.

宣告

本文系AIDD Pro接收的外部投稿,文中所述觀點僅代表作者本人觀點,不代表AIDD Pro平臺,如您發現釋出內容有任何版權侵擾或者其他資訊的錯誤解讀,請及時聯絡AIDD Pro(請新增微訊號plgrace)進行刪改處理。

分類: 文化
時間: 2021-12-21

相關文章

中華文明上下五千年?山西來舉證!陶寺遺址瞭解一下

中華文明上下五千年?山西來舉證!陶寺遺址瞭解一下
我們說中華文明上下五千年.央視節目<國家寶藏>節目開始,001號講解員張國立老師總是會說:"我們是一檔年輕的節目,究竟有多年輕?"臺下觀眾就會齊說:"上下五千 ...

中華文明五千年

中華文明五千年
開天闢地的神話 01 我們偉大祖國有非常悠久的歷史.按照古代的傳統說法,從傳說中的黃帝到現在,大約有四千多年的歷史,通常叫做"上下五千年". 在上下五千年的歷史裡,有許多動人的有意 ...

探索中華上下五千年—藥王孫思邈
藥王孫思邈 公元652年,在唐高宗永徽三年,享有盛譽的醫學鉅著<千金藥方>完成,這部 30 卷的高分為兩百二十三類.詩五千三百餘首.按分工.兒科.五官.口腔.傳染病.雜病.外科.救等敘述了 ...

西方國家是如何看待中國五千年曆史的?他們只提到了這六個人

西方國家是如何看待中國五千年曆史的?他們只提到了這六個人
在漫長的歷史長河中,中西方文明差異其實一直都存在.我泱泱大國五千年文明,不僅是全世界唯一一個延續至今的四大文明古國之一,而且也是一個在歷史長河中受關注度最多.影響力最廣的. 從夏商到三國,從三國到南北 ...

五年級語文上古詩詞鑑賞專項練習
五年級語文上古詩詞鑑賞專項練習 一. 課內閱讀,回答問題. 泊船瓜洲 京口瓜洲一水間,鐘山只隔數重山. 春風又綠江南岸,明月何時照我還? (1) 詩中"綠"字用得好,說說好在哪裡. ...

四天五千年
筆是很具象形的一個字,上竹下毛.形神已備.但其實它只能算是簡體得比較成功的一個字. 筆在現代生活中好象越來越被弱化了,至少對我而言,敲擊鍵盤的時間已經遠遠超過了握筆的時間.只是每遇到要寫一篇文章時,那 ...

學費兩萬的三本和學費五千的專科,哪個更值得選,班主任給出答案

學費兩萬的三本和學費五千的專科,哪個更值得選,班主任給出答案
導語:隨著社會的發展和經濟的進步,國家對教育的重視程度也越來越高,雖然學生能擁有平的機會接受高等教育,但是都避免不了在應試教育的前提下,根據高考成績分出三六九等. 每個學生都有理想的院校,誰不想考上清 ...

五千億倉儲,七千萬炒作!揭秘普洱茶界最有潛力的頂級賽道

五千億倉儲,七千萬炒作!揭秘普洱茶界最有潛力的頂級賽道
2020年1月18日,東莞萬江爆出億元炒茶案,當事雙方對簿公堂,大益炒作圈子被公之於眾,涉案金額高達2億元人民幣! 2020年9月28日,雙陳普洱養普莊園開園,該企業背後的普洱茶專業倉儲行業,總產值可 ...

比亞迪唐用車調查:油費比同級省五千,因為用92號油?

比亞迪唐用車調查:油費比同級省五千,因為用92號油?
比亞迪唐,作為"唐"系列中的燃油版車型,上市時間比唐DM插混車型差不多晚了三年,不過憑藉"龍顏"設計帶來的震撼,以及當時國內中型SUV車型發展剛剛起步,唐一上市 ...

華夏五千年曆史,出現過數不清的國寶級文物,這10件至今下落不明

華夏五千年曆史,出現過數不清的國寶級文物,這10件至今下落不明
華夏五千年曆史上,出現過數不清的國寶級文物,有些文物一直儲存了下來,收藏於博物館中,比如後母戊鼎.清明上河圖.太陽神鳥金飾.越王勾踐劍.曾侯乙編鐘,有些文物則下落不明,一直不知去向. 一.華夏九鼎 九 ...

從一千到五千 這些大屏長續航的5G手機你值得擁有

從一千到五千 這些大屏長續航的5G手機你值得擁有
功能機時代,大家還沒有電量焦慮這樣的問題,因為手機充一次電少說可以用三天,像一些所謂標稱一萬毫安時的山寨神機甚至可以待機一週.只不過主要是因為當時大家對手機的依賴度沒那麼高,也沒有螢幕.相機.WiFi ...

1969年美國花2億美元竊聽蘇聯絕密電纜,卻被叛徒以五千美元出賣

1969年美國花2億美元竊聽蘇聯絕密電纜,卻被叛徒以五千美元出賣
上世紀60年代,蘇聯曾經在海底修建了一條軍用通訊電纜,這條絕密的海底電纜保障了莫斯科和蘇聯遠東軍事基地的聯絡,每天都有大量的軍事機密資訊,透過這條海底電纜傳輸. 令所有人都沒有想到的是,不知道是過於自 ...

明朝最奢華的皇室墓地,藏有五千多件珠寶,墓門敞開,卻從未被盜
今天曆史君要給大家介紹一座明朝的親王墓,這座墓墓門敞開,而且墓址明確,但是幾百年的時間中,卻沒有一個盜墓賊能成功進入墓穴,甚至盜墓賊用上了炸藥,但也只能是賠了夫人又折兵. 更為重要的是,這座墓中藏有五 ...

上甘嶺戰役血戰43天,美軍傷亡兩萬五千多人,從此跌落神壇

上甘嶺戰役血戰43天,美軍傷亡兩萬五千多人,從此跌落神壇
崇尚科學真理,解讀世界奇事!歡迎大家收看本期內容,以下便是本期內容的詳細介紹,如果對文章感興趣的話希望可以幫忙多多點贊.評論和關注,在座各位的點贊評論便是對小編最大的支援! 朝鮮戰爭爆發 在我們的新中 ...

1986年“德堡輪”特大海難,五千噸巨輪沉沒,中國船員僅兩人生還

1986年“德堡輪”特大海難,五千噸巨輪沉沒,中國船員僅兩人生還
1986年,中國委託羅馬尼亞嶄新出廠的"德堡輪"號初次出航便因質量問題屢遭險情,船長及幾十名船員奮力挽救,仍無法阻止這艘五千噸巨輪沉沒於印度洋中,最終中國派出的船員僅有兩人生還. ...

十分鐘帶你瞭解中國簡史,從原始社會到民國成立中華上下五千年

十分鐘帶你瞭解中國簡史,從原始社會到民國成立中華上下五千年
排版 / 芷燁文史 文章字數 / 3300 閱讀時長 / 12分鐘 我國原始社會始於人從動物界分離,止於階級和國家的形成 . 原始社會時期是人類發展的"幼兒"期,從公元170萬年前 ...

紅軍不怕遠征難——劉伯承元帥回憶偉大的兩萬五千里長徵
今天是中央紅軍長征出發的87週年紀念日.今天就讓我們一起來重溫劉伯承元帥寫的回憶錄,一起回到那個艱苦卓絕的光輝歲月. 從一九三四年十月十日開始從江西瑞金出發,到一九三六年十月到達陝北的整整兩年中,中國 ...

兩萬五千里長徵,紅軍的錢和糧草是怎麼解決的?

兩萬五千里長徵,紅軍的錢和糧草是怎麼解決的?
1934年10月,第五次反"圍剿"失敗後,中央紅軍被迫實行戰略性轉移,進行長征 長征是人類歷史上的偉大奇蹟,中央紅軍共經過14個省,翻越18座大山,跨過24條大河,走過荒草地,翻過 ...

五千年之偉大匡山

五千年之偉大匡山
濟南匡山,是一座偉大的傳統山巒,列華夏齊煙九點之一. 匡山怪石 匡山奇景 隨著一條蜿蜒的小路,逐漸上升,幾分鐘,很快,就能到達濟南匡山頂峰.山不高,但很古老,散發著靈秀之氣.春天,迎春花開在山路旁,古 ...

國慶值得入手的三款千元機,都擁有五千電池,有一款搭載驍龍870

國慶值得入手的三款千元機,都擁有五千電池,有一款搭載驍龍870
馬上就是國慶長假了,每年這個時候都是手機銷售的黃金期,一方面很多廠商下半年的新機基本都發布了,比如目前蘋果的iPhone13系列新機就十分火爆,一方面上半年很多手機已經迎來降價了,驍龍888Plus新 ...