sponsored links

可對藥物分子進行表徵的幾何深度學習

編輯 | 蘿蔔皮

幾何深度學習(GDL)基於包含和處理對稱資訊的神經網路架構。GDL 為依賴於具有不同對稱性和抽象級別的分子表示的分子建模應用程式帶來了希望。

蘇黎世聯邦理工學院的研究人員對分子 GDL 進行了結構化和統一概述,重點介紹了其在藥物發現、化學合成預測和量子化學中的應用。它包含對 GDL 原理的介紹,以及相關的分子表示,例如分子圖、網格、曲面和字串,以及它們各自的屬性。討論了分子科學中 GDL 當前面臨的挑戰,並嘗試預測未來的機會。

該綜述以「Geometric deep learning on molecular representations」為題,於 2021 年 12 月 15 日釋出在《Nature Machine Intelligence》。

可對藥物分子進行表徵的幾何深度學習

深度學習的最新進展,即基於神經網路的人工智慧(AI)的一個例項,已經在分子科學領域取得了開創性的應用,例如藥物發現、量子化學和結構生物學。深度學習的兩個特點使其在應用於分子時很有希望。

首先,深度學習方法可以處理「非結構化」資料表示,例如文字序列、語音訊號、影象和圖形。這種能力似乎對分子系統特別有用,化學家已經開發了分子表示,可以在不同的抽象級別捕獲分子特性。

其次,深度學習可以從輸入資料中進行特徵提取(或特徵學習);也就是說,從輸入表示中生成資料驅動的特徵。

深度學習的這兩個特徵補充了「經典」機器學習應用程式,例如定量結構-活性關係(QSAR),其中分子特徵(即「分子描述符」)使用基於規則的演算法進行先驗編碼。

多層神經網路從非結構化資料中學習並提取高階分子特徵的這種能力已經導致深度學習在分子科學中的大量應用。

可對藥物分子進行表徵的幾何深度學習

圖示:所選分子的示例性分子表示。(來源:論文)

幾何深度學習(GDL)是人工智慧的一個新興概念。GDL 是一個總稱,涵蓋了將神經網路推廣到歐幾里德和非歐幾里德域的新興技術,例如圖、流形、網格或字串表示。一般來說,GDL 包括結合幾何先驗的方法,即輸入訊號的結構空間和對稱特性的資訊,例如分子結構的表示。利用幾何先驗來提高模型的質量,例如其預測準確性。儘管 GDL 已越來越多地應用於分子建模,但其在該領域的全部潛力仍未開發。

本綜述的主要目的是(1)對 GDL 在分子系統中的突出應用提供結構化和統一的概述,(2)描述該領域的主要研究方向,以及(3)嘗試對 GDL 的潛在未來影響進行批判性預測。突出了三個應用領域,即藥物發現、量子化學和計算機輔助合成規劃(CASP)。

GDL 的原則

GDL 一詞是在 2017 年創造的。雖然 GDL 最初用於應用於非歐資料的方法,但它現在擴充套件到所有包含幾何先驗的深度學習方法。對稱性是 GDL 中的一個關鍵概念,因為它包含系統在操作(轉換)方面的屬性,例如歐幾里得群 E(3) 所涵蓋的屬性。分子的其他相關轉換包括尺度分離(例如,網格的粗粒度和細粒度)或排列(即,分子中原子的不同排序)。

對稱性通常根據不變性和等方差性進行重新定義,以表達任何數學函式相對於作用對稱群的變換 T(例如旋轉、平移、反射或置換)的行為。這裡,數學函式是應用於給定分子輸入 X 的神經網路 F。F(X ) 可以在其中對 T 進行等變、不變或非等變變換。

等方差和不變性的概念也可以用於參考從給定的分子表示 (X) 獲得的分子特徵,這取決於它們在對 X 應用變換時的行為。神經網路提取的分子特徵的對稱性取決於輸入分子表示和所用神經網路的對稱性。

許多相關的分子特性(例如,平衡能、原子電荷或物理化學特性,如滲透性、親油性或溶解性)對於某些對稱操作是不變的。因此,對於化學應用,設計在預定義對稱群作用下等變變換的神經網路是可取的。

如果目標特性在分子對稱變換後發生變化(例如,在分子反轉時改變的手性特性或在分子旋轉時改變的向量特性),則會出現例外情況。在這種情況下,等變神經網路的歸納偏差(學習偏差)將不允許對對稱變換的分子進行區分。

雖然神經網路可以被視為通用函式逼近器,但結合先驗知識(如合理的幾何資訊)已經發展成為神經網路建模的核心設計原則。透過結合幾何先驗,GDL 可以提高模型的質量,並繞過與將資料強制轉換為歐幾里得幾何(例如,透過特徵工程)相關的幾個瓶頸。此外,GDL 提供了新的建模機會,例如低資料機制中的資料增強。

可對藥物分子進行表徵的幾何深度學習

圖示:分子圖的深度學習。(來源:論文)

分子 GDL

GDL 在分子系統中的應用具有挑戰性,部分原因是有多種有效的方式來表示相同的分子實體。分子表示可以根據它們不同的抽象級別以及它們捕獲的物理化學和幾何方面進行分類。重要的是,所有這些表示都是同一現實的模型,因此適用於某些目的,而不適用於其他目的。GDL 提供了對同一分子的不同表示進行試驗的機會,並利用其內在的幾何特徵來提高模型的質量。此外,由於其特徵提取(特徵學習)能力,GDL 一再證明在為手頭的任務提供相關分子特性的見解方面很有用。

論文中,作者描述了最流行的分子 GDL 方法及其在化學中的應用,根據用於深度學習的各自分子表示進行分組:分子圖和點雲、網格、表面和字串符號。

可對藥物分子進行表徵的幾何深度學習

圖示:化學語言建模。(來源:論文)

總結

化學中的 GDL 使研究人員能夠利用非結構化分子表示的對稱性,從而提高用於分子結構生成和性質預測的計算模型的靈活性和多功能性。

這些方法補充了基於分子描述符或其他人工工程特徵的化學資訊學。對於通常以需要工程規則為特徵的建模任務(例如,從頭設計的分子構建和 CASP 的反應位點規範),GDL 擴充套件了現有的方法庫。在已發表的 GDL 應用程式中,每個分子表示都顯示出特徵性的優勢和劣勢。

SMILES 等分子串已被證明特別適合生成式深度學習任務,例如從頭設計和 CASP。這一成功可能歸功於這種化學語言的直接語法,它促進了下一個標記和序列到序列的預測。對於分子特性預測,SMILES 字串可能由於其非單一性而受到限制。

分子圖已被證明可用於屬性預測,部分原因是它們的人類可解釋性以及易於包含所需的邊緣和節點特徵。3D資訊的結合(例如,E(3)- 不變或 SE(3)/E(3)- 等變資訊傳遞)有助於量子化學相關建模,而在藥物發現應用中,這種方法往往無法明顯平衡模型增加的複雜性。E(3) 等變 GNN 也已應用於構象感知從頭設計,但正在等待實驗驗證。

分子網格長期以來一直是大型靜態分子系統(例如蛋白質)學習任務的標準 3D 表示。它們以使用者定義的解析度(體素密度)和輸入網格的歐幾里得結構捕獲資訊的能力使 3D CNN 高效並適用於蛋白質和其他大分子。然而,最近在 Transformer 網路、GNN 和測地線 CNN 方面取得的進展已經使模型達到了最先進的效能。

最後,分子表面是目前 GDL 的前沿。我們期待在不久的將來 GDL 在分子表面上有許多有趣的應用。

展望

為了進一步推動 GDL 在化學中的應用和影響,需要對演算法複雜性、效能和模型可解釋性之間的最佳權衡進行評估。這些方面對於調和「兩個 QSAR」以及連線計算機科學和化學界至關重要。作者鼓勵 GDL 從業者儘可能在他們的模型中包含可解釋性的方面(例如,透過可解釋的 AI),並與領域專家進行透明的交流。領域專家的反饋對於開發新的「化學感知」架構和實現具體的前瞻性應用也至關重要。

GDL 在分子特徵提取方面的潛力尚未得到充分探索。幾項研究表明,與經典分子描述符相比,學習表徵具有優勢,但在其他情況下,GDL 未能兌現其在卓越學習特徵方面的承諾。為下游應用程式推導有用的資料驅動特徵可能具有挑戰性,因為它需要演算法和各自應用領域的專業知識,有利於跨學科合作。雖然有評估機器學習模型用於屬性預測和分子生成的基準,但目前還沒有這樣的框架來系統評估 AI 學習的資料驅動特徵的有用性。這樣的基準和系統研究,包括前瞻性應用,對於獲得對深度表徵學習的直接評估是必不可少的。此外,研究學習特徵與輸入分子的物理化學和生物學特性之間的關係將增強 GDL 的可解釋性和適用性,以模擬結構 - 功能關係。

與常規執行適用性域(即模型預測被認為可靠的化學空間區域)評估的傳統 QSAR 方法相比,當代 GDL 研究缺乏這樣的評估。這種明顯的差距可能構成在前瞻性研究中更廣泛使用 GDL 方法的限制因素之一。

對模型的適用範圍進行徹底評估將有助於降低預測不可靠的風險,例如,對於具有與訓練資料不同的作用機制、官能團或物理化學特性的分子。建議開發用於適用性領域評估的「幾何感知」方法。

另一個機會是利用較少探索的 GDL 分子表示。例如,分子的電子結構在 CASP、分子性質預測和大分子相互作用(例如蛋白質-蛋白質相互作用)預測等任務中具有潛力。儘管準確的統計和量子力學模擬在計算上是昂貴的,但在大型量子資料集合上訓練的現代量子機器學習模型,允許以高精度更快地訪問量子化學特性。這方面可以使廣泛的分子資料集的量子和電子特徵化用作感興趣任務的輸入分子表示。

深度學習可以應用於多種生物和化學表示。相應的深度神經網路模型有可能增強人類的創造力,為以前不可行的科學研究鋪平道路。

然而,研究只是探索了冰山一角。將深度學習融入分子科學的最重要催化劑可能是學術機構和其他組織促進跨學科教育、協作和交流。只有對化學和計算機科學有深刻的理解,以及開箱即用的思維和協作創造力,才有可能摘到「懸而未決的果實」。在這樣的環境中,我們期望分子 GDL 能夠增加學術界對分子系統和生物現象的理解。

論文連結:https://www.nature.com/articles/s42256-021-00418-8

分類: 旅遊
時間: 2021-12-27

相關文章

海南旅遊海南主要景點示意圖

海南旅遊海南主要景點示意圖
海南旅遊 海南主要景點示意圖

海南自貿港旅遊業佈局,引領海南旅遊開發企業成立

海南自貿港旅遊業佈局,引領海南旅遊開發企業成立
引領海南旅遊開發-有限公司 引領海南旅遊開發,以引領海南為字號設立的企業,打造一線自貿港旅遊業,設立於2020年,註冊資金為1000萬,主要涉及範圍::露營地服務:網路技術服務:人工智慧公共服務平臺技 ...

旅遊產品陸續推出,海南做好旺季迎客準備
據海南日報客戶端丨記者趙優 實習生陳夢馨 中秋佳節已至,國慶假期將到,樂遊海南享不停.記者瞭解到,7月至9月期間,為重振海南旅遊行業新動能,培育研學旅遊市場,海南省旅文廳在旅遊市場回暖中強勢推出多個旅 ...

速看!5分鐘看懂海南文旅產業發展

速看!5分鐘看懂海南文旅產業發展
談到海南的發展,一個是南海最重要的資源是什麼,那就是文旅資源,對海南來說,最重要的產業是什麼,那就是文旅產業.所以談到海南的發展,是離不開文旅兩個字的. 1.海南的文旅產業發展在國內的獨特地位 現在有 ...

海南,海南人的快樂你想象不到

海南,海南人的快樂你想象不到
大家好,是小丁 在海南生活是一種什麼體驗? 可能是喝不完的椰汁椰奶, 可能是吃不完的海南粉海南雞, 可能是每天都能在水果攤上, 挑一袋外地人沒見過的熱帶水果回家, 可能是穿一雙塑膠拖鞋就能過冬天. 關 ...

國慶旅遊四川7天入賬509億

國慶旅遊四川7天入賬509億
2021年國慶旅遊城市大比拼成績單已出爐,你的家鄉吸金多少?先來看看成績單: 四川厲害了!7天入賬509億! 經文化和旅遊部資料測算,10月1日--10月7日,全國國內旅遊人次5.15億,四川在十一黃 ...

中免集團參加2021穆迪戴維特旅遊零售線上博覽會

中免集團參加2021穆迪戴維特旅遊零售線上博覽會
10月11日,2021穆迪戴維特旅遊零售線上博覽會(以下簡稱"博覽會")正式開幕,為期5天的博覽會以"引領.激勵.革新"為主題,吸引了全球近百家世界頂級消費品品 ...

三亞鳳凰機場將重回國資懷抱

三亞鳳凰機場將重回國資懷抱
2021年9月14日,海航旗下上市公司ST基礎釋出公告: 海航集團清算組已經確定海航集團機場板塊戰略投資者為海南省發展控股有限公司(以下簡稱海發控),若投資完成,戰略投資者可能成為公司控股股東. 也就 ...

高景亞太:「對話」當前房地產市場問題解析

高景亞太:「對話」當前房地產市場問題解析
近年來,房地產仍然是中國經濟發展的重要支撐,保證房地產市場的平穩是當前階段經濟發展的重要訴求. 為此,高景亞太特邀行業內知名專家郭老師進行對話,對當前房地產市場表達了自己的觀點和看法. 1.我國房地產 ...

免稅政策發力 釋放消費潛力
"您買免稅商品了嗎?"到過海南的人,對這句話不會陌生. "十四五"規劃綱要提出,完善市內免稅店政策,規劃建設一批中國特色市內免稅店.去年7月,海南實施" ...

網友評選出“最難吃的水果”,你吃過幾種?

網友評選出“最難吃的水果”,你吃過幾種?
所有的水果真的都好吃嗎?都是香甜可口水潤多汁的嗎?那可不見得.說起來,你們有沒有不愛吃的水果?今天果哥就整理了網友們評選出的難吃的水果,看看有哪些水果上榜了! 鷹嘴芒 芒果不是都是帶著芒果香,口感還非 ...

盧庚戌再談李健的“背叛”:他私聯臺灣唱片公司,對我傷害非常大

盧庚戌再談李健的“背叛”:他私聯臺灣唱片公司,對我傷害非常大
水木年華,是國內非常有名的一個音樂組合,他們組合中前後五位成員,均為來自清華大學的高材生,他們也留下過不少膾炙人口的作品. 2001年4月,盧庚戌和李健創立水木年華,到今年為止,整整20週年了.這20 ...

國慶去哪玩?你們心心念唸的小眾海島攻略來了,請查收

國慶去哪玩?你們心心念唸的小眾海島攻略來了,請查收
四捨五入,國慶節假期近在眼前了,中秋沒有出門的你,國慶節還要繼續葛優躺?別了吧,還是出門看看祖國的大好河山,才不負此生.國慶節出遊,最怕人擠人,今天給大家推薦海南顏值高人又少的小眾海島,這才是正確的度 ...

中國都修不了的橋?計劃10年的瓊州跨海通道,為何遲遲沒有動工?

中國都修不了的橋?計劃10年的瓊州跨海通道,為何遲遲沒有動工?
你敢相信嗎? 在世界上,居然有中國這個"基建狂魔"都修不了的大橋! 這座橋究竟是什麼來頭?中國計劃了,10年,為何遲遲無法動工?究竟難在哪裡? 中國都修不了的橋 去年12月26日, ...

APP真的在竊聽我們的生活嗎?
你有沒有過類似的經歷? 剛和朋友聊完想去海南,結果隔天就在app上看到一大堆關於海南旅遊的推送? 剛準備買個東西,結果首頁上全是關於它的推薦廣告...... 現在的演算法模型都能已經能實現如此精準的推 ...

「小豬民宿系列房東故事」專訪陵水民宿主王志成:我想把疍家故事講給你聽

「小豬民宿系列房東故事」專訪陵水民宿主王志成:我想把疍家故事講給你聽
引:民宿,是我國實施鄉村振興戰略和美麗中國建設的重要舉措,是實現精準扶貧的重要抓手,也是促進城鄉協調發展.靈活就業.文旅融合的有機載體.近年來,隨著國家政策和市場利好雙重驅動,我國民宿產業也在蓬勃地發 ...

走進亞洲最大免稅城
走進亞洲最大免稅城 海口市國際免稅城專案是海南自貿港建設地標性工程打造集免稅.辦公.公寓休閒.文旅為一體的大型國際免稅商業綜合體專案規劃總建築面積92.6萬平方米建成後將成為亞洲最大免稅城離島免稅政策 ...

主線總里程約999公里!海南環島旅遊公路專案力爭明年底完工

主線總里程約999公里!海南環島旅遊公路專案力爭明年底完工
17日下午,2021世界新能源汽車大會海南專場活動上釋出了海南環島旅遊公路專案,該專案主線總里程約999公里,力爭於2022年底完工. 海南環島旅遊公路及驛站是充分展示海南濱海優勢資源和自然文化特色的 ...

旅遊週刊 | 科普“瓊遊”看海南:太空“熱度”上升,海洋“賣點”十足

旅遊週刊 | 科普“瓊遊”看海南:太空“熱度”上升,海洋“賣點”十足
■ 海南日報記者 趙優 實習生 陳夢馨 9月17日,神舟十二號載人飛船搭載3名航天員,從中國空間站天和核心艙榮耀歸來,穩穩降落在酒泉東風著陸場:19日,"南海鯨靈--館藏鯨類標本展" ...

國慶長假海南接待遊客370.22萬人次 實現旅遊收入59億元
來源:人民網-海南頻道 人民網海口10月8日電 (李學山)海南省旅遊和文化廣電體育廳10月8日釋出的資料顯示,2021年國慶假日期間,海南全省累計接待遊客370.22萬人次,實現旅遊總收入58.82億 ...