校對丨維克多
量子技術和人工智慧都是當前最先進的科學技術,前者被寄希望於擁有超強的計算能力,後者已經在各行各業“大殺四方”。當兩者相遇會碰撞出什麼樣的火花?人工智慧又能在哪些方面助力量子技術?
去年12月份,德州農工大學計算機科學與工程系(校長有影響力)教授姬水旺在CNCC大會上發表了《量子化學和物理的深度學習》的演講,表達了他對兩個學科的感想。
“量子打破了我們很多常識性的理解,在量子狀態世界的執行並不確定,我們最多隻能預測各種結果出現的機率。”
此外,他還表示,量子的研究物件雖然是原子層級甚至亞原子層級的物體,但與宏觀規則也有相通之處,例如可以把分子之間的結構看成一張圖,進行處理。
姬水旺,2010 年獲得亞利桑那州立大學計算機科學博士學位,導師為葉傑平教授。研究興趣包括機器學習、深度學習、資料探勘和計算生物學,於 2014 年獲得美國國家科學基金會職業獎。2020年當選為ACM 2020傑出會員。
以下是演講全文,AI科技評論做了不改變原意的整理。
大家好,今天我將著重談談如何運用AI以及圖形計算技術來解決量子物理及量子化學問題。
首先讓我們來了解一些背景:在經典物理學領域,我們討論的是宏觀世界中的物體或者現象。比如,你朝一個球踢了一腳,如果你知道球的具體質量、速度以及當前的時間,你就能預測出五秒後這個球的位置。但是在量子領域,由於研究物件是原子層級甚至亞原子層級的物體,例如原子和化學鍵組成的分子,因此無法按照傳統邏輯思考領域規則。
近些年,我們不斷與各個領域的專家合作,希望從量子物理學家、量子化學家、量子材料學家等身上獲得研究突破。這些不同領域的學者都有一些共同需要研究的話題,而這些話題與影象、AI、尤其是深度學習相關聯。現在我來彙報最新進展。
1 AI遇上量子化學
分子由原子及原子間的化學鍵構成,例如在分子中,原子用點表示,而分子則由線表示。所以能夠將分子以2D圖形的形式呈現出來。在機器學習和資料探勘領域,圖形計算是一個老生常談的話題。但遷移到分子領域,也面臨新的挑戰:2D圖形的形式並不能完全挖掘分子的屬性。畢竟,分子實際上不是一個2D的平面,其具有三維空間屬性的。它的結構並不只由點和線的屬性決定,而同時由空間座標、化學鍵角等等決定。因此,在探索分子功能時,需要重視它的三維結構。
如何高效地利用分子的空間資訊去進行預測及生成模型?訊息傳播神經網路(Message Passing Neural Network, MPNN)是一種常用的圖神經網路框架。我們能發現,此類方法可以歸納為兩個方程:聚合函式和節點更新函式。聚合函式能將把鄰居節點的資訊聚合起來。
當我們嘗試計算一個節點的資訊時,基本上都會考慮節點在上個時間點本身的屬性以及中介節點的屬性,以及邊界的資訊。計算聚合函式之後,需要利用節點更新函式,這一步要求能夠利用之前步驟的資訊與屬性,更新現在的節點資訊。但此舉只是簡單地考慮了節點及邊界的特徵。所以,我們近期的工作就是嘗試構建三維圖形計算網路,以便能夠獲取完整的三維資訊。
一旦需要納入三維資訊,計算網路將變得非常複雜,且資訊傳遞也將變得低效。所以我們希望網路在高效的同時,讓計算變得等效與穩定。如果有一個分子,當你旋轉這個分子時,他的很多2D屬性也許不會改變,但3D資訊卻不一定;因此,我們希望在預測及生成模型中,當分子的一個節點旋轉時,它的量子屬性也保持穩定。
模型的預測功能是指預測一個給定分子的屬性,例如,我們可以預測分子是否有作為抗生素的潛力。而生成模型是指根據給定的屬性去生成/合成相應的新分子。
當前,已經有不少研究者將3D屬性納入考量了。其中一個最早的工作叫SchNet,他們將距離作為三維屬性納入。即使用SchNet意味著會考慮邊界以及邊界的長度。。最近也有一個工作叫DimeNet。DimeNet在SchNet的基礎上更進一步,因為它將角度納入了考量。例如你有從j到i的資訊,你需要計算mi,j,那麼需要不僅僅將節點資訊納入考量,還需要考慮兩個化學鍵之間的角度。
但在化學中,我們發現僅僅考量距離和幾何形狀是遠遠不夠的。如上圖,紅色部分代表了一個並不真實存在的平面,藍色部分也是如此。分子擁有幾何形狀,但是僅僅知道三條化學鍵的距離、兩個鍵角是沒法完全確定分子的幾何形狀的。
讓我們思考一下,d1,d2確定的平面與由d2,d3確定的平面之間會存在一個φ角。也正是這個角,成為了上述模型中的不確定因素。因為即使擁有相同的兩個鍵角時,而φ角不斷改變,導致分子的幾何形狀也會發生改變。
我們嘗試構建的是一個完整的、能夠解決所有情況的幾何框架,稱之為球形資訊傳遞。
為了解決上述問題,將φ角納入了考量,φ角是X與他的投影之間的夾角。
此舉的一個考量是:必須讓呈現出來的分子是穩定不變的。例如,當旋轉分子時,它們的屬性,例如所有的夾角,應當不發生變化。。在球形資訊傳遞中,我們構建一個球座標系,包括參照點、距離和扭角。但此模型不是100%完美的。
因為僅僅考慮了一個對照,所以當考慮其他節點時就會出現不確定因素。所以我們的工作是不完美但是非常具有效率的。
最近有一個叫GemNet的系統,他們的想法是,我們的系統僅僅使用了的A節點的鄰居節點的資訊,並沒有使用2-hop領域資訊。GemNet科學家認為,當你使用了2-hop領域資訊時,這個系統將會趨近完善。確實,當你使用2-hop領域資訊時,角度資訊將被較好地合併,並且達到近乎完善的效果,但是問題在於,一旦你使用了2-hop資訊,資訊更新後將納入大量地鄰居節點,整個資訊更新步驟將變得異常複雜。
相較之下,我們的系統雖然不是100%的完善,但更具效率,能夠直觀地看到複雜程度:n代表節點的數量,K則是所有節點的平均自由度。在實際效果上,我們的模型與更復雜的GemNet十分相近。
下圖能夠清晰地展示我們的模型能或不能表示哪些情況。a圖和b圖表示的是在化學上被稱為手性的現象。
事實上,這兩個分子就像是映象。我們設計的網路能夠區分這兩種情況,而之前很多的方法並不能做到。因為在我們的方法中,我們用到了扭角作為相對角度,而在手性這個例子中,二者q1的角度分別為60°和90°。但是,在第二種情況下,q1的扭角都為90°,所以我們的方法無法區分出來。第二種情況也是被社群的同行們指出“希望更正”的情況,但是從化學意義上說,這種情況發生的機率非常非常低,因為q2和q3作為不同的原子,他們與q1之間的扭角相同的情況幾乎不可能發生。所以我們認為,儘管我們的模型不是100%覆蓋了所有的情況,無法覆蓋的情況在自然界中很難發生。
2 AI遇到量子力學
當我們開始著眼於量子力學時,薛定諤方程為我們提供瞭解答思路。如果你知道距離角和扭角的數值,你可以使用方程中的不同函式,例如球面諧波和球面貝塞爾函式,也可以使用其他的基本函式去收集Θ值,並最終得到一個特徵向量。這是一個具有物理意義的特徵向量,能夠在實際的資訊傳遞中使用。
下圖是系統構建過程。有輸入模組,一個採用扭轉角和距離資訊作為輸入的互動模組,這個互動模組可能會重估很多次,這個重複的次數將取決於你的資料量。最後是輸出模組,有了這個模組,能夠使資訊傳遞用於一些賽事當中,例如公開催化劑挑戰。
公開催化劑挑戰賽是一個由Facebook AI和CMU發起的競賽。賽事的宗旨是利用新的大規模分子資料去預測熱力學資料。在催化劑發現領域,這些目標分子通常都相對較大,每個分子在結構上平均含有80個原子。
所以他們根據訓練與測試的關係將資料集分為四組,打分是根據每一個絕對誤差的平均值,來評價系統能夠測量的最佳質量。每一行代表一個模型,CGCNN來自一個利用模型研究分子的公司,還有SchNet,DimeNet以及GemNet。大家能看到,在所有的系統中,SphereNet能夠佔據一個非常有競爭力的地位。
上圖是來自其他資料集QM9的結果。這是一個相對較小的資料集,每一列代表了一個量子屬性,每一行代表了一個預測方法,從表中能夠看到每個方法在不同屬性上的平均誤差。
在其他資料集上我們的系統也是成功的,例如MD17,這是一個更小的資料集。正如我們提到的,GemNet因為使用了2-hop資料,計算力需求更大,所以只能用在較小的資料集當中。
正如上圖所見,就算在較小的資料集中,我們系統的表現也稍優於DimeNet,與GemNet相比表現也相差無幾,但GemNet的計算消耗更大。
下圖計算消耗的比較。截至目前,與兩代的GemNet計算相比,我們的計算消耗都是要小得多的。
下圖展示了系統的過濾器。正如所見,每行代表的分子具有不同的扭角,而在很多情況下我們的過濾器展示的結果在不同扭角下是非常不同的,這也印證了扭角引數在捕獲不同分子模式時是非常重要的。
簡單小結一下,我們的想法是嘗試將分子的三維資訊完整地展示出來,所以我們構建了SphereNet 框架。並且框架是理論上近乎完善且非常高效的,從實際效果上來看我們的框架可能已經是100%覆蓋的了,我們在這個方向上也有了很多的進展。
目前,相關工作已經開源,設計成了“dive into graphs”庫。
特別的,對於分子研究應用,我們有一個專門的庫叫做“molecule X”。如果你關注KDD比賽,你會了解我們是圖形神經網路計算領域的領先者之一,我們也參與了AI Cures 針對Covid-19的開放挑戰目前我們在AUCROC和AUPRC上的成績都是排名第一。
因此我們的工作主要是開發全新的影象處理技術,從而解決基礎科學領域尤其是量子化學、量子物理、材料科學中的問題。我的團隊開發了計算方法、開源了軟體庫並在會議、期刊中發表了我們的成果。同時,我們也參與了多項開放挑戰,如KDD杯。
我們的研究人工智慧和量子物理的交叉領域,在量子物理中,是以薛定諤方程為基礎的。相應的研究花費非常昂貴,如果構建粒子系統,需要龐大的算力支援才能解決特徵值問題。但將量子物理與AI計算結合起來,將是一個非常火熱的領域,目前,該領域仍處在探索階段。