機器之心原創
作者:蘿蔔皮
2021 年夏天,對於蛋白質結構預測領域來說是一個豐收的季節。7 月 15 日 DeepMind 團隊與華盛頓大學 David Baker 團隊分別開源了 AlphaFold2 與 RoseTTAFold,這可以說是蛋白預測領域一件里程碑式的事件。
在之後的幾個月裡,不斷有團隊使用開源的軟體取得了顯著成果,比如利用 AlphaFold 解析噬菌體,研究蛋白複合體的活化與聚合,開發解析蛋白質糖基化新工具等。
那麼問題來了,乍看佔據輿論中心的都是來自國外的團隊,國內團隊表現如何呢?
日前,來自中國上海的天壤 X-Lab 團隊,其自研的蛋白質結構計算平臺TRFold2,在基於國際權威的CASP14蛋白質測試集的評估中獲得82.7的成績(滿分100),超過華盛頓大學生物學家 David Baker 團隊研發的 RoseTTAFold,僅次於AlphaFold2。
同時,對比 AlphaFold2 的 128 個 TPUv3 核心(相當於 256 塊 GPU)算力配比,天壤的演算法訓練僅用 8 張 RTX3090。在預測約 400 個氨基酸的蛋白鏈時,AlphaFold2 需要 70 多秒;TRFold 16 秒即可完成,而且還是在只用一張 GPU 的情況下。
圖示:參加CASP14比賽團隊的部分成績排名。
這個成績是目前國內所有公開蛋白質結構預測模型中取得的最好成績,它標誌著我國計算生物學領域的表現已經處於世界第一梯隊。
面對團隊取得的階段性進展,天壤創始人薛貴榮博士表示:「我們透過兩年半的時間掌握了蛋白質摺疊預測的核心技術,並以此參與到國際最前沿的生物醫學領域的應用中,希望能夠開闢出一條 AI 生物學的應用之路。」
從頭搭建一套自研平臺,才能深入探索本質
蛋白質結構預測研究具有巨大的科研價值和社會經濟價值——蛋白質結構解析可以幫助揭示生命的生物學本質,探究生物體內各類代謝通路,這將加速科學家對於各類疾病的研究;同時可以加速藥物發現和藥物設計流程,提高藥物研發效率;工業生產方面,蛋白結構解析可以幫助最佳化眾多酶的功能,降低生產成本提高生產效率。
AlphaFold2 的開源,適當降低了結構研究對於電鏡等高昂裝置的依賴性,這將方便更多從事結構研究的科研人員。
然而,在天壤團隊看來,開源帶來的也並不全是便利,佔據自主研發的高地才能避免在未來的科技競爭中卡脖子。
天壤 XLab 團隊負責人苗洪江博士告訴機器之心:「AlphaFold2 的開源對我們自己要實現的技術路徑帶來了挑戰和機遇,因為假如沒有深入探索過程,就無法對不同的方法優勢進行量化,也不能將最有價值的創新進行更大範圍的應用。」
「此外這次開源並未公佈訓練程式碼,意味著即便下載了它的原始碼,也只能對單蛋白結構進行預測而無法根據專案需求進行進一步的最佳化改進。」
「比起單個蛋白的預測,天壤更關注的是這項技術的未來,所以我們一定需要從頭搭建一套自研演算法,才能展開後續的工作。」
圖示:對於單個蛋白的預測,TRFold 已經可以得到與 AlphaFold2 相媲美的結果。
在 AlphaFold2 的基礎上再往前進一步
在眾多解讀中,普遍認為 AlphaFold2 分為兩大模組,第一大模組主要是基於注意力機制的序列分析,第二大模組是去直接生成三維結構。後者採用端到端的方法,繞過了原來先預測 Contact 和 Distance,而後再去搭建三維模型的多段式預測方式,也被認為是DeepMind 思路巧妙和 AlphaFold2 成功的一大原因。
TRFold 也是基於多個模型,但不同的是,Distance 即距離預測也是 TRFold 中十分重要的部分,TRFold 可以高精度的預測兩兩氨基酸之間的距離。
「由於我們的專案一直延伸到蛋白質-蛋白質相互作用(PPI)分析,所以我們考慮的不僅是單蛋白質或複合體結構預測,還有更前一步的兩個或多個蛋白是否會相互作用的判別。這是目前 PPI 預測任務下的核心部分。」苗洪江博士介紹說。
針對蛋白互作判別選擇的問題,天壤初步選取了蛋白質接觸面距離來對蛋白相互作用進行判別。
據悉,TRFold中既包含了 End2End 預測三維結構的模型,也包含了專門預測氨基酸殘積間距離的模型,同時還包含結構分析最佳化模型以及專門針對無共進化資訊模擬的模型。
圖示:TRFold 採用 5000萬的引數迴圈多軌注意力網路,同時支援氨基酸的距離預測和結構預測。
與眾多技術相比,TRFold 的最大優勢可能還是對算力的節省;畢竟與 AlphaFold2 的 128 個 TPUv3 核心(相當於 256 塊 GPU)算力相比,TRFold 演算法訓練僅用了 8 塊 RTX3090;算力消耗僅 AlphaFold2 的 1/32。
同時,TRFold 可以根據不同的情況用不同版本的演算法進行模擬訓練,有很強的延展性,且用了更小的資源可以更快速生成預測模型。
在新型冠狀病毒疫情爆發的初期,CASP 組織者曾發起了一次針對難以實驗解析的 COVID-19 蛋白質結構預測,天壤提交的 nsp6-D2 預測結果入選 CASP 官方評選的六個「最具可信度模型」。
圖示:天壤提交的 nsp6-D2 預測結果入選 CASP 官方評選的六個「最具可信度模型」。
AI 在基礎科學中的巨大潛能,是我們不願意錯過的一道風景
說起天壤,首先會想到智慧城市、智慧交通,因此得知 TRFold 取得的成績時,我們首先問的是天壤進入蛋白質結構預測領域的原因。
「我們長期以來面臨的都是此類複雜系統的決策問題,在技術層面已經有了深厚的積累,蛋白質摺疊預測雖然是生物學課題,但也屬於這個領域,並且體現了AI在基礎科學中的巨大潛能,這也是每個立志於基礎研發的 AI 從業者的價值取向,我們不願意錯過這道風景。」天壤創始人薛貴榮博士表示。
對於天壤來說,目前的單個蛋白質摺疊預測只是一個起點,更加精準的側鏈最佳化、蛋白質的動態分析、蛋白質與其配體(如小分子、DNA、RNA、多肽、蛋白質等)的相互作用等一些列的問題還沒有解決,他們接下來的工作重點,將是利用目前的全蛋白質組協同進化分析,建立起蛋白質與蛋白質之間的相互作用的精準鏈路。
圖示:天壤團隊對蛋白質探索的未來佈局。
苗洪江博士說:「儘管目前我們的預測結果仍低於 AlphaFold2 ,但我們的模型還在不斷最佳化和迭代提高,比如蒸餾資料的加入,網路的擴大,模型間的相互增強等等。另外,我們也在做適用於其他『目標』的模型,以解決像抗體 CDR、蛋白設計、點突變結構等缺少共進化資訊的模擬問題。」
一般認為,CASP14 分數達到 90 以上就與實驗室的預測結果差別不大,目前 TRFold 基於更小的資料獲得了第二名,後續還會繼續迭代,達到 90 分以上只是時間問題。
天壤的 TRFold 展現了中國自研蛋白質結構預測演算法平臺的潛力,而令人高興的是,在實現科技自立自強的新徵程上,如天壤一樣越來越多的中國科技公司正湧向這個領域。
天壤創始人薛貴榮表示:結構生物學打開了全新的大門,天壤期待與業界同仁一起,在新一輪生命科學研究中取得突破性的成果,真正為人類社會做出貢獻。
【延伸閱讀】
當然,天壤也沒有忘記老本!天壤在智慧圍棋、智慧交通領域依舊是扛把子!
此前,天壤聯合創始人韓定一,在機器之心知識站做了技術分享《打造城市交通智慧決策體系——百萬級人口城市規模從限行到不限行》,可點選以下連結觀看影片:https://app6ca5octe2206.pc.xiaoe-tech.com/detail/v_616e723ae4b0a2977fe0275e/3
點選下文連結進入TRFold蛋白質摺疊預測平臺,瞭解更多詳細內容:
https://www.tianrang.com/xlab