谷歌DeepMind團隊的阿爾法摺疊2(AlphaFold2)使用最新的人工智慧演算法對蛋白質結構實現了接近實驗精度的精準預測。這一成果被美國《科學》雜誌評為2020年十大科學突破之一。
復旦大學複雜體系多尺度研究院教授馬劍鵬團隊與上海人工智慧實驗室合作,近日以《OPUS-Rota4:一個基於梯度和深度學習的蛋白質側鏈建模框架》(“OPUS-Rota4:agradient-basedproteinside-chainmodelingframeworkassistedbydeeplearning-basedpredictors”)為題在《生物資訊學簡報》(BriefingsinBioinformatics)上發表論文,展示了蛋白質側鏈預測演算法(OPUS-Rota4演算法),其精度顯著超越了谷歌團隊的阿爾法摺疊演算法。
在目前阿爾法摺疊演算法開源的情況下,復旦團隊的演算法可以為任何蛋白質結構預測工作提供比阿爾法摺疊更準確的側鏈模型,從而為蛋白質結構研究,尤其是基於蛋白結構的新藥設計工作提供了利器。
用人工智慧系統預測蛋白質結構,有什麼價值?
馬劍鵬介紹,蛋白質由一系列氨基酸摺疊而成,具有穩定的三維結構。如果掌握了各種蛋白質的精確三維結構,科學家在生命科學研究中就好比有了導航地圖。然而,用冷凍電鏡等實驗裝置測定蛋白質結構的難度很大,而且經濟成本、時間成本很高。如果人工智慧系統可以快速、精準地預測蛋白質結構,新藥研發等工作的效率將大幅提高,成本也會隨之降低。
蛋白質三維結構由主鏈和側鏈共同搭建而成,人工智慧系統預測蛋白質結構的通常步驟,是先為蛋白質主鏈建模,再根據主鏈的構象為側鏈建模。
自然界中的蛋白質含有20種氨基酸,它們的主鏈幾乎完全相同,而側鏈差異很大。由於藥物分子與人體蛋白質結合的位點絕大多數在氨基酸側鏈上,人工智慧系統對側鏈的精準預測對新藥研發具有重要價值。這種精準預測能力還可用於解釋基因點突變、基因小片段突變的機制,為遺傳性疾病研究和治療提供寶貴思路。
精準的蛋白質側鏈建模對蛋白質摺疊和蛋白質設計至關重要。近年來的研究中,研究人員開發的側鏈建模演算法大多基於抽樣,如SCWRL4、OPUS-Rota3等。其從離散的側鏈二面角轉子庫中進行抽樣,隨後根據一系列能量函式進行最佳化,找到能夠讓能量最低的二面角轉子即為最終結果。基於抽樣的側鏈建模演算法優點是速度較快,但由於使用離散的轉子並受限於能量函式的準確性,其整體側鏈預測精度仍然有待提高。
OPUS-Rota4引入深度學習演算法,使得蛋白質側鏈建模精度得到了大幅提升。研究人員首先使用OPUS-RotaNN2結合多種不同的提取特徵得到初始的側鏈二面角預測結果,之後使用OPUS-RotaCM得到側鏈原子接觸圖,最後使用其自主研發的建模框架OPUS-Fold2根據接觸圖對初始側鏈二面角預測結果進行最佳化並輸出最終結果。
圖為OPUS-Rota4整體框架
研究人員在三個天然構象測試集中進行了測試,其中CAEMO(60)包含60個測試蛋白,CASPFM(56)包含56個測試蛋白,CASP14(15)包含15個測試蛋白。其結果顯示,在三個測試集中,OPUS-Rota4的結果均優於其它側鏈建模演算法。
圖為RMSD結果。數值越低說明越接近天然構象。All代表全部殘基,Core代表中心殘基。全部殘基包含中心殘基和表面殘基。中心殘基位於蛋白質內部,對其生物學功能更為重要。
除了三個天然構象測試集外,研究人員還使用AlphaFold2得到了CASP14(15)中15個蛋白的預測結構,並根據預測主鏈結構對其側鏈用不同方法進行重新建模。其結果顯示,OPUS-Rota4的結果顯著優於其它側鏈建模方法,而且比AlphaFold2預測的側鏈更接近天然構象。
研究人員展示了幾個預測較為成功的結構。結果表明,OPUS-Rota4的側鏈預測結果和天然構象基本接近,尤其是對於那些位於蛋白質內部的中心殘基。
如圖所示,藍色為天然構象,紅色為預測結果。
研究人員還對幾個相對預測較差的結構進行了分析。研究人員認為,其預測較差的主要原因可能是這些結構中都存在較長的無序loop區域,該區域的氨基酸側鏈結構自由度較高。
研究人員表示,將會對蛋白質側鏈建模進行進一步研究,以期繼續提升準確率,並將對側鏈建模在實際問題中的應用進行探索。側鏈預測的技術難度很大。馬劍鵬打比方說:“基於高精度的自然主鏈構象來建側鏈結構,就像在靜止的船甲板上做金雞獨立,站穩很不容易。如果是基於計算機預測的非自然主鏈構象來建側鏈結構,就像在搖晃的船甲板上做金雞獨立,難度更大。”
復旦大學複雜體系多尺度研究院青年副研究員徐罡為論文第一作者,復旦大學複雜體系多尺度研究院院長馬劍鵬為通訊作者。
作者:李沁園
編輯:吳金嬌
圖片來源:受訪單位