"這將改變醫學。它將改變研究。它將改變生物工程。它將改變一切。"
艾拉-阿爾德森- 6分鐘閱讀
今年早些時候,一種演算法被髮布到網上--完整且完全免費--供學術界使用。這個演算法代表了我們一生中最重要的科學發現之一,展示了人工智慧改變我們文明程序的日益增長的潛力。利用深度學習和神經網路,被稱為Alpha Fold的演算法有望徹底改變生物化學領域。它可以幫助我們更好地瞭解疾病,制定藥物,併產生從塑膠汙染到大氣中過量碳的解決方案。透過嘗試解決蛋白質摺疊問題,我們已經取得了令人興奮的、前所未有的突破,這將影響我們所有人的生活。
在過去的50年裡,蛋白質摺疊的問題一直是一個持續的障礙。它首次出現在1972年:一個新的理論提出,知道一個蛋白質的氨基酸序列應該可以完全預測其結構。
蛋白質不僅是生命的根本,它們負責細胞內發生的幾乎所有過程。所有生物體都依賴這些複雜的分子。反過來說,蛋白質是由20個不同的氨基酸鏈組成的。這些氨基酸之間的相互作用決定了蛋白質將如何摺疊成三維形狀。蛋白質的形狀在決定其功能方面起著很大的作用,因此在生物學中,有這樣一句話:"結構就是功能"。結構將決定一個蛋白質將做什麼,以及它將如何工作。因此,我們可能會得出這樣的結論:只要知道一個蛋白質的氨基酸序列,就可以確定其最終的三維形狀。但問題就在這裡。
一個單一的蛋白質可以由多達2000個氨基酸組成。確定它們所有可能的結構可能需要比整個宇宙的年齡還要長。這相當於大約10³⁰可能性,這意味著一個能夠預測蛋白質如何摺疊的系統將必須使用比簡單的蠻力更優雅和精確的東西。
自從1994年被稱為 "蛋白質結構預測關鍵評估"(CASP)的比賽開始以來,沒有一個競爭團隊能夠接近做出準確的預測。比賽本身由數百個團隊組成,他們的演算法旨在從給定的氨基酸序列中預測大約100種不同的蛋白質結構。這些蛋白質的結構已經透過實驗確定,但尚未公開披露。各參賽隊的演算法所做的預測將與實驗結果進行比較,並由一個評委小組進行評估。用於確定蛋白質結構的實驗方法包括X射線晶體學和冷凍電子顯微鏡(cryo-EM):這是眾所周知但昂貴的研究方法。
去年,DeepMind的Alpha Fold演算法成為第一個做出越來越準確預測的演算法。該演算法取得的進展如此驚人,以至於在許多研究人員看來,蛋白質摺疊的問題基本上已經解決了。
Alpha Fold的預測在2020年平均準確率超過90%。這與過去幾十年來表現最好的CASP團隊所取得的平均40%的準確率相比,是一個巨大的進步。當其他團隊在中等難度的蛋白質上獲得75%的準確率時,Alpha Fold會獲得90%的分數。即使演算法確實與實驗結果有分歧,也不清楚哪一個更正確,因為兩者都允許有一定的誤差幅度。對於許多Alpha Fold的預測,這個誤差幅度是一個原子的大小,演算法預測的是結構中成千上萬個其他原子的確切位置。總的來說,大約有三分之二的預測結果與實驗結果具有相同的質量。
自2006年以來,CASP中表現最好的團隊的準確率(GDT)。圖片由DeepMind提供。
使用核磁共振、X射線晶體學和冷凍電鏡等實驗方法,弄清一個蛋白質結構可能需要幾天甚至幾年時間。這些方法也是勞動密集型的,而且成本很高,需要依靠試驗和錯誤以及昂貴的機器。然而,Alpha Fold並不意味著要取代它們。相反,它是為了補充研究人員的工作。Alpha Fold已經幫助科學家找到了他們已經研究了幾十年的蛋白質結構,使科學能夠在之前停滯不前的地方向前發展。酶創新中心正在使用該演算法來尋找一種酶,以幫助我們分解一次性塑膠。這也啟發了其他團隊--例如來自華盛頓大學的團隊--在Alpha Fold的基礎上進行改進,以使其更快、更節能。
然而,像80年代和90年代的計算機程式一樣,Alpha Fold的第一次迭代並不是很成功。它在2018年對CASP的準確率評價不到60%。直到Alpha Fold的第二次迭代,才在深度學習的幫助下取得真正的進展。深度學習是一種機器學習,它模仿人腦可能的行為方式,使機器能夠以遠低於傳統機器學習可能需要的人類輸入來學習。
由節點組成的神經網路構成了深度學習的主幹。神經網路中至少有3層節點:輸入層、輸出層和中間的隱藏層。資料在神經網路中的各個節點之間共享,然後機器做出預測,它可以對照資料集進行檢查。訓練資料有助於機器提高預測能力。在Alpha Fold的深度學習網路的案例中,訓練資料包括來自蛋白質資料庫的摺疊蛋白質。此外,Alpha Fold不是隻有1個神經網路,而是有2個網路,它們相互合作,摺疊蛋白質,呈現3D模型,並在最後調整它們的氨基酸排列。
深度學習是人工智慧的一個子集,其中神經網路幫助演算法處理資訊。在這裡,我們看到神經網路的輸入層,輸出層
將Alpha Fold的程式碼提供給學術界使用後,其影響可能是巨大的。
Alpha Fold與 "被忽視的疾病藥物 "倡議(DNDi)合作,迄今已實現了對疾病的新治療,幫助用更安全的藥物取代以前可能導致20個病人中1個死亡的有毒藥物。Alpha Fold還幫助檢測和預防威脅視力的眼部疾病,並幫助研究抗生素的抗性。新的設計可能導致分解有毒廢物的蛋白質,或解決碳捕獲的問題。它可能徹底改變的行業包括醫學、農業、生物工程、生物技術和食品科學,儘管目前還不清楚究竟有多少突破會源於Alpha Fold演算法的釋出。它很可能需要幾十年的時間來釋放其全部潛力,以許多意想不到的方式改變世界。
最終,Alpha Fold對蛋白質摺疊問題的解決方案是一個用機器來理解機器的案例--畢竟,蛋白質只不過是被程式設計用來運輸氧氣、消化食物以及兩者之間的一切的微型機器。這是人工智慧力量的一個驚人的展示。人工智慧是這一代人的望遠鏡:是瞭解我們周圍神秘現象的儀器,為世界打開了新的視野。