編者按:我們身體的三分之一是蘑菇?因為人類與真菌共享三分之一的 DNA。我們一直在與異類共生?因為人體內有一半外來細胞。
這些看似不相關的現象其實都有著深層次的聯絡,隨著科學家們的研究探索,生命神奇的本質正在逐漸被揭開。而近年來大資料、AI 等技術的發展和應用,更是為生命科學研究開啟了新正規化。利用新技術,科學家們可以模擬瞬間變化的生命現象、發現生命機理的規律、降低研究成本、獲得更好的研究結果。近日,微軟亞洲研究院就與清華大學合作,利用分子動力學模擬技術,取得了新冠病毒機理研究的重要成果。
不同領域的科學家協同合作的秘籍是什麼?如何在 AI for Science 的趨勢中拔得頭籌?讓我們從微軟亞洲研究院與清華大學的合作分享中一探究竟吧。
新冠疫情自爆發以來,已造成全球範圍內近2.8億人感染,540多萬人死亡,給全球的經濟和社會生活帶來了巨大的損失和傷害,且至今仍未有緩和的跡象。相比之下,2003年的 SARS 疫情持續一年多,累計報告病例8000多例,死亡900多人;2012年的中東呼吸綜合徵則主要在中東地區流行。同樣是冠狀病毒所引起的傳染病,為什麼新冠病毒有如此高的傳染性?它又是如何侵染人體的?
面對這場病毒遭遇戰,全球的科學家們迅速行動對新冠病毒展開研究,同時也推動了人工智慧等新技術與生命科學之間的進一步加速融合。近兩年來,微軟亞洲研究院的研究員們也一直在思考,如何利用自身在人工智慧、深度學習等計算機領域的優勢,與生物學、病毒學專家深度合作,結合生命科學的專業知識,為緩解新冠疫情貢獻自己的力量。就在不久前,微軟亞洲研究院與清華大學生命科學學院以及傳染病研究中心合作,在新冠病毒的跨領域、跨學科研究中取得了兩項重要成果,為釐清新冠病毒機理提供了新的方向。
新冠病毒致病機理研究兩開花,
計算生物學潛力凸顯
研究發現 COVID-19 新型冠狀病毒是由 SARS-CoV-2 病毒所引起的。和其它冠狀病毒一樣,它的表面由刺突糖蛋白結構組成,也就是 S(Spike)蛋白。若病毒要想進入人體細胞,S 蛋白就需要與人體細胞的受體結合。S 蛋白的構型很像英文字母“Y”,豎著的 S2 區域起支援作用,向上伸出的兩枝杈,一個是 RBD,另一個是 NTD。科學家們已經認識到直接造成侵染的是 RBD 區域,而且它的狀態是站立(up)還是躺平(down)會直接影響受體結合,只有站立時 RBD 才能進行受體結合,從而感染人體。
基於這些背景知識,微軟亞洲研究院的研究員們產生了一連串的疑問:RBD 的功能已經清楚了,那 NTD 在感染過程中扮演著怎樣的角色?在病毒侵染的過程中 NTD 對 RBD 的狀態變化是否有協同作用?如果找到了 RBD 站立與躺平的規律,是不是就有可能抑制病毒的入侵?因此,研究員們希望利用計算生物學,特別是分子動力學模擬技術對 NTD 展開深入研究。當他們把這一想法與清華大學生命科學學院龔海鵬教授討論後,雙方立即開啟了合作研究。
經過分析研究員們發現,以往很多研究只對 RBD 或 NTD 的一小部分進行了模擬,只見樹木,不見森林,無法還原其在整個 S 蛋白上的變化情況,模擬精度也有所欠缺。雖然只是對一個蛋白質進行模擬,但其中包含了百萬級的原子數,計算量和複雜度可想而知。對此,微軟亞洲研究院的研究員們採用了增強取樣、加速演算法等手段,基於強大的計算平臺,建立了大體系、全原子的分子動力學模擬模型,實現了長時間的計算。
- 大體系、全原子是指構建擁有百萬級原子的完整 S 蛋白,而不是隻對10萬個或1萬個點進行抽象模擬,從而提升模擬精度。
- 長時間是指研究員們透過數十億步的計算,每步代表1飛秒(1秒的一千萬億分之一),模擬運行了20微秒。不能小看這個數字,20微妙相當於2*1011步,在分子動力學模擬中這屬於相當長的時間,以此可以更真實地模擬 NTD 和 RBD 之間的相對運動。
最終,微軟亞洲研究院首次提出了 NTD 在病毒侵染過程中發揮調控作用的“楔形”模型,相關成果於21年10月在著名期刊《Advanced Theory and Simulations》上作為封面文章發表。“其實 RBD 是傾向於躺平的,這和人一樣,躺著肯定更舒服,但當 RBD 想躺下的時候,NTD 會像楔子一樣堵住 RBD 下方的空隙,從而使其維持站立的狀態,感染人體。”微軟亞洲研究院主管研究員王童形象地解釋了他們從模擬中取得的發現。
NTD 在 SARS-CoV-2 的 S 蛋白構象變化中發揮調控功能示意圖
利用這種“楔形”模型,研究員們進一步在對中草藥資料庫 TCMSP 中的中藥化合物進行虛擬篩選,檢測到了8種中藥中的18種化合物與 NTD 作用的該位點具有很強的結合能力,從而為新冠病毒藥物研發提供了一定的參考價值。
像這樣利用計算機模擬的方式去做生物學實驗,甚至去預測和推論,被稱為“幹實驗”。但生物學研究還是不能離開“溼實驗”,也就是基於分子、細胞、生理等層面的生物實驗。在開展 NTD 探索性研究的同時,王童瞭解到清華大學王新泉教授和張林琦教授的團隊正在合作開展新冠病毒致病機理的研究。於是三方一拍即合,透過清華兩位老師團隊的結構生物學和免疫學實驗發現,與其他冠狀病毒相比,新冠病毒 S 蛋白372號位點的突變使得370號位點缺失了糖基化。這一變化促使 RBD 更多處於站立狀態,增強了病毒的感染性。而微軟亞洲研究院利用分子動力學模擬等計算手段進一步具體分析了 S 蛋白370位點糖基化對 S 蛋白構象變化和病毒感染能力的影響。最終,透過乾溼結合的手段驗證了結論的正確性,相關論文也已被生物學領域的頂級期刊《Cell Research》接收。
對於這項三方合作開展的前瞻性科研工作,張林琦教授表示“我們在眾多資訊和生命活性的相互作用中找到了一個極其重要的點。它是在大量資料分析、實驗驗證以及預測的基礎之上得到的結果。透過與微軟亞洲研究院合作,我們看到將計算機科學與生命科學系統對接,可以加速找到生命現象的關鍵環節,解決一些生命科學的問題,並進一步瞭解生命科學本身,從而對研發新藥物來阻斷或者促進某些生命現象起到了標杆性的作用。”
AI為生命科學研究開闢新方向,
開拓新產業
正如張林琦教授所言,AI、大資料等創新手段與生命科學的深度融合正在為生命科學研究開闢新的方向,甚至改變生命科學的研究正規化。生命科學研究發展至今,經歷了不同的階段,從20世紀前的描述觀察,到20世紀的實驗分析,在科學家們的努力下,生命的密碼正在逐漸被破解。但這些傳統生物學研究方式依賴於不斷地試錯和積累,不僅耗資巨大,週期往往也很長。同時,基因組學等底層資料採集技術的發展以及藥物試驗中持續產生的資料等等,也讓生物資料呈現爆發式增長。雖然這為個性化的靶向藥物研發、精準醫療提供了可能,但海量資料也註定了單靠人力完成資料的整理、分析和挖掘已是不可能完成的任務。
如今,隨著算力的提升、機器學習等模型的精進,大資料使得計算生物學的研究條件越來越完善,在基礎科學研究中扮演著越來越重要的角色。對於 AI 與生命科學的結合,龔海鵬教授說道,“我們能不能從溼實驗得到的資料中發現規律?人的邏輯思維可以有一個大致的判斷,但還不夠細緻,AI 在這方面就能體現出它的優勢。”對此張林琦教授也表示認同,他認為生命科學不能只靠感覺,而是要朝定量化和精準化的方向發展,“溼實驗看到的結果往往是靜態的,但所有的生命過程都是動態的,分子結構變化更是瞬時反應,在自然條件下一閃而過,人的肉眼連看到的機會都沒有。在模擬分子動態變化以及定量評判方面,一些新的演算法和技術能發揮非常大的作用,”張林琦教授說。
除了促進病毒、致病機理等基礎科學研究的發展,計算機科學與生命科學的結合也可能會創造一個全新的生物醫藥產業。早在2018年,埃森哲(Accenture)就曾在一份統計報告中指出,“到2026年,大資料與醫學和製藥領域的機器學習相結合將產生每年1500億美元的驚人價值”。
傳統的新藥研發極具風險和難度,週期長、費用高,過去十年藥物開發專案從1期臨床到獲得 FDA 批准上市的成功率僅為7.9%。對此張林琦教授深有感觸,不久前由他領銜研發的新冠“特效藥”——單克隆中和抗體安巴韋單抗/羅米司韋單抗聯合療法獲得中國藥品監督管理局(NMPA)的上市批准,有助於治療新型冠狀病毒陽性患者。他說,“AI 在新藥研發整個過程中的每個節點都可以發揮巨大的作用,比如為抗體的篩選、評估、預測、最佳化等提供支援,縮短研發時間,降低研發成本。另外,如果能在大資料分析的基礎上利用 AI 技術總結規律、進行預測,在病毒突變之前,設計出專門針對突變的抗體,那麼我們就能先下手為強,化被動為主動。”未來,從原始研究到臨床試驗,在生命科學產業的全鏈條上,透過跨界研究把幹實驗和溼實驗無縫銜接,形成真實世界和理論資料的閉環,將為生命科學帶來更廣闊的發展前景。
跨領域、交叉學科協同合作,
打破次元壁的秘籍
儘管計算機科學與生命科學的跨界合作大有可為,但協作過程還需要更多的磨合。兩個領域的科學家所面對的是兩類不同的知識結構、語言體系,如何打破行業壁壘、共建合作生態是關鍵。微軟亞洲研究院與清華大學透過上述兩項合作研究,為跨學科交叉實踐積累了一定的經驗。
那麼不同背景的科學家協同合作的秘籍是什麼?
首先,明己之長,知己所短,優勢互補。張林琦教授長期專注於艾滋病等人類重大病毒性傳染病的致病機理、抗病毒藥物、抗體和疫苗的研究;王新泉教授的主要研究方向是結構生物學;龔海鵬教授則致力於把分子動力學模擬等新方法用於分析生物大分子的大尺度構象變化。他們及團隊在各自的領域都有著深厚的積澱和世界級的影響力。這些專家對生命科學專業、前沿的洞察為演算法提供了實現基礎,可以幫助演算法專家理解資料背後的科學意義。而微軟本身是以計算機技術為核心能力的平臺公司,在人工智慧、雲計算等領域能為其他學科提供強有力且最先進的計算機科學加持。
“微軟亞洲研究院在生物學、材料科學、物理和化學方面並不是專家,所以我們需要與真正的領域專家共同努力、密切合作。在這個過程中,雙方會互相影響,相互改變。AI 科學家可以提供基於資料的端到端解決問題的思路,提供比傳統科學計算更加高效的解決方案;自然科學領域的學者則可以提供獨到的領域知識,讓這些計算能力以一種符合科學規律的方式用到刀刃上,”微軟亞洲研究院副院長劉鐵巖表示。
其次,跨領域合作需要提出最具有前瞻性、挑戰性的科學問題。只有前沿課題才能發揮雙方實力,激勵科研人員克服困難,合理調配資源。劉鐵巖表示,“雖然人們認為 AI 能夠在任何領域發揮作用,但如何找到關鍵的科學問題才是關鍵所在,這需要領域專家與 AI 專家坐下來細緻地討論,不斷淬鍊出真正重要的問題。”合作伊始,微軟亞洲研究院的研究員們與清華大學的師生團隊也遇到了預期不匹配、溝通鴻溝等問題。透過隨後定期的會議與學術討論,雙方逐漸明確了彼此的優勢所在,找到了“最難啃的骨頭”。當實驗結果出現差異時,大家會從不同角度共同分析問題產生的原因,不斷磨合,增強了彼此的信任。
最後,是要有耐心與恆心。生命科學研究是一個漫長而枯燥的過程,很多基礎研究短時間內都無法帶來直接的收益。對此龔海鵬教授認為“做科研需要踏踏實實。解決生物學的實際問題,要以推動科學發展為目標,而不是以發論文為目標。微軟亞洲研究院在提供強大的計算資源、AI 演算法的同時,在合作研究中也極具耐心,這是跨領域合作的基礎。”
在雙方的合作中,大家也加深了對彼此所在行業和機構的理解。在合作之前清華大學的老師們還有些疑慮,“在我們眼中,企業的研究部門更多的是以短期業績為導向的。但合作之後我們發現微軟亞洲研究院是一個真正的學術機構,尤其是‘頂天立地’的價值取向和學術定位與清華大學的理念非常吻合。也只有這樣才能開展更具學術性的研究合作,”王新泉教授說。
無論是用深度學習最佳化大氣汙染排放量、把 Graphormer 用於催化劑設計、神經網路用於新物理發現,還是近期 AI 領域頂會 NeurIPS 上火熱的科學相關主題演講,都昭示著 AI for Science 已經成為一種趨勢。計算機科學、人工智慧與生命科學、生物醫藥、量子科學、天文學等一系列基礎科學研究交織碰撞,將為科學發展注入新的強勁動力。而在這一浪潮中,微軟亞洲研究院也將繼續與科學界合作,取得更加亮眼的成績。