2022年2月10日,中國科學技術大學在國際頂級期刊《Nature》連中三元,分別在超導體(https://www.nature.com/articles/s41586-022-04493-8)、量子模擬(https://www.nature.com/articles/s41586-021-04297-2)和蛋白質設計(https://www.nature.com/articles/s41586-021-04383-5)方面取得重要進展。真是麻煩啊,我介紹重要成果的速度都要趕不上成果增加的速度了!當然,這是一種甜蜜的煩惱。
在這三篇論文中,我覺得優先值得向公眾介紹的是蛋白質設計的這篇,因為它屬於“關鍵核心技術的原始創新”。此文的作者是科大生命科學與醫學部劉海燕教授和陳泉副教授等人,標題是《用於蛋白質設計的以骨架為中心的神經網路能量函式》(A backbone-centred energy function of neural networks for protein design)。聽這個標題是不是莫名其妙?科大主頁上的新聞標題就容易理解多了:《中國科大建立新的蛋白質從頭設計方法》(http://news.ustc.edu.cn/info/1055/78363.htm)。
上過高中的人,都知道蛋白質是生命的基礎,蛋白質是由氨基酸組成的,蛋白質中的氨基酸總共有20種。給定一個氨基酸序列,如何確定它的空間結構,然後如何確定它的功能?這是正向的問題,即蛋白質結構預測。也可以反過來問:我們希望實現某種功能,希望得到某種空間結構,請問什麼樣的氨基酸序列會產生這樣的結構?這是逆向的問題,即蛋白質設計。
對實用來說,顯然蛋白質設計比結構預測更加有用,同時也更加困難。比如說一個蛋白質有100個氨基酸,每一個位置有20種可能,總的序列數就是20的100次方,這是個天文數字。你怎麼知道這20的100次方個氨基酸序列中,哪一個能實現某種功能?挨個窮舉等到太陽爆炸都窮舉不完,必須尋找快速的演算法。
我的朋友、二氧化碳合成澱粉的第一作者、中國科學院天津工業生物技術研究所副研究員蔡韜博士,就對蛋白質設計充滿期待。因為他們的工作依賴於尋找合適的酶催化劑,酶就是蛋白質。如果能快速設計出能催化某種反應的酶,他們就可以進一步提高二氧化碳合成澱粉的效率,或者創造更多的奇蹟。
蔡韜跟我說過,希望量子計算機能幫他們實現這個目標。我告訴他,量子計算機還遠沒有實用呢。現在好訊息來了,在量子計算機實用之前,劉海燕等人的方法就有望把蛋白質設計推進一大步!
下面我向大家來解讀一下這篇論文(https://www.nature.com/articles/s41586-021-04383-5)。蛋白質骨架指的是由肽鍵即-CO-NH-連線的主鏈,即不包含殘基的那部分。不同的氨基酸只會帶來不同的殘基即側鏈,而不會影響主鏈的化學組成。但是不同的氨基酸序列確實會影響主鏈的空間結構,例如有些傾向於α-螺旋,有些傾向於β-摺疊。如果一個骨架結構不能由任何氨基酸序列得到,那麼顯然我們沒法設計出這樣的蛋白質。而如果一個骨架結構可以由很多種氨基酸序列得到,我們就把它稱為可設計的。顯然,天然蛋白質都是可設計的。但反之則不然,可設計的蛋白質不一定是天然的。
世界上為什麼會存在可設計的骨架結構?可以想到,這是因為決定它的相互作用是與側鏈無關的或者對側鏈不敏感的。這就提示我們,可以構造出這樣的能量函式,它完全由骨架結構決定,而與側鏈無關。具體的實現方法,是神經網路。現在大家明白,《用於蛋白質設計的以骨架為中心的神經網路能量函式》這個標題是啥意思了吧?
劉海燕等人提出的能量函式叫做SCUBA,它是Side Chain-Unknown Backbone Arrangement的縮寫,即“側鏈未知的骨架安排”。他們還提出過一個模型叫ABACUS,這個詞是“算盤”的意思,但在這裡是A Backbone Based Amino Acid Usage Survey的縮寫(https://www.163.com/dy/article/GVU8BK550512TP34.html),即“一種基於骨架的氨基酸使用調查”。
SCUBA是在不限骨架的情況下,找出哪些骨架可設計。ABACUS是在給定骨架的情況下,找出哪些氨基酸序列對應這個骨架。兩者結合起來,就構成了一條全新的蛋白質從頭設計路線。
這條路線有什麼好處?跟傳統的做法對比一下就知道了。傳統的做法叫做RosettaDesign,它是由美國北卡羅來納大學教堂山分校的科學家設計的一種方法(http://rosettadesign.med.unc.edu/))。回顧一下,天然蛋白質都是可設計的,但反之則不然。他們的思路就是儘量利用天然蛋白質的資訊,把天然蛋白質結構作為模板拼接起來。這樣相當於只在淺水區游泳,安全是能保證了,但有大量的地方到不了。
劉海燕等人到達了深水區。他們從頭設計了9種蛋白質,測量了它們的高分辨晶體結構,確認它們的實際結構與設計模型一致。最妙的是,其中5種蛋白質具有天然蛋白質中尚未觀察到的新型拓撲結構。如果你用傳統方法,你永遠都不會找到這些結構的!
所以《Nature》的審稿人評論:“與現有方法不同,現有方法要麼使用引數方程來描述預定義螺旋結構的空間,要麼基於片段組裝的方法依賴於已知蛋白質片段。SCUBA方法原則上允許人們探索任意主鏈結構,然後填充序列,允許人們設計比自然界中觀察到的更廣泛的蛋白質幾何結構。”新聞報道:中國科大團隊的工作在蛋白質設計這一前沿科技領域實現了關鍵核心技術的原始創新,為工業酶、生物材料、生物醫藥蛋白等功能蛋白的設計奠定了堅實的基礎。大家體會到這些詞的分量了吧!
最後我想說,20多年前我讀博士的時候就見過劉海燕老師,當時他的頭髮已經花白了。在最新的團隊照片中,他的頭髮已經全白了。其實劉老師出生於1969年,今年才53歲而已。從這一頭白髮,就能看出他是個多麼用功的人。
我讀博士的時候也見過他們團隊的開創者施蘊渝院士,她是我國物理學前輩施士元先生的女兒。施士元是居里夫人為中國培養的唯一的物理學博士,也是“中國的居里夫人”吳健雄的老師。他們三四十年代時的條件非常艱苦,施蘊渝老師開闢科大的計算結構生物學方向時條件也很有限。幾代人的艱苦奮鬥才能結出碩果:寶劍鋒從磨礪出,梅花香自苦寒來。