7 月 30 日,成立不到一年的百圖生科(BioMap)宣佈完成上億美元的 A 輪融資,這家由李彥宏牽頭髮起並親任董事長、原百度風投 CEO 劉維作為聯合創始人兼 CEO 掌舵的「中國首家生物計算驅動的生命科學平臺公司」向外界放出雄心:
公司致力於用高效能生物計算和多組學資料技術加速創新藥物和早篩早診等精準生命科學產品的研發,力圖讓更多疾病可預警、可控制、可治癒,為行業提供更好的生物地圖(BioMap),幫助藥廠找到化合物,幫助醫生找到生物標誌物,幫助科研人員找到各種生物資料背後的意義。
不久之前,國際機器學習大牛又宋樂加入李彥宏生物計算軍團。為世界知名機器學習專家,他領導著百圖生科 AI 演算法團隊,為獨具特色的生物計算引擎研發提供技術動力。
宋樂博士是著名的機器學習和圖深度學習專家,曾任美國佐治亞理工學院計算機學院終身教授、機器學習中心副主任,阿聯酋 MBZUAI 機器學習系主任,螞蟻金服深度學習團隊負責人(P10)、阿里巴巴達摩院研究員,國際機器學習大會董事會成員,具有豐富的 AI 演算法和工程經驗。
自 2008 年起,宋樂博士在 CMU 從事生物計算相關的研究,利用機器學習技術對靶點挖掘、藥物設計取得了一系列突破性成果,獲得 NeurIPS、ICML、AISTATS 等主要機器學習會議的最佳論文獎。社群服務方面,他曾擔任 NeurIPS、ICML、ICLR、AAAI、IJCAI 等 AI 頂會的領域主席,並將出任 ICML 2022 的大會主席,他還是同行評議期刊 JMLR、IEEE TPAMI 的副主編。
近日,由雷峰網 & 醫健AI掘金志主辦的GAIR「醫療科技高峰論壇」在深圳正式召開。
這一次,醫健AI掘金志以「醫療AI的破局與新生 」為主題,將話筒傳遞給四位院士、5位IEEE Fellow、19位行業領袖,由他們以分別從歷盡鉛華的醫學影像AI、和風勁正濃的AI製藥兩大賽道出發,為行業的發展提出自己的判斷。
論壇之上,百圖生科首席AI科學家,ICML 2022大會主席宋樂,以《用人工智慧賦能新藥研發》為題,發表了一場演講。
宋樂教授提到,大家在憧憬AI可以在新藥發現領域展現巨大作用的同時,還有三個問題要提前考慮。
第一個挑戰,瞭解複雜疾病的困難。例如胃癌,因為胃連線不同器官;細胞層面上,每個器官有不同細胞進行不同作用,細胞之間通性也是很複雜的網路;分子層面,細胞裡有各種各樣蛋白質等分子產生相互作用,也形成了很複雜的網路。所以,如果為一種胃部疾病找合適治療靶點,就需要對整個網路有透徹的瞭解。
需要測量每一個環節、每一個尺度,包括整個機體組織尺度,整個組織的切片,細胞之間如何通訊,如何表達這些基因。甚至要看到細胞裡的蛋白質互相作用,收集這些資料會非常複雜。
例如,需要測量單個細胞基因表達量,蛋白質表達量。甚至還需要同時測量單個細胞基因表達、不同細胞在空間、組織裡面的表達。
第二,對於包括基因層面的基因測序、表觀組,蛋白質表達、蛋白質代謝,組織層面、機理層面等多維度、多尺度的資料,如何進行復雜且多樣化的融合處理。
傳統方式是對每個維度分開分析,再透過人來做整合;現在可以用AI將多尺度、多樣化資料整合。 除了資料多樣性問題,資料量增加也非常快,生物資料每7個月翻一倍。
第三個挑戰,行業配合問題。資料分析與實驗往往是兩波人,他們之間的溝通缺乏一個非常高效的系統,將預測、模型輸出和試驗系統進行整合,加速迭代。
通常情況下,都是資料分析員根據根據已有知識在腦海裡形成假設,然後讓實驗員做實驗;有了資料後,再給資料分析團隊分析,驗證假設是否成立,決定下一次實驗。
整個實驗-資料分析-模型環節比較開環,但不是完全開環,缺少一個非常高效的系統,將預測或模型輸出和實驗系統整合,加速迭代過程。
以下是演講的全部內容,雷峰網做了不改變願意的整理和編輯:
今天我分享一下對人工智慧賦能醫藥的理解以及行業現狀,人工智慧在這個領域能做些什麼。
首先,這個行業面臨很大的挑戰,我將其定義為雙十挑戰。
第一,醫藥研發漫長;每個新藥從研發到上市需要10年時間甚至更多,藥物篩選過程非常艱難。
很多藥物都是小分子或蛋白質,種類極多,篩選空間甚至有10的60次方,從這麼大範圍找出最終的藥物分子,並推到上市,其實非常艱難。
計算節點上,要從10的60次方中找到1萬種,再從裡面選幾百個做Preclinical測試,之後再做臨床試驗,整個過程中每一步都有很高的失敗率。
而且,前期篩選經常預測不到後期屬性,導致產物後期無法使用,就要從頭重新篩選,週而復始。
第二個“十”是指,開發一個新藥大約需要10億美金左右的造價。1950年還有很多比較容易治療的疾病未被治癒,
如果當時有10億美金投入,可以發現幾十個藥物。但現在面對的都是比較難的疾病,並且現在我們對藥物的療效、副作用減少的要求越來越高,監管要求越來越嚴。
所以10億美金只能發現一個新藥物。如果我們能把新藥研發的造價降低、成功率提升的話,也可以節約研發經費,這個市場是巨大的。
所以AI新藥研發面對的是一個非常廣闊的市場,但大家在憧憬AI可以在新藥發現領域展現巨大作用的同時,還有三個問題要提前考慮:
第一個挑戰,瞭解複雜疾病的困難。例如胃癌,因為胃連線不同器官;
細胞層面上,每個器官有不同細胞進行不同作用,細胞之間通性也是很複雜的網路;
分子層面,細胞裡有各種各樣蛋白質等分子產生相互作用,也形成了很複雜的網路。
所以,如果為一種胃部疾病找合適治療靶點,就需要對整個網路有透徹的瞭解。
需要測量每一個環節、每一個尺度,包括整個機體組織尺度,整個組織的切片,細胞之間如何通訊,如何表達這些基因。甚至要看到細胞裡的蛋白質互相作用,收集這些資料會非常複雜。
例如,需要測量單個細胞基因表達量,蛋白質表達量。甚至還需要同時測量單個細胞基因表達、不同細胞在空間、組織裡面的表達。
第二,對於包括基因層面的基因測序、表觀組,蛋白質表達、蛋白質代謝,組織層面、機理層面等多維度、多尺度的資料,如何進行復雜且多樣化的融合處理。
傳統方式是對每個維度分開分析,再透過人來做整合;現在可以用AI將多尺度、多樣化資料整合。
除了資料多樣性問題,資料量增加也非常快,生物資料每7個月翻一倍。
但是傳統方式分析效率卻不高,所以就需要AI模型用HPC方式,把資料裡有用或微弱的資訊整合。
第三個挑戰,行業配合問題。資料分析與實驗往往是兩波人,他們之間的溝通缺乏一個非常高效的系統,將預測、模型輸出和試驗系統進行整合,加速迭代。
通常情況下,都是資料分析員根據根據已有知識在腦海裡形成假設,然後讓實驗員做實驗;有了資料後,再給資料分析團隊分析,驗證假設是否成立,決定下一次實驗。
整個實驗-資料分析-模型環節比較開環,但不是完全開環,缺少一個非常高效的系統,將預測或模型輸出和實驗系統整合,加速迭代過程。
為了解決這三個挑戰,有必要形成一個AI-實驗的閉環系統,把預測和溼試驗的環節打通到同一個系統。
百圖生科建立了乾溼試驗閉環的高通量平臺,這個平臺在AI模型有一個巨大的場景,可以整合現有的資料,產生異構的、複雜的知識圖譜。
基於知識圖譜可以進行AI模型擬合,或者整合這些資料並且產生預測。例如要探究某個蛋白質是不是某個疾病的靶點,或者我們設計出方案是不是針對這個靶點有效,直接發放給實驗系統,收集到的可能是生物實驗資料,可能是翻譯的資料,甚至是影象資料,很快可以透過AI模型或者計算機視覺方法更新,再進行下一個實驗。
接下來,我再介紹一下AI主要在每個環節可以做什麼,大概分為三部分:
第一,在藥物發現階段找到新靶點;
第二,根據靶點設計新的藥物分子;
第三,在試驗閉環階段進行互動學習。
下面具體列舉幾個案例:
第一個案例,AI找出目標蛋白質,例如在複雜蛋白質相互作用網路,或訊號通路里找出蛋白質。
細胞膜上有很多蛋白質,阻斷或啟用膜蛋白的作用就會產生細胞間的生物作用。而且,每個蛋白質在不同疾病裡,對應蛋白質表達單元也不一樣。
尋找針對某個疾病表現的蛋白質,就需要把得到的細胞基因表達資料、蛋白質表達資料整合到同一網路裡。
過去,有很多生物學家做了這方面研究,模型做得很複雜,將很多複雜的AI模型遷移到生物網路裡。
例如在生物計算領域,蛋白質之間連線產生了非常複雜相互作用網路。
這個網路不單是兩兩蛋白質作用,也可能有三、四個蛋白質相互形成作用。蛋白質又關係到關鍵基因表達,每個節點有非常複雜的屬性,就需要用圖神經網路進行推理。
我們也可以借鑑其他領域的圖神經網路模型,融合在一起學習更好的模型。
圖神經網路是現在比較火的領域,大量搜尋的經驗都可以遷移到靶點發現領域,讓靶點發現變得更有效,融合各種各樣資訊。
第二個案例,AI怎樣針對靶點設計有效藥物。一般藥物都是有機小分子或大分子,或蛋白質或RNA。
所以,設計藥物就要涉及很多小分子性質和大分子結構預測。例如AlphaFold 2可以根據給定序列預測蛋白質結構。
蛋白質的結構對其功能、作用非常關鍵,如果知道蛋白質功能結構就可以更好了解其功能,所以,準確蛋白質結構對設計結構非常關鍵。
除了蛋白質,AI領域還能看到各種各樣搜尋。例如RNA分子二級結構、三級結構,如果AI預測出這些結構對RNA藥物設計也有幫助。
除此之外,各種各樣小分子以及它們的屬性,毒性、水溶性,針對某一個靶點的有效性,也都可以透過AI模型預測。
其實,生物製藥的資料形態與傳統網際網路差異較大,生物製藥資料中很多是圖資料,而傳統網際網路主要以網路資料、人的行為資料為主。
在生物製藥領域,如果想對一張圖結構資料進行預測,或者對生成的小分子、大分子等生物序列比對,就需要各種各樣圖資料模型和VAE模型,甚至還要基於VAE模型學習小分子表徵,進行小分子搜尋和最佳化。
除了預測結構和功能外,AI在小分子性質最佳化上也有很多應用,例如已知一個小分子是潛在藥物,利用AI更高效合成這些小分子,這就涉及到AI模型和博弈數搜尋的結合。
目前,AI在小分子、大分子的應用已經非常完善,AlphaFold2本身就是非常複雜的AI模型。
第三個案例,預測RNA二級結構摺疊,透過RNA序列來預測結構。
我認為RNA藥物未來可能是AI製藥非常好的應用方向。
這是RNA二級結構預測演示,先輸入RNA序列,如果需要預測RNA結構。就要在RNA 序列遠端位點摺疊,使空間上比較接近,位點接近程度用接觸圖表徵。
AI模型可以在其中基於序列輸入預測接觸圖,目前最好的手段就是深度學習,它的完善程度甚至超越了一些計算機視覺類模型。
用AI分析這樣的資料,首先需要對序列分析,例如可以透過自然語言處理模型表徵生物學序列。
這時,Transformer模型預測的是2D的結果,如果要生成影象資料,還需要做卷積神經網路產生特徵,再預測接觸圖。
而且還要考慮結構的限制,AlphaFold 2就是採用類似的策略,這相比傳統模型確實有巨大提高。
實驗和AI模型閉環情況下,除了基因表達資料、蛋白質表達資料之外,AI還可以解決有細胞影象的資料。
細胞影象資料影象可能有六個頻道熒光影象,如何基於熒光影象,描述出微妙的細胞狀態變化,就需要做很多模型開發和設計。
此外,AI還可以提升一些資訊含量比較高的實驗的效率。
第四個案例,有效打標籤。這不止是AI模型問題,也是系統設計的問題,而且也需要專家知識。
往往一開始只能獲得少量精標籤,訓練一個尚可的模型。
但是如果讓這個模型變成更準確的模型,就需要閉環的系統,讓AI模型對大量沒有標籤的影象打標籤,並呈現給無專業背景篩選,再給專家進行精標籤;精標籤打完後,再回流到AI模型更新,進行下一環。
整個過程如果在閉環情況下,就更有可能在少量精標籤情況下,讓模型繼續對大量沒有精標籤的影象打標籤。
此外,AI還可以輸出分割標準,以及選擇什麼樣圖片打標籤,在各個環節都有很多可以做東西,有很多可以提高的空間。
最後總結一下,我們目前面臨的都還是非常複雜的問題,即使有很多觀測手段,收集到大量資料,有如此多的AI模型,也還是杯水車薪。
未來,如何把AI模型、專家知識和實驗手段結合在一起,還需要交叉學科的團隊一起努力,希望感興趣的同學加入這個領域,把生物計算交叉學科研究做得更好。