博雯 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
直接從基因層面預測疾病,這一直是近現代醫學研究的主要方向之一。
然而,全體人類的基因變異體數量遠超現有的探測技術,甚至僅僅是不同個體的蛋白質區編碼也會展現出巨大的差異性。
因此,超過98%的基因變異給人體帶來的影響依舊是未知且無法預測的。
但最近,來自哈佛醫學院和牛津大學的科學家合作開發了一種AI模型,成功預測了3219個疾病基因中超過3600萬個變體的致病性,並將超過25萬個未知變體進行了歸類。
這項研究現已登上Nature。
“從進化中預測致病性”
其實,現在臨床上已有用於預測基因變異影響的模型。
但這些模型往往是在經過標註的臨床資料集上進行有監督學習,一旦進入現實場景,標籤偏差、標籤稀疏以及噪音就會造成其準確率的下降,並不能作為基因變異體分類的可靠依據。
而這次的研究團隊提出了一個叫做EVE(Evolutionary model of Variant Effect)的模型。
這是一個僅根據進化序列訓練的無監督生成模型。
模型預測變異基因的致病性主要分為兩步:
第一步,使用變型自動編碼器VAE來學習蛋白質的氨基酸序列分佈。
學習了多個領域的複雜高維分佈之後,模型就捕捉到了進化過程中的自然序列約束,包括各種位置之間的複雜依賴關係。
再從得到的近似後驗分佈(Approximate Posterior Distribution)中取樣,評估每個單一氨基酸變體相對於野生型的相對可能性。
這種相對可能性被稱為“進化指數”,與臨床標籤進行比較後發現,區分致病性和良性標籤的數值在不同的蛋白質中是一致的,這說明無監督的方法能夠有效推斷致病性。
第二步,在所有單一氨基酸變體的進化指數分佈上擬合了一個雙組分(two-component)的全域性-區域性高斯混合模型。
這一步的輸出是在區間[0,1]內定義的連續致病性值,0代表良性,1代表致病性。
然後將EVE模型運用於ClinVar資料庫中的3219個人類基因上,得到的結果圖中的平均曲線面積(AUC)為0.91,說明EVE模型對絕大多數的基因變異都能做到具有臨床意義的預測:
優於已知模型,與實驗預測效果一致
研究團隊也將EVE模型與已知的模型進行了對比,可以看到,在預先確定已知的已標註臨床資料的預測上,其效果優於同類計算模型:
那麼這樣一個AI計算模型與用於預測致病性的經典方法——深度突變掃描實驗(Deep Mutational Scan Experiment)相比效果又如何呢?
對比實驗後可以看到,EVE模型在臨床預測方面的總體表現與經典方法效果基本一致:
而當從ClinVar資料庫中選擇一組數量規模更大,但高質量標註較小的資料時,EVE模型的表現甚至更好:
哈佛&牛津合作出品
這篇論文有三位共同一作,其中Jonathan Frazer和Mafalda Dias都來自哈佛大學的系統生物學,他們同時也是Marks Group實驗室中的一員。
而Pascal Notin則是來自牛津大學的計算機科學專業的博士生,主要研究領域包括貝葉斯深度學習、生成模型、因果推理和計算生物學的交叉領域。
論文連結:
https://www.nature.com/articles/s41586-021-04043-8
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態