近年來,全外顯子測序(WES)和全基因組測序(WGS)的發展使遺傳病診斷率得以提高。但基於基因組的罕見遺傳病診斷需要在約400萬個良性變異中確定一個假定的致病變異,這如同大海撈針。
基因組註釋過程包括變異篩選以及對候選致病變異的循證評估,必須由基因組分析員、遺傳顧問等研究人員手動完成,每位患者需要評估約100個變異,這意味著研究人員需要耗費50-100個小時。雖然隨著科技水平發展出現的各種演算法加快了評估時間,但由於無法正確解讀結構變異(SV),都不足以廣泛應用於臨床。SVs佔遺傳病的10%以上,找到對SVs進行優先解讀的統一方法是對基因組註釋進一步自動化的基本要求。
近日,Fabric Genomics Inc的Mark Yandell研究團隊聯合Martin G. Reese研究團隊,開發了一種用於快速基因組註釋的臨床決策支援工具——Fabric GEM,並在Genome Medicine上發表了題為“Artificial intelligence enables comprehensive genome interpretation and nomination of candidate diagnoses for rare genetic diseases”的研究文章。GEM是一種新型的基於人工智慧的臨床決策支援工具。研究團隊在回顧性佇列中對GEM進行的基準測試顯示,GEM能將90%以上的致病基因排在優先候選基因中,幾乎囊括了所有變異型別。此外,結合深層表型分析發現,GEM可以實現快速、準確、全面地基於WGS和WES資料進行診斷,有效降低了成本並加快變異評估。
文章發表在Genome Medicine
為了對GEM進行了基準測試,研究團隊招募了119名重症遺傳病患兒和60名罕見病患者,分別組成基準佇列以及驗證佇列。在基準佇列中,GEM將97%的致病基因和變異排在前10個候選基因中(圖1A)。相比之下,現有的先進演算法Phevor在前10個候選基因中僅識別出73%的變異。在驗證佇列中,GEM的診斷效能幾乎與基準佇列中的相同(圖1B)。上述研究資料表明,GEM的診斷性不依賴於疾病嚴重程度、發病年齡、基因組測序或變異檢測方法。
圖1. GEM 的診斷敏感性高於變異優先排序演算法。來源:Genome Medicine
臨床自然語言處理(CNLP)可以從病歷記錄中自動提取患者的臨床特徵。研究團隊比較了CNLP提取的表型和人工提取的表型對GEM效能的影響。GEM分數是貝葉斯因子,與似然比檢驗類似,貝葉斯因子表示兩個模型的後驗機率之間的對數比。研究發現,CNLP表型的GEM分數高於人工表型(圖2B),表明CNLP表型描述的GEM表現相較人工表型更具優勢。
圖2. 在基準佇列中,人工提取和CNLP提取的表型對GEM效能的影響。來源:Genome Medicine
鑑於CNLP表型描述的特異性較差,研究團隊將CNLP提取的表型進行隨機排列,並在佇列中按表型頻率加權,以檢測GEM對錯誤表型的敏感性。值得注意的是,即使使用隨機排列的表型描述,GEM的效能仍然超過使用正確表型的Phevor和Exomiser,表明GEM對錯誤表型具有彈性。此外,研究團隊還從關鍵臨床資料庫ClinVar中提取註釋,評估了臨床知識差距對GEM效能的影響。結果顯示,ClinVar為GEM提供了有價值的資訊。同時,即使沒有ClinVar,GEM對變異的識別率(88%)仍然超過了Phevor(72%)和Exomiser(65%)(圖3)。以上研究結果表明,在GEM中整合更多的資料型別可以提高診斷效能和穩定性。
圖3. 缺失資料和錯誤表型對基準佇列中GEM效能的影響。來源:Genome Medicine
為了解GEM在缺乏父母資料的情況下的表現,研究團隊將基準佇列中的63例父母子女組和單例先證者組重新進行分析。令人驚訝的是,研究團隊觀察到因果基因的平均等級(圖4A)和GEM分數(圖4B)之間的差異並不明顯(圖4C),表明即使缺乏父母基因型,GEM依然能保持良好效能,這有助於減少不必要的測序,減輕患者治療負擔。
圖4. GEM對父母子女和單先證者的診斷效能相當。來源:Genome Medicine
研究團隊還評估了不同GEM分數閾值對基準佇列中識別率(真陽性率)和候選基因的影響(圖5)。在基準佇列中,GEM因果基因分數閾值≥ 0保留了10個候選基因,識別率達到99%;GEM因果基因分數閾值≥ 0.5時則保留了4個候選基因,識別率依然能達到97%。上述研究結果表明,使用GEM基因分數進行病例回顧的分層方法可以最大限度地減少候選基因的數量,從而減少手動註釋工作。
圖5. GEM效能最佳化於病例評估工作流程。來源:Genome Medicine
此外,研究團隊還對GEM進行條件匹配(CM)評分,來量化患者中觀察到的表型與候選基因相關孟德爾條件的預期表型的匹配程度。結果表明,將GEM CM評分和因果基因評分相結合,可以在多個候選基因中確定特定的遺傳病診斷(圖6)。同時,研究團隊透過GEM基因評分閾值≥ 0.69來識別候選基因,相關CM得分可以將與候選基因相關的疾病進行排序(圖6A)。由此可見,與人工提取的表型相比,CNLP提取的表型能更好地識別變異和診斷疾病。
圖6. 基準佇列中診斷候選 GEM 條件匹配分數的表現。來源:Genome Medicine
綜上所述,GEM透過自動提取最少的候選基因和候選疾病以供專家手動評估,幫助實現所有變異型別的快速診斷。此外,結合CNLP的深度表型分析,GEM實現了遺傳疾病診斷的實質性自動化,降低了診斷成本並加快變異評估。
文章連結:
https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-021-00965-0