sponsored links

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller

單核苷酸多型性(SNP)和插入/缺失(InDel)是人類基因組中最常見的兩種遺傳變異型別。在利用新一代高通量測序資料研究基因組變異和基因組功能時,SNP和InDel的檢測基本檢測專案。目前,已有多種不同演算法可用於短讀長測序資料中的SNP和InDel分析。但由於這些方法是針對短讀長測序資料開發的,因此在錯誤率高的長讀長測序資料上不能很好地執行。此外,短讀長測序固有的技術限制使得短讀長測序資料不能用於複雜或重複基因組區域的SNP和InDel檢測。

與短讀長測序技術相比,長讀長測序技術成本更低,reads長度更長,可以克服短讀長測序無法解決的多個挑戰性問題,已成功用於對不同物種的基因組進行測序。但與短讀長測序資料相比,長讀長測序的精準度較低,檢測錯誤率也更高。有研究表明,利用基於深度學習的演算法,在長讀長測序資料上可以精確檢測變異。根據單倍型資料的分階段比對可提高變異識別的準確性,現有的三種演算法(DeepVariant、Clairvoyante和Clair)在短讀長和長讀長資料上都能很好地執行單倍型資料比對,但這些演算法在SNP檢測中都忽略了來自遠端單倍型SNP的重要資訊。

近日,費城兒童醫院王凱教授團隊開發了一種新的深度學習演算法--NanoCaller,可充分利用長讀長測序在基因組區域中檢測變異,並在Genome Biology上發表了題為“NanoCaller for accurate detection of SNPs and indels in difficult-to-map regions from long-read sequencing by haplotype-aware deep neural networks”的研究文章。NanoCaller可利用單倍型資訊檢測SNP,使用稱為SNP的長reads進行定相,並透過區域性重新排列檢測InDel。研究團隊利用NanoCaller檢測了一個被廣泛使用的基準基因組中的41個全新變體,這是此前其他方法無法實現可靠檢測,有助於從長讀長測序中發現複雜基因組區域的新變體。

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller


文章發表在Genome Biology上

NanoCaller是將長讀長測序資料與參考基因組的比對作為輸入,根據指定的最小覆蓋率閾值和替代等位基因頻率閾值或插入/刪除頻率閾值選擇候選SNP或InDel位點(圖1)。

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller


圖1. NanoCaller原理概述。來源:Genome Biology

為評估NanoCaller的效能,研究團隊將NanoCaller在牛津奈米孔測序資料中的變異檢測效能與Medaka、Clair 和 Longshot這三種現有演算法進行了比較。跨基因組分析對於證明變異檢測演算法的效能至關重要,將基於變異檢測演算法的機器學習模型在一組基因組上進行訓練,並在其他基因組進行測試。結果顯示,NanoCaller獲得的F1-score高於其他三個演算法,表明NanoCaller的效能優於其他演算法。(圖2a,b;F1-score經常被用來判斷演算法的精確度,能同時考慮精確率和檢測率)

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller


圖2. NanoCaller 和其他演算法在10個牛津奈米孔測序資料集中的效能。來源:Genome Biology

隨後,研究團隊將NanoCaller在PacBio測序reads資料上的變異檢測效能與三種現有演算法進行了比較。結果顯示,NanoCaller的表現(圖3)優於其他三個演算法,顯示出更強的競爭力。

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller


圖3. NanoCaller和其他演算法在10個PacBio資料集上的效能。來源:Genome Biology

研究團隊還分析了NanoCaller在特定基因組上進行的SNP呼叫效能。透過分析Sanger測序結果,研究人員確定了41個全新變異(25個SNP、10個插入和6個缺失)。基於41個新變異,透過不同演算法進行了變異識別評估,以瞭解更準確的長讀長測序如何改善變異識別。結果顯示,NanoCaller能夠正確識別20個SNP,6個插入和2個缺失,其中10個SNP和1個缺失未被其他演算法正確檢測到。這可能是由於NanoCaller獨特的單倍型識別功能,以上結果證明了NanoCaller對SNP檢測的強大效能。

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller


圖4. NanoCaller檢測到的新變異。來源:Genome Biology

對於NanoCalle在InDel檢測方面的效能,研究發現NanoCalle可以檢測到無法被短讀長測序檢測到的變異。結果顯示,NanoCaller在chr9:135663805處檢測到缺失,其他演算法在chr9:135663799處檢測到缺失。如圖6a所示,與幾乎沒有證據支援缺失變異的短讀長測序資料相比,NanoCaller可提供缺失變異的準確資訊。

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller


圖5. 新缺失變異檢測。來源:Genome Biology

總之,該研究展示了一種深度學習演算法——NanoCaller,將單倍型結構整合到深度卷積神經網路中,用於長讀長測序資料檢測SNP,並使用多序列比對重新檢測插入缺失候選位點。與其他長讀變異檢測演算法相比,NanoCaller更具有競爭力,並且可以在複雜的基因組區域中檢測SNP/InDel,有望促進發現更多新的遺傳變異。

參考資料:

Ahsan, M.U., Liu, Q., Fang, L. et al. NanoCaller for accurate detection of SNPs and indels in difficult-to-map regions from long-read sequencing by haplotype-aware deep neural networks. Genome Biol 22, 261 (2021). https://doi.org/10.1186/s13059-021-02472-2

分類: 科學
時間: 2021-09-22

相關文章

十大值得關注的深度學習演算法
預測未來不是魔法,而是人工智慧.毋庸置疑,人工智慧的風頭正勁,每個人都在談論它,無論他們是否理解這個術語. 據研究人員和分析師稱,到 2024 年,數字助理的使用率預計有望達到 84 億.超個性化.聊 ...

國外AI工程師講述:深度學習與目標檢測,理論和實踐果然兩碼事

國外AI工程師講述:深度學習與目標檢測,理論和實踐果然兩碼事
背景故事 2018 年,當時我在工廠實習,我開始研究目標檢測技術,因為我需要解決視覺檢測問題. 這個問題需要在來自工業相機的影象流中檢測許多不同的物體目標. 為了應對這一挑戰,我首先嚐試將分類與滑窗法 ...

電力系統深度學習的技術,量子蟻群網路的特高壓輸電線損預測方法

電力系統深度學習的技術,量子蟻群網路的特高壓輸電線損預測方法
隨著電力系統的規模迅速擴大,其網路的結構趨於複雜,給理論電網損耗計算帶 來了困難:同時電網計量自動化系統的應用增強了電網的監控能力,電網公司可以較方便 地採集到用於電網損耗理論計算的各種資料.目前所使 ...

百度公開“高精地圖的生產方法”專利,涉及AI自動駕駛和深度學習

百度公開“高精地圖的生產方法”專利,涉及AI自動駕駛和深度學習
北京百度網訊科技有限公司日前公開"高精地圖的生產方法.裝置.裝置和計算機儲存介質"專利,申請日期為2021年6月8日,申請公佈號CN113409459A. 天眼查App顯示,該專利 ...

教師善用策略促進幼兒深度學習
專案式學習雖然是實現幼兒深度學習的有效策略,但並非所有的專案式學習都能達到深度學習的效果.在開展專案式學習的過程中,教師常常遇到以下問題:找不到專案的問題線索怎麼辦?幼兒提出了這麼多問題,如何選擇?活 ...

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳
機器之心專欄 作者:OPPO TECH 室內環境的自監督深度估計向來比室外環境更具挑戰性,OPPO提出了一種新穎的單目自監督深度估計模型:MonoIndoor,透過深度因子化模組和殘差姿態估計模組,提 ...

遺傳變異導致孤獨症研究獲進展

遺傳變異導致孤獨症研究獲進展
中國科學院腦科學與智慧技術卓越創新中心(神經科學研究所).神經科學國家重點實驗室.中科院靈長類神經生物學重點實驗室.上海腦科學與類腦研究中心仇子龍研究組與陳躍軍研究組,以及上海交通大學附屬上海市精神衛 ...

李飛飛團隊建立深度學習「遊樂場」:AI也在自我進化,細思極恐

李飛飛團隊建立深度學習「遊樂場」:AI也在自我進化,細思極恐
來源:Stanford 編輯:好睏 瘦瘦 [新智元導讀]近日,斯坦福李飛飛教授等人的研究「深度進化強化學習」登上nature子刊,首次證明了「鮑德溫效應」.或許,機器人形態的設計也可以透過一波「進化」 ...

視網膜AI落地應用按下“加速鍵”

視網膜AI落地應用按下“加速鍵”
研究團隊開展了一項全國性研究,使用來自16傢俱有不同疾病分佈.不同級別的醫療機構的20餘萬張視網膜影象,訓練出了可同時識別14種常見眼底異常的AI視網膜多病種輔助診斷系統(以下簡稱"系統&q ...

超級計算機:從零起步贏得速度、應用“雙優勢”
超級計算機: 從零起步贏得速度.應用"雙優勢" 本報記者 過國忠 通訊員 段 芳 楊廣文 國家超級計算無錫中心主任 高效能超級計算機,是世界發達國家爭搶的重要"制高點&q ...

鷹瞳科技透過聆訊:主打AI視網膜影像識別,Q1營收增長超9倍

鷹瞳科技透過聆訊:主打AI視網膜影像識別,Q1營收增長超9倍
"醫療AI第一股." 本文為IPO早知道原創 作者|Stone Jin 據IPO早知道訊息,北京鷹瞳科技發展股份有限公司(以下簡稱"鷹瞳科技")日前已透過港交所 ...

華為全場景智慧光儲,共建綠色美好未來
一場以智慧化.數字化為標誌的新能源產業大潮正在到來,這是一場以新能源行業為底數,數字技術為指數的冪次方革命. 2021年10月6-8日,全球迄今為止規模最大.影響最深的太陽能專業展覽交易會Inters ...

高畫質音質超長待機 清微智慧推出藍芽SOC TX231 全球首款整合獨立NPU

高畫質音質超長待機 清微智慧推出藍芽SOC TX231 全球首款整合獨立NPU
未來 3 年,全球TWS耳機市場將持續以 30% 的增速快速增長,對於產業上下游來說,這是一個誰都不敢輕易忽視的市場. 作為TWS耳機的最主要的元器件,主控晶片承擔著耳機無線連線.音質.電源.控制等所 ...

手機拍照“神仙打架”背後,廠商死磕計算攝影到底在比什麼?

手機拍照“神仙打架”背後,廠商死磕計算攝影到底在比什麼?
智東西(公眾號:zhidxcom) 作者 | 雲鵬 編輯 | 漠影 如果非要在當下旗艦智慧手機大戰中選一個最重要的比拼焦點,那大機率是拍照. 在iPhone帶火了智慧手機計算攝影浪潮後,經過十幾年發展 ...

從消費旅程,洞察新零售模式之案例分析(二)

從消費旅程,洞察新零售模式之案例分析(二)
編輯導語:宜家創立已久,並且逐漸形成了一套獨特且有效的新零售模式,在提升消費者體驗的同時,也拉動了最終的增長.那麼,宜家的商業模式有哪些可以借鑑複用的地方?本篇文章裡,作者從消費者旅程節點出發,對宜家 ...

攜手共築 數智未來 大華股份AI取得新突破

攜手共築 數智未來 大華股份AI取得新突破
近日,大華股份基於深度學習演算法的目標檢測技術,重新整理了MSCOCO(Microsoft COCO: Common Objects in Context)資料集中通用目標檢測任務的全球最好成績,關鍵 ...

一起了解下人工智慧聲音克隆技術和應用前景

一起了解下人工智慧聲音克隆技術和應用前景
聲音克隆是一種深度學習演算法,可以對目標聲音的未排序資料進行訓練,最終以簡單快速.容易的方式,生成一段完整的音訊.人們將克隆的音訊從裝置中匯出時,音色和音質幾乎不會受到壓縮和影響.主流的聲音克隆演算法 ...

同學們開發出了預測演算法碳排放量的工具

同學們開發出了預測演算法碳排放量的工具
在日常生活中,我們大多數人都在不知不覺中與一種先進的人工智慧方法--深度學習親密接觸: 當我們使用Siri或Alexa時:當Netflix根據我們的觀影歷史建議電影和電視節目時:或者當我們與網站的客戶 ...

2021年中國人工智慧在工業領域的應用研究(附PDF免費下載)

2021年中國人工智慧在工業領域的應用研究(附PDF免費下載)
概覽摘要 人工智慧(AI)技術,指利用計算機程式使人造機器呈現類人類智慧的技術.基於實現功能,人工智慧技術可分為訓練層.感知層及認知層,分別模擬人類學習能力.資訊獲取能力及邏輯推演能力.由於工業細分行 ...