此處展示的結果由第三方建立、彙編和創作,該第三方可能將Oxford Nanopore Technologies的產品用於研究目的或提供測序服務。有關此處所述結果的任何問題或疑慮應傳送至該第三方。
在12月結束的奈米孔科研團體大會中,Oxford Nanopore Technologies 釋出了一系列全新產品,以及針對準確性的技術更新。本文中,我們為大家帶來了最新的使用者實測資料,以及奈米孔技術提升在作物參考基因組研究方面的進展。
您也可以透過以下文章,回顧奈米孔科研團體大會中的技術及產品更新:
NCM大會技術升級更新—準確率
NCM大會技術升級更新—釋出新一代測序儀P2
在這篇博文中,來自荷蘭KeyGene(科因)的客座作者Alexander Wittenberg介紹了他在使用奈米孔測序改進作物參考基因組組裝方面的工作。您可以在本篇文章中瞭解Alexander的團隊是如何利用針對植物資料最佳化的鹼基識別模型和最新的試劑盒12系列(包含Q20+化學試劑--生成的單鏈原始資料準確率眾數可達99.3%),生成較以往任何時候都更為完整、更準確的參考基因組。您也可以透過文末的連結獲得KeyGene為擬南芥(哥倫比亞生態型)和番茄(亨氏1706)生成的公開組裝和原始資料。
作物參考基因組可以加快品種開發
置身於作物改良技術創新的前沿,荷蘭KeyGene的科學家的一個重點關注方向是透過培育病原體耐受性、延長保質期、及改善口感和顏色等性狀來改良作物。
基因組測序已成為植物育種研究不可或缺的工具,透過測序可以在揭示單個品種精確到核苷酸級的遺傳變異。透過使用參考基因組獲得的見解,可以更好、更快地選擇培育過程中的重要培育性狀,從而更快地將新品種推向市場。
在生成參考基因組方面,準確性(Correctness)、完整性(Completeness)、連續性(Contiguity)、成本(Cost)(也稱為4C)至關重要。高連續性(如端粒到端粒)和完整性已經可以透過分離高分子量(HMW)基因組DNA,並結合使用(超)長Oxford Nanoporee1測序獲得。
直到最近,獲得足夠高的植物基因組共有序列準確度仍需要短讀長測序或PacBio HiFi讀長序列。隨著Q20+化學試劑和新型奈米孔晶片(R10.3和R10.4)的推出,已有科學家展示了透過僅使用奈米孔資料2來獲得近乎完美的細菌基因組。在KeyGene,我們評估了這些新型奈米孔和化學試劑,用以提高僅使用奈米孔資料生成的生菜和甜瓜基因組組裝的共有序列準確度。我們還評估了經過植物資料訓練的鹼基識別模型對準確度和連續性的影響。最後,我們評估了高度準確的雙鏈(duplex)共有序列,並在組裝質量指標上獲得了的顯著改進。
實驗設計和結果
KeyGene設計和使用的工作流程在一週內生成了僅使用奈米孔資料的作物參考基因組(圖1)。我們優化了針對多種物種最佳化提取HMW DNA的方法,使用經過植物資料訓練的鹼基識別工具,以及快速、最先進的從頭組裝和註釋分析流程。
圖1:在一週內完成從收穫葉片樣本到生物資訊分析的工作流程概述。
經過植物資料訓練的鹼基識別工具
植物DNA與人類和細菌DNA有著巨大的差異,植物的高丰度鹼基修飾和更高的多樣性,均會對鹼基識別的準確性產生負面影響。為了解決這一問題,我們與Oxford Nanopore Technologies合作,透過使用玉米(B73)資料來強化現有的鹼基識別模型,開發了一個可用於Q20+化學試劑、並經過植物資料訓練的鹼基識別工具。公開的金標準參考基因組B73 REFGEN_v5(https://nam-genomes.org/)被視為基準真相。
使用玉米、生菜和甜瓜,KeyGene對改進後的模型進行了驗證(圖2)。正如預期,鹼基識別最大的改進出現在玉米資料中,但在其他兩種(進化角度上高度趨異的)作物的測序資料中也可以觀察到鹼基識別方面的重大改進。
圖2:使用R10.3奈米孔對照金標準參考基因組進行識別比對的百分比中位數。
生菜和甜瓜參考基因組
KeyGene的團隊使用高產量、高通量的PromethION平臺對一個生菜系進行了全基因組測序。使用最新的Q20+化學試劑和R10.3奈米孔,以及經植物資料訓練後的鹼基識別工具,共獲得了約75X的基因組覆蓋度,原始讀長N50為50 Kb。KeyGene使用自有開發的計算工具進行了從頭組裝,並將其與基於PacBio HiFi的組裝進行了比較(表 1)。
表1:使用Oxford Nanopore Technologies資料與PacBio Hifi資料對生菜基因組進行組裝的引數比較
與KeyGene在2018年使用R9.4.1奈米孔晶片生成的同系參考基因組相比較,KeyGeneSTL組裝工具生成的參考基因組連續性提高了8倍3,與PacBio HiFi組裝相比,連續性高4倍。Contig(重疊群)數量從依據公開參考基因組4生成的153952個大幅下降到目前僅用奈米孔資料生成的組裝的159個。在共有序列準確度方面,僅使用奈米孔資料的組裝與基於PacBio HiFi的組裝相當,且在資料採集後30小時內便獲得了該組裝。
擁有網狀綠色和米色外皮、美味香甜橙色果肉的甜瓜(Cucumis Melo var. cantalupo)是最受歡迎的消費種類之一。我們使用R10.4奈米孔晶片和Q20+化學試劑,生成了169 Gb的奈米孔單鏈(simplex)資料集,原始讀長N50為31 KB。從該資料集中,我們可以提取出16 Gb 原始眾數讀長準確度為99.9%的雙鏈(duplex)共有序列資料。單鏈和雙鏈奈米孔讀長序列的從頭組裝由生信工具Flye5和Keygene的STL組裝工具生成。其結果與Hifiasm6組裝工具生成的基於HiFi的組裝相當(表2)。
表2:Oxford Nanopore單鏈(20X覆蓋度)和雙鏈(35X覆蓋度)甜瓜組裝與基於Hi-Fi(20X覆蓋度)組裝的引數比較
資料表明,與基於HiFi的類似基因組覆蓋度的組裝相比,所有僅使用奈米孔資料的組裝在連續性上都有所提升(N50指數≤9)。關於共有序列準確度,僅使用奈米孔資料的Flye組裝可獲得類似甚至更好的準確度。這些結果展示了納米孔資料優勢的提升,可用於生成高度準確且連續的植物參考基因組,而無需額外的測序資料。
資料釋出
結合上述工作,KeyGene公司將最新的化學試劑和鹼基識別改進應用在了另外兩種植物物種上:1)擬南芥(哥倫比亞生態型)和2)番茄(亨氏1706);資料集特點的總結請參見表3。有關這些資料集的完整詳細資訊,包括下載位置和實驗方法,請參閱文末的連結。
表3:KeyGene生成併發布的擬南芥(哥倫比亞生態型)和番茄(亨氏1706)的資料集
在這裡,我們首次展示了使用經過植物資料訓練的鹼基識別模型來獲得僅使用奈米孔資料的參考作物基因組,其具有出色的連續性和準確性,從而降低了生成參考級質量基因組需要多種技術的要求。
目前發展的重點是提高雙鏈讀長序列的百分比和長度,以及進一步提高鹼基識別的速度。在不久的將來,透過增加更多的原始植物資料資訊,經過植物資料訓練的鹼基識別工具將得到進一步改善。從資料分析的角度看,KeyGene正專注於僅使用Oxford Nanopore Technologies平臺得到資料來獲得端粒到端粒的作物基因組組裝,並實現雜合和多倍體基因組的完整定相7,8。
我們對未來感到十分興奮,並且堅信,這一組裝質量指標的大幅提高將為普及在作物改良中使用快速、低成本和易於使用的奈米孔平臺進行基因組測序鋪平道路。
更多資訊
KeyGene是奈米孔測序的商業服務提供商以及Oxford Nanopore服務提供商計劃的付費成員。如想了解有關他們服務的更多資訊,請參閱此處:
https://nanoporetech.com/services/providers#tabs-0=KeyGene
Alexander畢業於荷蘭瓦格寧根大學(Wageningen University),獲得植物育種和作物保護理學碩士學位,並在植物育種實驗室獲得博士學位。2007年,他加入了KeyGene——一家領先的植物生物科技公司,擔任基因組學科學家,最初在那裡致力於開發和應用創新的分子標記方法。Alexander在下一代測序領域積累了豐富的經驗,並在各種平臺和應用領域擁有豐富的專業知識。目前,他負責探索新技術,並參與KeyGene的Genome Insights(基因組洞察)作物創新平臺中基於測序的創新技術的開發。除了專注於創新之外,他還與研發部門和業務拓展部門密切合作,為KeyGene的合作伙伴將這些技術轉化用於農業生物科技市場。
透過Nanopore商店購買R10.4測序晶片或Q20+測序試劑盒:
https://store.nanoporetech.net
訪問KeyGene網站:
https://www.keygene.com/
閱讀有關KeyGene資料集釋出的更多資訊:https://www.keygene.com/news-events/fast-contiguous-and-accurate-arabidopsis-col-0and-tomato-heinz-1706-genome-assembly-thanks-to-new-chemistry-nano-pores-and-plant-trained-basecaller/
瞭解更多有關Q20+化學試劑的資訊:https://nanoporetech.com/q20plus-chemistry
觀看Alexander的NCM21演講:
https://v.qq.com/s/videoplus/815549654
參考資料
1.Closing the gap in plant genomes white paper
https://nanoporetech.com/resource-centre/closing-gap-plant-genomes-white-paper (2021).
2.Oxford Nanopore R10.4 long-read sequencing enables near-perfect bacterial genomes from pure cultures and metagenomes without short-read or reference polishing.
bioRxiv:
https://www.biorxiv.org/content/10.1101/2021.10.27.466057v2(2021).
3. The tip of the iceberg — Sequencing the lettuce genome
https://nanoporetech.com/resource-centre/tip-iceberg-sequencing-lettuce-genome
4.Sebastian Reyes-Chin-Wo, Zhiwen Wang, Xinhua Yang, et al. Genome assembly with in vitro proximity ligation data and whole-genome triplication in lettuce.
Nature Communications:
DOI:https://doi.org/10.1038/ncomms14953 (2017).
5.Mikhail Kolmogorov, Jeffrey Yuan, Yu Lin and Pavel Pevzner, "Assembly of Long Error-Prone Reads Using Repeat Graphs".
Nature Biotechnology:
DOI:10.1038/s41587-019-0072-8 (2019).
6.Cheng, H., Concepcion, G.T., Feng, X., Zhang, H., Li H. Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm. Nat. Methods: 18:170-175.
https://doi.org/10.1038/s41592-020-01056-5 (2021).
7.Phased Genome Sequencing “Opportunities for more effective crop breeding”; Prophyta annual (2020).
8. Thomas W. Wöhner, Ofere F. Emeriewen, Alexander H.J. Wittenberg et al. The draft chromosome-level genome assembly of tetraploid ground cherry (Prunus fruticosa Pall.) from long reads.
Genomics.:
https://doi.org/10.1016/j.ygeno.2021.11.002 (2021).