世界上最大的遺傳學研究鑑定資料庫使科學家能夠訪問NVIDIA Clara Parabricks,以加速推進基因組學和藥物研發領域的發展。
英國生物樣本庫(UK Biobank)透過讓其龐大的資料集和 NVIDIA GPU 加速分析工具在雲上可用,使科學家能夠訪問更多高質量基因組資料和分析。
英國生物樣本庫是一個大規模的生物醫學資料庫和研究資源平臺,擁有來自英國各地超過50萬名參與者的去標識化基因資料集以及醫學成像和病例資料,使用者涵蓋全球範圍內25,000多名註冊研究員。
再生元遺傳學研究中心(Regeneron Genetics Center)是生物技術領軍企業 Regeneron 的高通量測序中心。該中心最近與英國生物樣本庫合作,對所有生物庫參與者的外顯子組(基因組蛋白質編碼部)進行了測序和分析。
Regeneron 的團隊在外顯子組測序流程中採用了 NVIDIA Clara Parabricks,這是一款對下一代測序資料進行二級基因組分析的軟體套件。
英國生物樣本庫已經發布了45萬個此類外顯子組,以供獲批的研究人員使用,如今還透過其基於雲的研究分析平臺,為科學家提供六個月免費使用 Clara Parabricks 的機會。此研究分析平臺是由生物資訊學平臺 DNAnexus 開發的,讓科學家能夠在 AWS雲中使用運行於 NVIDIA GPU 之上的 Clara Parabricks 。
英國生物樣本庫副執行長 Mark Effingham 博士表示:“正如 Regeneron 所展示的那樣,使用 Clara Parabricks 的 GPU加速,可實現大規模處理基因組資料集時所需的吞吐量、速度和再現性。英國有許多研究團隊都非常希望能夠在我們的平臺上使用這些加速功能,以獲取廣泛的資料集。"
Regeneron的外顯子組研究藉助Clara Parabricks加速
Regeneron 的研究員使用 NVIDIA Clara Parabricks 的 DeepVariant Germline Pipeline ,藉助專門針對該遺傳中心工作流程的模型來執行分析。
研究人員確定了1200萬個編碼變體和數百個與健康相關的基因,某些基因與肝病和眼病的風險增加有關,而其他基因則與糖尿病和哮喘的風險降低有關。
研究人員用於高質量變異體檢測的獨特工具集可透過研究分析平臺(Research Analysis Platform)提供給英國生物樣本庫的註冊使用者,進而使科學家能夠透過執行用於生成初始參考資料集的生物資訊學管道,將自己的外顯子組資料與來自英國生物樣本庫的測序外顯子組資料相協調。
基於雲的平臺可提高訪問的公平性
研究人員在破譯人類以及感染人類的病毒和細菌的基因密碼時,往往會受制於自身可用的計算資源。
英國生物樣本庫正在透過向全球科學家開放其資料集,實現訪問的民主化,重點是進一步擴大處於職業生涯早期以及中低收入國家的研究人員使用的範圍。研究人員無需下載這一巨大的資料集,透過網路瀏覽器進入英國生物樣本庫的雲平臺,就能在自己的計算資源上使用。
Effingham 說道:“有研究員和臨床醫生與我們聯絡,他們希望訪問英國生物樣本庫的資料,但卻苦於連處理小規模資料所需的基本計算能力都不具備。而基於雲的平臺則能夠提供訪問大規模外顯子組測序和全基因組測序分析所需的世界級技術。”
Effingham 表示,使用該平臺的研究員只需支付自身分析的計算成本、以及儲存生物樣本庫PB級資料集生成的新資料的費用。
在 DNAnexus 平臺上使用 Clara Parabricks 有助於減少這種基因組分析的時間和成本,在5分鐘內就能完成在32-vCPU機器上需要花費一小時計算的全外顯子組分析,同時也能降低大約40%的成本。
外顯子組測序為精準醫療提供洞察
對於研究遺傳學和疾病之間聯絡的研究員,外顯子組測序是一個重要的工具,而英國生物樣本庫的資料集就包含近50萬參與者的外顯子組。
外顯子組約佔人類基因組的1.5%,由所有已知的基因及其調控因子組成。透過研究大量人群的外顯子組遺傳變異,科學家可以更好地瞭解人群結構劃分,幫助研究員解決進化問題並探究基因組的工作原理。
利用像英國生物樣本庫這樣的大規模資料集,還能確定與遺傳疾病相關的特定基因變異,包括心血管疾病、神經退行性疾病和某些癌症。
Effingham 表示,外顯子組測序甚至還能揭示潛在的遺傳驅動因素,這些因素可能會增加或減少個人因COVID-19感染而患嚴重疾病的風險。隨著疫情的持續,英國生物樣本庫正在向其資料庫中新增COVID病例的資料、疫苗接種狀態、醫學成像資料、以及數千名參與患者的愈後情況。