近日,GPB線上發表了西南民族大學青藏高原動物遺傳資源保護與利用(四川省、教育部)重點實驗室題為“GAPIT Version 3: Boosting Power and Accuracy for Genomic Association and Prediction”的軟體文章,我們的“要文譯薦”欄目很高興邀請到西南民族大學王嘉博博士和美國華盛頓州立大學張志武教授共同為大家系統介紹該全基因組關聯分析與預測軟體的具體情況。
要點介紹
研究問題:
全基因組關聯分析與預測軟體(GAPIT version 3)的構建。
研究背景:
GAPIT是一款基於R語言平臺編譯,整合了多種全基因組關聯分析和全基因組選擇新演算法,集輸出相關圖形、表格於一身的免費軟體。全基因組關聯分析包括一般線性模型(General Linear Model, GLM);混合線性模型(Mixed Linear Model, MLM);壓縮式混合線性模型(Compressed Mixed Linear Model, CMLM);改進版壓縮式混合線性模型(Enrichment CMLM, ECMLM);快速式混合線性模型(Fast-LMM);快速選擇式混合線性模型(Fast-LMM-Select);逐步排它性混合線性模型(Settlement of MLMs Under Progressively Exclusive Relationship, SUPER);多位點混合線性模型(Multiple Loci Mixed Model, MLMM);固定隨機模型迴圈機率模型(Fixed and random model Circulating Probability Unification, FarmCPU);和貝葉斯資訊與連鎖不平衡迭代巢狀式模型(Bayesian-information and Linkage-disequilibrium Iteratively Nested Keyway, BLINK)。全基因組選擇包括基因組最佳線性無偏估計(genomic Best Linear Unbiased Prediction, gBLUP);壓縮式最佳線性無偏估計(Compressed BLUP, CBLUP);和SUPER 最佳線性無偏估計(SUPER BLUP, SBLUP)。截止目前GAPIT已經發展到第三個版本,前兩個版本累計引用超過1400餘次,從2016年至今,GAPIT網站累計獲得34,000次以上的網頁訪問,使GAPIT成為目前世界上研究人類疾病、動植物育種全基因組學關聯分析和預測的重要分析工具。
主要成果1:
整合目前最新的全基因組關聯分析演算法(MLMM, FarmCPU和BLINK)以及全基因組選擇預測演算法(CBLUP, SBLUP)。
主要成果2:
經過邏輯重排,程式碼最佳化,使多種演算法獨立存在於GAPIT3中,使用者無須分別下載、安裝和維護。
主要成果3:
建立互動式輸出,包括互動式曼哈頓圖,互動式分位數-分位數(Quantile-Quantile, QQ)圖以及互動式全基因組選擇預測結果。
軟體主頁及Github連線:
http://zzlab.net/GAPIT
https://github.com/jiabowang/GAPIT3
背景和研究物件
基因組學研究一直是研究生物基因與性狀潛在關係的重要熱點,全基因組關聯分析(Genome Wide Association Study, GWAS)和全基因組選擇預測(Genomic Selection/Genomic Prediction, GS/GP)是基因組學研究中兩項重要的研究內容。 GWAS的重點是尋找與特定性狀相關的有效遺傳位點(通常是單核苷酸多型性,Single Nucleotide Polymorphisms,SNPs),而GP在動植物育種領域被用來估計基因組育種值並預測表型值,以此來進行育種規劃和選擇。而計算機軟體方法在GWAS和GP研究中關係著研究結果的統計學效力、計算效率以及最終推廣應用的可行性。
軟體簡介
GAPIT目前發展到第三個版本,現已經整合最新的全基因組關聯分析演算法(GLM, MLM, CMLM, ECMLM, SUPER, FarmCPU和BLINK)以及全基因組選擇預測演算法(GBLUP, CBLUP, SBLUP),前兩個版本累計被他引超過1400餘次,從2016年至今,GAPIT網站累計獲得34,000次以上的網頁訪問。GAPIT是目前世界上研究人類疾病、動植物育種全基因組學關聯分析和預測的主要分析工具。
軟體主要結構
為了適應多種方法的不斷融入和比較,我們將GAPIT原有邏輯結構進行了重排,以方便整合外部軟體包,即使有些沒有整合在GAPIT3中的演算法也可以使用GAPIT3的輸出模式進行方法之間的比較。GAPIT分為五個模組:(1)資料與引數(DP); (2)質量控制(QC);(3)中間元件(IC);(4)充分統計量(SS);(5)解釋和診斷(ID)。這些模組中的任何一個都是可選的,可以跳過。但是,GAPIT3不允許以相反的順序執行模組(圖1)。
圖1 GAPIT邏輯模組及適應性拓展
軟體整合的演算法
GAPIT目前整合了多種演算法,我們比較了這些演算法的優勢以及適宜性,方便使用者瞭解這些演算法,並選擇適合自己資料型別的演算法(圖2)。
圖2 GAPIT三個版本中統計方法的比較
整合演算法與獨立演算法比較
目前GAPIT整合的第三方軟體和演算法包括:MLMM, FarmCPU, BLINK-R和BLINK-C。我們比較了這三款軟體獨立執行和在GAPIT3中估計遺傳標記P值的結果,同時還比較了使用MLM在rrBLUP, EMMAREML, BGLR以及GCTA和在GAPIT中預測的結果(圖3)。結果顯示GWAS結果中,GAPIT中執行的四款軟體與其獨立執行的計算結果完全一致;GP結果中僅有BGLR中MLM與GAPIT中的存在一定偏差,其他三款軟體與GAPIT中的預測結果完全一致。BGLR中的MLM是採用馬爾科夫鏈(Markov Chain Monte Carlo, MCMC)進行估計遺傳方差與環境方差的比值(λ),而在rrBLUP, EMMAREML, GCTA以及GAPIT中均採用譜分解法估計λ,因此造成了預測上的輕微波動。
圖3 GAPIT中的方法與獨立執行下GWAS和GP結果比較
互動式關聯分析結果
GAPIT3包含兩種型別的互動式報告。首先,使用者現在可以與曼哈頓圖、QQ圖和預測與觀察表現型的散點圖互動,提取標記和個體資訊。例如,透過在資料點上移動游標或指向裝置,使用者可以找到標記的名稱和位置,或個體的名稱和表型,使用者也可以用滑鼠點選特定的染色體進行選擇、排序、剔除和縮放視角,這類互動結果使用web瀏覽器顯示(圖4)。其次,使用者可以使用滑鼠或觸控板等指向裝置旋轉圖形,也可以選擇、剔除選擇的子群體,如3D主成分分析(Principal Component Analysis, PCA)圖(圖5)。
圖4 互動式輸出結果截圖
圖5 互動式3D PCA截圖
軟體的計算時間比較
GAPIT3中GWAS和GP演算法的計算時間與標記數呈線性關係(圖6)。然而,它們將計算複雜度與個體數量混合在一起。大多數方法的計算時間複雜度是個體數的立方,包括GBLUP, CBLUP以及SBLUP。GWAS中只有兩種方法對個體數量具有線性計算時間:FarmCPU和BLINK。與直接使用這些包相比,在GAPIT中使用MLMM, FarmCPU和BLINK包時,計算時間有適度的增加。BLINK方法有兩個版本:C版本和R版本。當C版本單獨作為標準操作時,比R版本要快得多。當它們在GAPIT內執行時,情況就相反了。這是因為GAPIT直接使用R版本的輸入和輸出,而當GAPIT執行C版本時,輸入和輸出資料必須在記憶體和磁碟之間進行轉換。
圖6 多方法計算時間比較
GAPIT資料統計
GAPIT的使用量、網頁論壇的訪問量以及引用次數在過去幾年始終穩定增加。截止2021年8月6日,前兩個版本累計被引超過1400餘次,從2016年至今,GAPIT網站累計獲得34,000次以上的網頁訪問。自2012年GAPIT第一版本發表後,GAPIT谷歌論壇累計活躍800多個關於使用、功能、BUG以及修正建議等相關主題,累計回帖數量達到2900多次,總計訪問量達到了74,000次以上。
圖7 GAPIT谷歌論壇使用情況
總結與展望
GAPIT作為一款面向全基因組關聯分析和選擇預測的軟體,已經受到了世界範圍遺傳學者和更多科學家的關注和使用。目前已有的版本累計被引超過1400多次,其不斷髮展並整合的新方法為人們更快、更精準的探測潛在遺傳關聯位點,以及預測個體的遺傳育種值和表型值提供了巨大的幫助。為了充分推進動植物遺傳進展的不斷進步,以及人類遺傳疾病的攻克,GAPIT將不斷強化自身功能性、可視性以及方法性,引領GWAS和GP的方法研究、軟體發展以及結果資訊的閱讀質量。最後,我們計劃與美國俄勒岡州立大學合作繼續深入開發GAPIT軟體,將GAPIT在全面的R檔案網路(CRAN)上得以載入,更好地為世界上全基因組關聯分析和選擇預測研究提供幫助。
文章編譯來源: Jiabo Wang, Zhiwu Zhang. GAPIT Version 3: Boosting Power and Accuracy for Genomic Association and Prediction. Genomics Proteomics Bioinformatics2021. https://doi.org/10.1016/j.gpb.2021.08.005. 英文全文詳見: https://www.sciencedirect.com/science/article/pii/S1672022921001777.
西南民族大學青藏高原動物遺傳資源保護與利用(四川省、教育部)重點實驗室的王嘉博博士為該文第一作者和通訊作者,華盛頓州立大學的張志武教授為該文通訊作者。本研究得到了四川省科技專案,國家犛牛肉產業體系專案的支援。
相關閱讀
組學原始資料管理體系(GSA Family)
Genome Warehouse:基因組資料公共資源庫
雙11後拒絕“吃土”!新品資料“大鍋菜”來襲,0元搶夠~
資料“大鍋菜”plus 版~吃飽開工!
舌尖上的資料?“百家飯”Plus版來啦
2018年度“中國生物資訊學十大進展”公佈
2019年度“中國生物資訊學十大進展”公佈
2020年度“中國生物資訊學十大進展”公佈
Genomics, Proteomics & Bioinformatics(基因組蛋白質組與生物資訊學報,簡稱GPB)於2003年創刊,是由中國科學院主管、中國科學院北京基因組研究所(國家生物資訊中心)與中國遺傳學會共同主辦的英文學術期刊,由Elsevier金色開放獲取(Gold Open Access)出版。刊載來自世界範圍內組學、生物資訊學及相關領域的優質稿件。現為中國科學引文資料庫(CSCD)和中國科技論文與引文資料庫(CSTPCD)核心期刊,被SCIE、PubMed / MEDLINE、Scopus等資料庫收錄。2018、2019、2020連續位於中科院文獻情報中心期刊分割槽表大類“生物1區Top"。2020年,CiteScore為12.4,位於“計算數學”、“遺傳學”、“生物化學”、“分子生物學”四個學科領域Q1區;Impact Factor為7.691,位於“遺傳學與遺傳性”學科領域前10%。期刊由科技部等七部門聯合實施的“中國科技期刊卓越行動計劃”資助(2019–2023)。
10000+:菌群分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦
系列教程:微生物組入門 Biostar 微生物組 宏基因組
專業技能:學術圖表 高分文章 生信寶典 不可或缺的人
一文讀懂:宏基因組 寄生蟲益處 進化樹
必備技能:提問 搜尋 Endnote
為鼓勵讀者交流、快速解決科研困難,我們建立了“宏基因組”專業討論群,目前己有國內外5000+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註“姓名-單位-研究方向-職稱/年級”。PI請明示身份,另有海內外微生物相關PI群供大佬合作交流。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍未解決群內討論,問題不私聊,幫助同行。