當科學家想了解人類基因組的個體差異時,他們轉向一個單一的中央基因序列:參考基因組。該基因組作為一種標準化的測量手段,一種尺度,所有其他人類變異都可以用它來衡量。
但令人驚訝的是:大約70%的參考基因組來自紐約布法羅的一名男子,他的DNA是在1990年至2003年人類基因組計劃期間測序的,這是首次嘗試記錄一個人的完整基因組。這就提出了明顯的問題:參考基因組的變異是否真的異常?參考基因組背後的人,被稱為RP11,可能是非洲和歐洲的混血兒,但一個基因組能提供多少關於我們70億人之間變異的資訊?
遺傳學家們為這個問題想出了各種各樣的解決辦法。有時,遺傳醫學從業者使用特定人群的參考基因組,這些基因組可能更能代表撒哈拉以南非洲或東亞血統的人。其他人建議開發一個“共識參考”,這將是一個由最常見的基因變體組成的弗蘭肯斯坦式的集合,所有這些基因變體都縫合在一起。甚至可能有一個參考基因組是基於人類最新的共同祖先的基因組。
但所有這些都有一箇中心侷限性:參考基因組依賴於人類基因藍圖基線的假設,而遺傳多樣性必須理解為與該基線的差異。
本週,《科學研究》展示了一種調查人類“泛基因組”的新工具pangenome允許遺傳學家一次繪製無限多個基因組的差異圖,研究人員說,這可以捕獲複雜的變異,更好地為非歐洲人定製基因醫學。
加利福尼亞大學的計算生物學家Benedict Paten和這項研究的資深作者說:“我們最好把一個關於我們認為人類的樣子的各種各樣的樣本集合進行比較。”
Patn說,我們不是研究單個基因組,“而是繪製出一個可能性網路。”想象兩個序列稍有不同的人:AGTCA和ATTGA。從泛基因組的角度來看,變異表現為一棵樹上的一系列分支:a通向T或G,再通向T,再通向C或G,再通向a。如果兩個基因組相同,它們遵循相同的路徑。在基因組不同的地方,路徑會分裂。許多具有相似基因組的人有點像一束弦,沿著相同的路徑透過可能的序列網路。
這使得人們更容易在上下文中看到變化,而不是偏離規範。“傳統上,當我們有參考文獻時,我們談論編輯,”Paten說。“所以我們說,位置一百萬等等,有一個從a到G的翻轉。”在泛基因組中,“它們不是被描述為編輯,而是一個序列。它們只是網路中的一個點。”
最直接的是,這將有助於研究人員瞭解我們基因的深層模式。使用參考基因組可以很容易地識別單個字母的最簡單變化交換,或短插入和刪除。但還有更復雜的模式,科學家稱之為結構變體。一整段DNA可能會被逆轉或重複,或者被切斷並撲通一聲落到其他地方。即使是最好的參考基因組對於理解結構變異的完整補充也是一個糟糕的工具。
由於基因組模式因祖先不同而有所不同,參考基因組在解釋樣本不足社群(從托斯卡納到約魯巴)的變化方面尤其糟糕。它可能根本沒有這些社群中基因組共同特徵的類似物。(重要的是要記住,祖先通常不會對映到種族的文化定義上,而且人口之間的差異是膚淺的,或者說是次要的,僅次於壓倒性的共性。)
“當你在尋找結構變異時,”華盛頓大學研究生物基因醫學的生物倫理學家Stephanie Fullerton說。科學家們問,這種變異是否非常不尋常,“可能正在破壞一些非常重要的東西?或者這只是在人類基因組中漂浮的某種實際上是中性的東西?”
由於絕大多數的基因組研究都是針對歐洲血統的人,研究人員往往不瞭解特定人群的變異對非歐洲人的健康意味著什麼。
開普頓大學的人類遺傳學家Ambroise Wonkam今年早些時候在《自然》雜誌上寫道,在非洲血統的人中,偏頗的研究意味著“使用歐洲的工具,心肌疾病(或心臟病)或精神分裂症的可能性是不可靠的,甚至是誤導的。”他指出,只有不到2%的人類基因組序列來自撒哈拉以南非洲的個人。
在這篇新論文中,研究人員將這一工具應用於全球的各種基因組資料庫。他們能夠挑出一種結構變異,一種叫做RAMACL的基因缺失,這種基因在一半的非洲人後裔中出現,4%的混血美國人中出現,而在其他群體中只有1%。這表明,這種變異是人類多樣性中完全正常的一部分,否則它可能會被標記為不尋常的、潛在有害的。
“這一直是一個上下都存在的問題,”Patn說,“人們研究了一個亞群體,發現了一個看起來有趣的變種,可能與某些東西有關,但他們還沒有了解該變種在其他人群中有多普遍。”
富勒頓對此表示同意。“但這是否有助於我們幫助代表性不足群體的個別患者?”她問道。“這是一個更大的問題。”
一方面,它可以讓患者明確他們的基因組特徵是否值得擔憂,併為醫生提供瞭解基因與疾病之間聯絡的工具。“如果你曾經有過任何健康問題,並讓醫生告訴你,我們不知道這意味著什麼,這是非常令人沮喪的,對嗎?”她說。隨著指導乳腺癌風險管理或告知複雜診斷的遺傳諮詢變得越來越普遍,沒有參考基因組代表的患者可能會被排除在外。“所以它可以幫助解決資訊問題。
但最終,知道這個[基因]導致疾病並不會讓你生病,這就是我們要做的。特別是如果你談論的是社會經濟地位較低的患者,或者沒有社會資本來管理醫療體系,那麼得到答案很重要,但這是漫長征程的第一步。”
如果沒有更多的來自那些在全球南方和土著社群中代表性不足的人的序列,就不會有了解疾病和遺傳學之間聯絡的基礎資料。如何收集和分享這些序列是一組完全不同的問題:遺傳學的歷史充滿了學術研究人員的道德失敗。
南非研究人員Wonkam呼籲開展一個專案,對非洲200萬個基因組進行測序,並讓這些基因組的所有者掌握如何使用這些基因組。pangenome為理解人類多樣性提供了一個框架,但人們應該決定如何填寫它。