Science發表人類疾病-蛋白質-基因組圖譜,基於“基因-蛋白-表型三聯體”解析疾病致病基因的內在機制:蛋白質是人體的基本功能單位,也是從基因組到表型資訊傳遞的關鍵媒介。蛋白質可導致多種疾病的發生發展,因此也是目前藥物最常見的作用靶標。已有研究結果表明,透過對蛋白質數量性狀基因座(pQTLs)的臨床關聯進行研究,有助於更好地理解疾病發生機制。目前,我們仍然缺乏一個模型來評估位於蛋白質編碼基因之外遺傳變異的蛋白質特異性、pQTLs與血漿中特定蛋白質的臨床相關性。此外,尚沒有研究系統地繪製基因-蛋白-疾病的網路結構,以揭示疾病和蛋白表型之間的聯絡。
近日,由劍橋大學臨床醫學院的科學家領導的國際研究團隊在頂級期刊Science發表了題為“Mapping the proteo-genomic convergence of human diseases”的研究成果。研究團隊透過對基因組中共同起源蛋白質的分析,鑑定了10674個關聯蛋白質變體,發現了其與數百種不同人類疾病之間的聯絡,並開發了一個模型,以系統地確定蛋白質和通路特異性pQTLs。同時,透過共定位篩選,研究團隊繪製了涵蓋1859個基因-蛋白-表型三聯體的人類疾病蛋白質基因組圖譜,提供了對跨疾病病因的新見解。
文章發表在Science
主要研究內容
基因蛋白質靶點的關聯
研究人員對10,708名志願者的資料進行了全基因組-蛋白質組關聯分析,共鑑定2584個基因組區域,發現其至少與3892個顯著關聯蛋白靶點中的一個相關。其中,1097個區域包括迄今為止尚未報道的與血漿蛋白相關的變異體。
資料顯示,在3892個關聯蛋白質中,有26.8%存在順式pQTLs和反式pQTLs。進一步分析發現,在這些基因座上存在另外的2346個次級pQTLs,表明順式pQTLs和反式pQTLs中存在廣泛的等位基因異質性。
圖1. 遺傳變異位點與蛋白靶點的相關性,來源:Science
通路特定pQTLs的富集
隨後,研究人員將資料驅動的蛋白質網路與生物學通路相結合,以區分通路特異性pQTLs以及對多個不相關靶點產生影響的pQTLs。結果顯示,5442個基因變體中40.8%為蛋白質特異性,5.9%為通路特有。透過資料驅動網路分析方法,研究人員將648個可能遺漏的變體分類為蛋白質群體特異性。例如,rs738408(PNPLA3),一種非酒精性脂肪肝變體,它與來自同一蛋白質群體的70個適體中的22個相關。因此,與目前臨床上用於鑑別脂肪肝或肝損傷的組織非特異性蛋白質相比,錨定在PNPLA3反式pQTL上的假定肝損傷特異性效應使這些蛋白質靶點成為潛在的生物標記候選物。
圖2. pQTLs的分類,來源:Science
順式pQTLs能夠在GWAS位點識別候選致病基因
研究人員利用順式pQTLs的固有生物學特異性,系統地識別了GWAS研究結果中的重要潛在致病基因。對於其中四分之一的位點,研究鑑定出了不同於前期發現的基因。對於另外79個順式區域,研究人員預測的致病基因與已報道的保持一致。上述研究表明,利用順式pQTL能夠確定生物學上潛在的致病基因。
圖3. 利用順式pQTLs對GWAS分析結果進行關聯分析,來源:Science
整合多個組學闡明膽結石的發病機制
研究團隊在已知的膽石症位點SULT2A1發現了一個訊號rs212100。該訊號在膽鹽硫轉移酶(SULT2A1)和膽石症風險以及膽囊切除術之間共存。進一步多重共定位分析結果表明,該訊號也與肝臟中SULT2A1的mRNA表達、多種硫酸化類固醇中共存,包括雄激素和孕烯醇酮代謝物的硫酸鹽結合物,以及膽汁酸。
rs212100參與的所有生理過程,尤其是硫酸化類固醇和初級膽汁酸代謝物的一致積極作用方向表明,更高的SULT2A1活性是其作用方式。與次級膽汁酸、甘膽酸鹽血漿濃度降低同時出現的反向關聯結果表明了石膽酸的形成減少,而石膽酸是溶解脂肪(包括膽固醇)的基本物質。因此,透過對各種生物學實體的縱向整合分析表明,促進膽固醇結晶和膽結石形成的過飽和膽汁是一種因果機制。
圖4. 整合多個組學闡明膽結石的發病機制,來源:Science
結 語
綜上所述,該研究透過對基因-蛋白-疾病進行系統整合,建立了蛋白質基因組圖譜。該圖譜識別了許多潛在的致病基因,並強調了不同人類條件下的基因驅動聯絡。這項系統全面的研究也有助於解釋為什麼多種看似無關的症狀會同時發生在特定患者身上。同時也指出,相同的潛在蛋白質或機制可能會引起多種疾病。
傳統的疾病分類依賴於共同症狀的集合。除孟德爾疾病外,很少有基於共同症狀的病因學。研究團隊透過將與疾病相關的基因組變異與編碼蛋白質的功能聯絡起來,提供了有力的基因參與的證據,並確定了蛋白質介導疾病遺傳風險的新機制。例如FBLN3,網路分析指出其在共同的遺傳病因學中錨定疾病的趨同,為確定針對潛在遺傳因素的治療策略提供了機制上的理解和基礎。
文章第一作者Maik Pietzner博士說道:“使用基因組作為基礎是這項研究成功的關鍵。眾所周知,在血液中檢測到的大多數蛋白質來源於其他組織的細胞,這也解釋了為什麼我們整合了不同層次的資訊。例如,我們透過肝臟特異性機制發現了,膽鹽磺基轉移酶活性的升高與膽結石風險的增加有關。我們用這種方法將大約900種蛋白質與它們的起源組織連線起來。”
文章共同第一作者Eleanor Wheeler博士表示:“對於大多數與疾病風險相關的基因組區域或位點,潛在的致病基因和機制尚不清楚。這項工作證明了蛋白質在解析疾病致病基因方面的獨特價值和優勢,並幫助理解遺傳變異導致疾病的內在機制。我們也希望,這些與科學界共享的大量資訊將有助於將蛋白質更直接地與基因和疾病聯絡起來,從而加速識別藥物靶點,實現精準治療。”
參考文獻:
1. M. Pietzner et al., Science 10.1126/science.abj1541 (2021).
2. V. Emilsson, et al. Co-regulatory networks of human serum proteins link genetics to disease. Science 6361, 769–773 (2018).
3. S. A. Williams, et al.Plasma protein patterns as comprehensive
indicators of health. Nat. Med. 525, 1851–1857 (2019).