人體器官、組織和細胞都具有高度分化化的功能。在組織和細胞型別中表達的基因及其在體內的生理作用,都受順式調控元件的調控。人類基因組中候選調控元件的目錄仍然不完整。截止到目前,全基因組關聯研究(GWAS)已經確定了數十萬種與人類特徵和疾病廣泛相關的遺傳變異,這些變體大多數是非編碼的。此外,研究發現疾病相關組織和細胞型別中的候選順式調節元件(CCRE)富含非編碼疾病風險變體,因此科學家們推測非編碼變體影響疾病風險的主要機制是透過影響特定細胞型別中的轉錄調節元件。但由於缺乏人類基因組中調控元件的細胞型別解析圖,這些非編碼變體的註釋仍具有挑戰性。
利用全基因組染色質可及性檢測技術(例如ATAC-seq),無需對單個細胞型別進行物理純化,就可以鑑定出細胞中潛在的CCRE。這些技術已應用於哺乳動物組織,包括小鼠生物樣本、人類胎兒組織和少數個體成人器官系統,但還缺乏來自成人綜合細胞型別解析度CCRE圖譜。
近日,美國加州大學聖地亞哥分校任兵教授課題組在Cell上發了題為“A single-cell atlas of chromatin accessibility in the human genome”的研究文章。研究人員使用改良的單細胞測序技術sci-ATAC-seq對來自多個個體30種成人組織型別的615998個細胞進行了染色質可及性分析,並將這些資料與15種胎兒組織型別的細胞染色質可及性圖譜相結合,繪製了迄今最大規模的人類單細胞染色質可及性圖譜。該圖譜在222個細胞亞型中註釋了近120萬個CCRE,為揭示細胞型別與疾病的相關性,發現人類細胞型別的相關治療靶點,以及人類複雜疾病的致病機理提供了寶貴的參考資源。(資源獲取:http://catlas.org/humanenhancer)
文章發表於Cell
為了繪製成人CCRE的細胞圖譜,研究團隊進一步改進了SnapATAC可擴充套件性,使其可以處理數百萬個單元。透過對30個成人供體不同解剖部位獲得的樣本進行了sci ATAC-seq,最終獲得了615998個細胞核的高質量開放染色質圖譜,發現了111個不同的細胞簇。
同時,研究人員從PanglaoDB標記基因資料庫中整理出與人類細胞型別相對應的標記基因,利用細胞型別標籤對30個主要細胞簇和所有111個不同的簇進行了註釋。例如,在胃腸道上皮細胞的主要細胞群中,註釋顯示了三個結腸上皮細胞簇,一個來自小腸的腸上皮細胞,兩個分別來自結腸和小腸的杯狀細胞,以及三個具有不同染色質可及性特徵的罕見群體,包括腸嗜鉻細胞、簇狀細胞和Paneth細胞。
令人鼓舞的是,在大多陣列織樣本中檢測到的幾種常見細胞型別,根據細胞型別進行聚類聚整合七個亞型,每個亞型具有不同的起源組織。值得注意的是,在111種細胞型別中,大多數細胞型別表現出高度的組織特異性。此外,研究發現sciATAC-seq鑑定的細胞型別與相應組織的單細胞RNA測序(RNA-seq)鑑定的細胞型別高度一致(圖1)。
圖1.30例成人組織單細胞染色質可及性分析,來源:Cell
為確定111種細胞型別中每種細胞的可及性染色質區域,研究人員聚集了每個細胞簇所有細胞核的染色質可及性圖譜,並應用單細胞資料最佳化的峰值檢測程式。透過合併這些可及性染色質區域,最終獲得了890130個非重疊CCRE序列。研究人員將這些CCRE與經驗證的哺乳動物增強子目錄進行了比較,以評估這些CCRE的潛在功能。結果表明,細胞型別特異性染色質可及性和組織特異性增強子活性之間存在良好的相關性。
接下來,研究人員根據到TSS最近的距離對每個CCRE進行分類,當前目錄中的大多數CCRE(80.94%)與註釋TSS的距離超過2000 bp。位於TSS上方或啟動子區域附近的CCRE顯示出較高的序列保守性和染色質可及性。為了進一步剖析細胞型別特異性染色質特徵和調控程式,研究人員應用基於熵的策略揭示了435142個CCRE,這些CCRE在一種或多種細胞型別中顯示出有限的可及性(圖2)。
圖2.成人細胞CCRE圖譜,來源:Cell
研究團隊還比較了兩個染色質可及性圖譜中222個胎兒和成人細胞型別,利用SnapATAC獲得了胎兒和成人組織中1323041個細胞核的低維資料。結果發現,與其他細胞型別相比,胎兒細胞型別與其對應成年細胞的相關性相對較高,這與系統發育分析結果相一致。
為了揭示胎兒或成人特異性調節程式的特定因素,研究人員分析了成人和胎兒細胞型別主要細胞簇的生命階段特異性CCRE,共確定72648個胎兒和成人之間的差異可及性CCRE骨骼肌細胞(圖3)。以上發現揭示了胎兒和成人骨骼肌細胞增殖能力和成熟功能的調節因素,並強調了該資料集在生命週期不同時間點繪製人類細胞圖譜的價值。
圖3.成人和胎兒人類細胞型別的差異染色質可及性,來源:Cell
此外,研究團隊描述了胎兒和成人細胞型別中CCRE的細胞型別特異性,將222種細胞型別中1154611個CCRE組織成150個簇,稱為順式調節模組(CRMs)。該分析揭示了胎兒和成人細胞以及譜系特異性TF基序的目錄。例如,透過富集TBR、EOMES和TBX TF家族基序,可區分成人CD8+T細胞和自然殺傷T細胞中具有強可及性的模組等。除了這些特徵明確的關聯外,該研究還報告了以前未定義的TF與人類細胞型別的關聯(圖4)。
圖4.222種胎兒和成人細胞型別CRE模組的描繪,來源:Cell
接下來,研究人員利用120萬細胞型別分辨CCRE解釋了與複雜性狀和多基因疾病表型相關的遺傳變異,下載了NHGRIEBI GWAS目錄,並保留了1123個功能良好的GWAS。然後,使用超幾何測試檢測從222個胎兒和成人細胞型別中鑑定的CCRE特徵相關變異體的富集程度。結果顯示,胎兒和成人細胞型別與人類特徵和疾病表型之間共3220個顯著關聯(圖5)。
圖5.胎兒和成人細胞型別與複雜性狀和疾病的關聯,來源:Cell
綜上所述,該研究利用單細胞ATAC-seq分析了代表廣泛人類器官系統30個成人組織的約60萬個細胞的染色質可及性,並透過與已有的資料進行整合分析,繪製了迄今最大規模的人類單細胞染色質可及性圖譜,填補了人類基因組CCRE註釋中細胞型別解析度的關鍵缺口。該資料資源為在細胞型別解析度上跨人類器官系統的基因調控程式分析奠定了基礎,加速了與複雜人類疾病和表型相關的非編碼序列變體註釋,有助於全面瞭解人類細胞在整個生命週期中的基因調控特徵。
參考文獻:
Zhang K, Hocker JD, Miller M, et al. A single-cell atlas of chromatin accessibility in the human genome. Cell. 2021;184(24):5985-6001.e19. doi:10.1016/j.cell.2021.10.024