sponsored links

CMU馬堅團隊用機器學習演算法呈現基因組摺疊過程,登頂Nature

CMU馬堅團隊用機器學習演算法呈現基因組摺疊過程,登頂Nature

作者 | 陳彩嫻

近日,就讀於世界計算機專業頂級院校卡內基梅隆大學(CMU)的 1 名中國博士生開發了一個機器學習演算法 Higashi,可以詮釋人體細胞核中基因組的摺疊方式、以及這些摺疊如何影響基因的表達,研究登上了《Nature Biotechnology》!

CMU馬堅團隊用機器學習演算法呈現基因組摺疊過程,登頂Nature


透過對蛋白質與DNA束的摺疊與排序瞭解,專家可以瞭解哪些基因得到表達、哪些基因又遭到了抑制,從而判斷人體的健康狀況。但此前,科學家對這個過程並不瞭解。

而 1 名 CMU 在讀的中國博士生,用一種基於超圖表示學習(hypergraph representation learning)的演算法破解了這一謎題!超圖表示學習是一種機器學習方法,原先主要用在 app 音樂推薦或 3D 物體識別。

這名博士生的名字為張若弛,本科畢業於清華大學,目前就讀於 CMU 的計算生物學系(CBD),追求“幽默科研”,在這次研究中還將演算法命名為“Higashi”(一種日本甜食)。Ruochi Zhang的博士導師為 CMU 知名華人學者馬堅,另一位合作者也是中國學生,叫 Tianming Zhou(本科畢業於清華大學)。

該研究專案由美國國立衛生研究院(NIH)資助。2020年,馬堅獲得 NIH 的 1000 萬美元科研資助,在 CMU 成立一個多研究中心,旨在瞭解細胞核的 3D 結構、及其結構的變化如何影響細胞在健康與疾病中的功能。

CMU馬堅團隊用機器學習演算法呈現基因組摺疊過程,登頂Nature


圖注:從左到右,Ruochi Zhang、Tianming Zhou與馬堅

1 Higashi 演算法如何工作?

染色體由稱為“染色質”的DNA-RNA-蛋白質複合物組成。該複合物會摺疊並自行排列來適應細胞核。在這個過程中,每一種成分的功能元素都會更緊密地結合在一起,從而影響了基因的表達方式,啟用或抑制特定的遺傳特徵。

基因組組織的可變性對基因表達與細胞狀態的影響很大。

Higashi 演算法與新興技術(單細胞 Hi-C)配合使用,可以建立單細胞中染色質相互作用的快照。Higashi 對複雜組織和生物過程中單個細胞的染色質組織進行了更詳細的分析,同時深究了染色質的相互作用如何因細胞而異。這些分析使科學家能夠看到細胞與細胞之間染色質摺疊和組織的詳細變化——包括那些可能很微妙但對健康有影響的變化。

Higashi 的關鍵演算法設計是將 scHi-C 資料轉換為超圖(如圖 1a)。在轉換的過程中,超圖會保留來自 scHi-C 接觸圖的單細胞解析度和 3D 基因組特徵。

據 CMU News 報道,Higashi演算法是第一項在超圖上使用複雜神經網路來對單細胞基因組組織進行高畫質分析的技術。普通的圖只是將兩個頂點連線到一個交叉點(即“邊”,edge),而超圖是將多個頂點連線到邊。

詳細來說,嵌入 scHi-C 資料的過程就相當於學習超圖的節點嵌入,而輸入 scHi-C 接觸圖就變成了預測超圖中缺失的超邊。

在 Higashi 中,他們使用了最新開發的 Hyper-SAGNN 架構。這是一個通用的超圖表示學習框架,專門針對 scHi-C 分析進行了大量的新開發。

CMU馬堅團隊用機器學習演算法呈現基因組摺疊過程,登頂Nature


圖 1:用於 scHi-C 分析的 Higashi 框架

Higashi 有 5 個主要組成部分:

1)他們將 scHi-C 資料集表示為超圖,其中,每個細胞和每個基因組 bin 分別表示為細胞節點和基因組 bin 節點。單細胞接觸圖中的每個非零條目都被建模為連線相應細胞和該特定染色質相互作用的兩個基因組位點的超邊(圖 1a)。這種形式集合了 scHi-C 的嵌入和資料插補。

2)他們基於構建的超圖訓練超圖神經網路 (NN)。

3)將訓練好的超圖神經網路中提取單元節點的嵌入向量用於下游分析。

4)使用經過訓練的超圖 NN 來插補單細胞 Hi-C 接觸圖,並結合細胞之間的潛在相關性來增強整體插補,從而更詳細地表徵 3D 基因組特徵。

5)通過幾種新的計算策略,比較了跨單個細胞的 A/B 區室分數和 TAD 樣域邊界,以促進對這些大規模 3D 基因組特徵的細胞間變異性及其對基因轉錄的影響的分析。

2 識別 3D 基因組結構

團隊試圖用 Higashi 估算的接觸圖來識別細胞型別特定的 3D 基因組結構。

單細胞 Hi-C (scHi-C) 方法可以識別 3D 染色質組織的細胞間變異性,但分析已測量的染色質互動的稀疏性具有一定挑戰。馬堅團隊所提出的 Higashi 演算法可以結合單個細胞之間的潛在相關性,增強接觸圖的整體插補。

他們的分析表明,基於 Higashi 推算接觸圖計算的單細胞絕緣分數具有分離複雜細胞型別的能力,而基於原始接觸圖的單細胞絕緣評分不能有效區分細胞型別。

CMU馬堅團隊用機器學習演算法呈現基因組摺疊過程,登頂Nature


圖 2:Higashi 能夠以單細胞解析度詳細描述 3D 基因組特徵及其與基因轉錄的聯絡。

Higashi 可以識別單個細胞中的多尺度 3D 基因組特徵,從而精確地描繪細胞間的變異性。在關於人類前額葉皮層的 scHi-C 資料集中,Higashi 可以確定 3D 基因組特徵與細胞型別特異性基因調控之間的聯絡。

他們還發現 SULF1 是區分 L6 亞型與其餘興奮性神經元亞型(L2/3、L4 和 L5)的標記基因,與周圍細胞型別特異性 TAD 樣域邊界具有很強的相關性。TAD 樣域邊界存在於 93.2% 的 L6 細胞中,但其餘的興奮性神經元亞型中僅有 65.3%。這些結果為人類前額葉皮層細胞型別的標記基因調控以及 3D 基因組結構和功能之間的聯絡提供了新的見解。

CMU馬堅團隊用機器學習演算法呈現基因組摺疊過程,登頂Nature


圖 3:Higashi 使用來自人類前額葉皮層的 scHi-C 資料識別複雜的細胞型別和細胞型別特異性 TAD 樣域邊界。

最後,他們希望知道 Higashi 確定的細胞型別特異性 TAD 樣域邊界附近的基因是否具有不同的功能作用。結果證明,Higashi 在使用 scHi-C 資料有效識別複雜組織中的細胞型別和細胞型別特異性 3D 基因組特徵方面具有獨特優勢。

這個分析表明,Higashi 在揭示細胞型別特異性 TAD 樣域邊界方面有強大潛力,極大地促進了 3D 基因組結構在調節細胞型別特異性基因功能中的作用分析。

此外,據 Nature 報道,Higashi 演算法還可以用於分析單細胞多路染色質相互作用與其他多模式單細胞組學資料。

3 總結

馬堅團隊開發的機器學習演算法 Higashi 在嵌入與插補方面有極大優勢。

透過 scHi-C 接觸圖的資料增強改進,他們在 Higashi 演算法中開發了能系統分析可變多尺度 3D 基因組特徵(A/B 區室分數和 TAD 樣域邊界)的方法,並證明了這些特徵對基因轉錄的影響。

透過應用來自人類前額葉皮層的 scHi-C 資料集,Higashi 能夠識別複雜的細胞型別,並揭示與細胞型別特異性基因調控有密切聯絡的細胞型別特異性 TAD 樣域邊界。

Higashi 的關鍵演算法創新是將 scHi-C 資料轉化為超圖,與現有方法相比具有獨特的優勢:

首先,這種轉換保留了 scHi-C 的單細胞精度和 3D 基因組特徵。

其次,將整個 scHi-C 資料集建模為超圖,而不是將每個接觸圖建模為單獨的圖,允許跨細胞協調資訊,透過利用細胞之間的潛在相關性來改善嵌入和插補。

最後,雖然他們主要關注 scHi-C 資料,但 Higashi 中的超圖表示高度可以推廣到其他單細胞資料型別。

不過,他們指出,作為一種資料驅動演算法,Higashi 也有不少需要改進的地方。比如,它至少需要一箇中等大小的 scHi-C 資料集來實現高效能。此外,由於單細胞 3D 基因組結構性質的高度多樣化,Higashi在遠端互動的估算方面仍有很大的改進空間。

但他們也談到,為了在單細胞解析度下更全面地描繪 3D 基因組組織,Higashi 可以擴充套件到分析高階染色質結構的單細胞分析——例如,最近開發的 scSPRITE34 探測多路染色質相互作用。

參考連結:

1.https://www.cs.cmu.edu/news/2021/higashi-algorithm

2.https://www.nature.com/articles/s41587-021-01034-y

3.https://www.cmu.edu/news/stories/archives/2020/october/new-center-cell-nucleus.html

CMU馬堅團隊用機器學習演算法呈現基因組摺疊過程,登頂Nature

分類: 科學
時間: 2021-10-11

相關文章

盤點 | 五家癌症早篩公司

盤點 | 五家癌症早篩公司
歡迎大家轉發~ 通常,患者被檢測出腫瘤或出現癌症病症時,癌症細胞已經在人體內發展至一定階段.越早的診斷,意味著越早的介入治療,對於癌症病人來說至關重要,帶來的是更好的長期生存機會.傳統的腫瘤診斷與癌症 ...

只要幾小時!機器學習能快速揭示細胞內部結構
不需數年 只要幾小時 機器學習能快速揭示細胞內部結構 科技日報北京10月10日電 (記者張夢然)藉由高功率顯微鏡和機器學習,美國科學家研發出一種新演算法,可在整個細胞的超高解析度影象中自動識別大約30 ...

中秋假期遊玩,帶上鐵威馬NAS儲存旅途精彩吧

中秋假期遊玩,帶上鐵威馬NAS儲存旅途精彩吧
過了今天,千呼萬盼的中秋小長假終於來啦,你打算怎麼過呢?你是回家.外出遊玩,還是宅家裡刷劇.睡覺?不管你是宅家刷劇.睡覺,或是出門旅行遊玩,一臺鐵威馬NAS必不可少哦~ NAS的全名為"網路 ...

規制數字社會執行的“演算法”權力
作者:冀翠萍 數字社會中的人與人.人與物.物與物之間的關係與活動產生了大量的資料,如何應對資訊超載和海量資料的危機,"演算法"作為一種技術力量,成為必然選擇.以演算法推薦.演算法分 ...

馬老師 || 本週預售公示和下證專案,十一看房團!一批次土地總表

馬老師 || 本週預售公示和下證專案,十一看房團!一批次土地總表
2021年9月28號和29號預售公示專案 01 北清雲際南區 北清雲際南區6002地塊已經全部下證. 02 龍樾合璽(招城雅苑) 03 朝陽壹號(彤廷雅苑) 專案位於朝陽區王四營鄉,地鐵7號線焦化廠站 ...

機器學習在SNCR控制系統中的應用

機器學習在SNCR控制系統中的應用
[能源人都在看,點選右上角加'關注'] 針對目前垃圾焚燒發電廠SNCR系統自動控制投入率低下,對出口氮氧化物(NOx)的跟蹤滯後,無法有效控制氨逃逸的現狀,對SNCR控制系統採用機器學習模組進行最佳化 ...

王緒敏教授團隊釋出軟體動物線粒體基因組資料庫MODB

王緒敏教授團隊釋出軟體動物線粒體基因組資料庫MODB
2021年9月12日,煙臺大學王緒敏教授團隊在DATABASE雜誌線上發表題為 MODB: a comprehensive mitochondrial genome database for Moll ...

肖飛:打破外國壟斷造就中國電芯,為國家節省10個億,被授一等功

肖飛:打破外國壟斷造就中國電芯,為國家節省10個億,被授一等功
自工業革命起,西方科技就一度遙遙領先於世界.儘管近年來我國綜合國力大幅提升,但在軍隊戰艦的推進方面,始終無法與美俄等國相較. 直到2018年,一位名叫肖飛的研究員橫空出世,用"直流全電力推進 ...

神舟凱旋!這些高校,全程助力

神舟凱旋!這些高校,全程助力
2021年9月17日,神舟十二號載人飛船返回艙在萬眾矚目下順利著陸! 據央視新聞訊息,神舟十二號載人飛船返回艙反推火箭成功點火後,於9月17日13點30分許,平安降落在東風著陸場預定區域.14時10分 ...

華為塗丹丹:一場無人區的馬拉松

華為塗丹丹:一場無人區的馬拉松
"在科研這方面,我不認為男性和女性有任何的不同.關鍵是你要對它有興趣,還要有堅持下去的勇氣和韌勁:就好像一場無人區的馬拉松,你不知道這條路的盡頭在哪裡,也沒有任何人的陪伴,你必須一個人堅持不 ...

又一部粵劇電影即將亮相,“二度梅”演繹《南越宮詞》

又一部粵劇電影即將亮相,“二度梅”演繹《南越宮詞》
文/羊城晚報全媒體記者 李麗 又一部粵劇電影即將亮相!近日,影片<南越宮詞>在京舉行專家研討會.該片由馬崇傑執導,著名粵劇表演藝術家歐凱明攜手粵劇新生代代表李嘉宜領銜主演,是又一部用現代電 ...

何健行教授全球首創肺結節“甲基化液體活檢+影像學AI”聯合診斷

何健行教授全球首創肺結節“甲基化液體活檢+影像學AI”聯合診斷
北京時間9月13日上午10:30,因新冠疫情線上舉行的2021年世界肺癌大會(WCLC)如期召開,廣州醫科大學附屬第一醫院胸外科主任/國家呼吸醫學中心主任/廣州呼吸健康研究院院長何建行教授在" ...

近期科研成果速覽(九月上)

近期科研成果速覽(九月上)
本期目錄 2.中國科大在一/二價離子選擇性分離膜精密構築方面取得新進展 3.中國科大光壽紅課題組揭示核仁RNA干擾通路調控核糖體RNA水平的分子機制 4.中國科大完成基於顏色擦除強度干涉的高空間分辨成 ...

銀行股集體大跌!萬億招行一度重挫12%,地產衝擊傳聞不斷,風險真有那麼大?#熱點覆盤#
泥沙俱下! 9月20日,港股市場遭受重挫.截至當日收盤,恆指跌去822點,跌幅高達3.29%,其中恆生地產指數狂跌6.7%.分析人士認為,恆大事件持續發酵可能是一個導火索,一些關於香港地產商的傳聞也在 ...

精準醫學的利器:針對罕見人類基因錯義變異致病性的預測模型

精準醫學的利器:針對罕見人類基因錯義變異致病性的預測模型
責編 | 兮 準確的判斷人類基因序列變異的致病性可以使人類基因組序列在精準醫學領域中的潛力得到充分的發揮.儘管全基因組關聯研究(GWAS)探測與疾病相關的罕見錯義變異的能力有限,罕見錯義變化在人類基因 ...

《因果學習週刊》第1期:因果學習的分佈外泛化問題
因果學習作為人工智慧領域研究熱點之一,其研究進展與成果也引發了眾多關注.為幫助研究與工程人員瞭解該領域的相關進展和資訊,智源社群結合領域內容,撰寫了第1期<因果學習週刊>. 本期週刊將主要 ...

音樂學者和計算機科學家在AI的幫助下完成貝多芬的“第十交響曲”

音樂學者和計算機科學家在AI的幫助下完成貝多芬的“第十交響曲”
據外媒報道,音樂學者和計算機科學家已經在機器學習的幫助下完成了貝多芬的"第十交響曲".該交響曲的世界首演將於2021年10月9日舉行.1817年,倫敦的皇家愛樂協會委路德維希·凡· ...

屋頂太陽能光伏發電的全球發電潛力
由科克大學 (UCC) 的 SFI 能源.氣候和海洋研究中心 MaREI 的研究人員與國際研究夥伴合作,對屋頂太陽能光伏 (PV) 技術的發電潛力進行了首次詳細的全球評估. 研究結果發表在<自然 ...

研究發現小行星Bennu缺乏精細顆粒物 地表主要是多孔岩石

研究發現小行星Bennu缺乏精細顆粒物 地表主要是多孔岩石
亞利桑那大學帶領的一支科學家團隊得出了一個結論 -- 類似貝努(Bennu)這樣高度多孔的小行星,其表面或缺乏細顆粒物.透過早期望遠鏡觀察,科學家們曾認為 Bennu 表面很像是一個沙灘,覆蓋著細沙和 ...