sponsored links

Nat. Commun. | 多肽-蛋白相互作用預測的深度學習框架

Nat. Commun. | 多肽-蛋白相互作用預測的深度學習框架

一種基於深度學習的多肽-蛋白質相互作用(PepPIs)預測框架(CAMP),包括了多肽-蛋白質相互作用預測和相應的多肽結合殘基識別。

背景介紹

多肽,透過與多種蛋白質相互作用參與了許多細胞過程,如程式性細胞死亡、基因表達調控和訊號轉導,在人類生理中發揮著重要作用。透過實驗確定PepPIs通常是費時且昂貴的。為了解決這個問題,研究人員開發了一系列計算方法,以促進肽藥物的發現。

基於序列和基於結構的方法,是預測蛋白質與配體相互作用的兩種主流方法。基於序列的方法,主要利用原始序列資訊對互動進行建模。但這種方法,通常需要已知的蛋白質-配體相互作用作為監督標記,蛋白質(或配體)的成對相似度評分作為輸入特徵,由於相似度計算的複雜性,這對於大規模資料通常是不切實際的。基於結構的方法,如分子對接,透過在原子水平上建模結構構象和預測結合親和力,成功地解決了這個問題。目前,確定PepPIs有許多成熟的對接策略,根據輸入結構資訊的程度,大致可分為區域性 (DynaRock和rossetta FlexPepDock)和全域性(如PIPER-FlexPepDock和HPEPDOCK)對接方法。不幸的是,求解這樣的三維結構,通常是耗時且昂貴的,更不用說由於能量函式的高計算複雜性而消耗的大量計算資源。

最近,蓬勃發展的深度學習技術,為蛋白質配體或蛋白質相互作用(PPI)的建模提供了可行的解決方案,用更少的計算資源就可以實現更高的準確性。儘管肽藥物越來越被重視,最近幾十年獲批的肽療法的數量也呈上升趨勢,但只有少數工作提出了利用機器學習或深度學習方法來建模PepPIs。此外,對於解讀PepPIs的潛在機制,現有的方法主要集中在蛋白質表面的肽結合殘基的識別上,如基於序列的PepBind方法和基於結構的InterPep方法。遺憾的是,這些方法都有自身的侷限性。

此外,現有大多數用於建模PepPIs的計算方法,都未能回答藥理學家經常提出的一個重要問題——如何確定每個單獨的肽殘基對結合活性的貢獻?因此,顯然需要解決以下挑戰:(1)準確有效地識別PepPIs,同時考慮多肽和蛋白質的資訊;(2)對大資料集具有很強的泛化能力;(3)檢測關鍵的肽結合殘基,可提供有用的線索。

主要內容

為此,來自清華大學的趙誕&曾堅陽等研究者提出了CAMP,這是一個可同時預測PepPIs識別結合殘基以及肽序列的深度學習框架。綜合評價表明,CAMP可以成功捕獲多肽與蛋白質之間的二元相互作用,並識別出參與相互作用的多肽的結合殘基。此外,CAMP在預測雙肽-蛋白相互作用方面,優於其他主流方法。CAMP可以作為預測肽-蛋白相互作用和識別肽中重要結合殘基的有用工具,有助於肽藥物的發現過程。相關的研究成果以“A deep-learning framework for multi-level peptide-protein interaction prediction”為題釋出在國際著名期刊Nature Communications上。

CAMO概述

首先,CAMP應用了以下5個步驟的多源資料管理和多級標籤構建(圖1a):

(1) 從RCSB PDB中提取肽蛋白複合物結構,從DrugBank中提取已知藥物-靶點對;

(2) 利用蛋白質配體相互作用預測因子(protein ligand interaction predictor, PLIP),識別每個PDB複合物中肽與蛋白質之間的非共價相互作用,僅保留具有非共價相互作用的肽蛋白對作為陽性樣本;

(3) 從PepBDB獲得肽的結合殘基標籤(PepBDB是由RCSB PDB衍生的肽蛋白複合物的結構資料庫);

(4) 基於肽和蛋白質的一級序列,生成肽和蛋白質的殘基級結構和理化性質、內在無序傾向以及蛋白質的進化資訊;

(5) 整合多級標籤,即肽-蛋白對的二元相互作用標籤和肽結合殘基標籤進行訓練過程。

Nat. Commun. | 多肽-蛋白相互作用預測的深度學習框架

圖 1. CAMP的工作流程和體系結構。圖片來源於Nat. Commun.

CAMP的整體網路架構,如圖1b所示。給定輸入肽-蛋白對的特徵輪廓,CAMP利用兩個多通道特徵提取器分別對它們進行處理。該數值通道,用於提取預定義的密集特徵(即蛋白定位特異性評分矩陣(PSSM)和蛋白和肽序列中每個殘基的內在無序趨勢)。每個分類通道都包含一個自學習詞嵌入層,該層採用輸入肽或蛋白質的分類特徵之一(即原始氨基酸、二級結構、極性和親水性)。

接下來,CAMP利用兩個卷積神經網路(CNN)模組分別提取多肽和蛋白質的隱藏語境特徵。此外,CAMP採用自注意力機制來了解殘基之間的長期依賴關係,以及蛋白質和多肽個體殘基對最終相互作用預測的貢獻。然後,CAMP結合所有提取的特徵,使用三個完全連線層來預測給定的肽-蛋白對之間是否存在相互作用。CAMP取每個位置具有sigmoid啟用功能的肽CNN模組的輸出,預測每個肽殘基是否與伴侶蛋白結合。

在二元相互作用預測中,CAMP優於基線方法

在這裡,研究者比較了CAMP與其他最先進的基線方法的分類效能,包括基於相似度的矩陣分解方法(NRLMF)、基於深度學習的PPI預測模型(PIPR)和基於深度學習的CPI預測模型(DeepDTA)。

圖2顯示,CAMP的表現始終優於最先進的基線方法,在AUC和AUPR方面分別增加了10%和15%。此外還注意到,在“新肽設定”下的模型表現,似乎比在其他設定下的模型表現更好。這些測試結果表明,在所有交叉驗證設定下,CAMP都能比基線方法獲得更好、更健壯的效能。圖2還顯示了CAMP在某些聚類設定下生成的預測結果相對不同。

Nat. Commun. | 多肽-蛋白相互作用預測的深度學習框架

圖2. 交叉驗證三種設定下CAMP與基線模型的AUC和AUPR。圖片來源於Nat. Commun.

透過表徵肽結合殘基的新見解

在CAMP中,研究者設計了一個監督預測模組,來識別肽序列中的結合殘基。首先,研究者利用來自PepBDB的相互作用資訊,構建了一組肽結合殘基的合格標籤;這是一個全面的結構資料庫,包含了從RCSB PDB已知的相互作用肽蛋白複合物,以及有關氫鍵和疏水接觸中肽結合殘基的資訊。

在這些監督資訊的支援下,CAMP在使用隨機分裂設定的五倍交叉驗證程式進行肽結合殘留鑑定時,獲得的平均AUC為0.806,馬修斯相關係數(MCC)為0.514(圖3a, b)。

Nat. Commun. | 多肽-蛋白相互作用預測的深度學習框架

圖3. 透過5倍交叉驗證,評價CAMP在基準資料集上肽結合殘基識別的效能。圖片來源於Nat. Commun.

為了進一步證明CAMP在結合殘基預測中的效能,研究者還選擇了4個具有代表性的案例(預測肽結合殘基的平均AUC評分分別為約1%、35%、50%和85%),並將預測殘基與真實相互作用的殘基進行了比較。

圖3c顯示了第一個案例,一個HIV-1特異性細胞進入抑制劑和HIV-1 GP41三聚體核心的複合物(PDB ID: 1FAV)。肽抑制劑有33個氨基酸,其中12個是結合殘基。CAMP識別了所有這些結合殘基,沒有任何假陽性。

圖3d顯示了第二個案例,HIV-1 gp120包膜糖蛋白和CD4受體的複合物(PDB ID: 4JZW),在平均AUC方面排名前35%左右。該肽有28個氨基酸,其中13個是結合殘基。研究者預測的結合殘基覆蓋了沿著肽序列的11個真結合殘基,遺漏了2個真結合殘基。

圖3e顯示了第三個案例,組蛋白去乙醯化酶和錨蛋白重複家族A蛋白的一個肽複合物(PDB ID: 3V31)。在研究者的預測中,這一對在AUC方面排名中位數,CAMP成功識別了11/13的真結合殘基,其中有一個假陽性。

圖3f顯示了最後一個案例,T淋巴瘤侵襲和轉移誘導蛋白和8個殘基磷酸化的syndecan-1肽複合物(PDB ID: 4GVC),在研究者的預測中排名約85%,平均AUC為0.571。所有8個殘基(包括1個假陽性)都被CAMP預測為結合殘基。

總體來說,研究者的測試結果表明,CAMP能夠準確預測結合殘基,從而為進一步理解肽與伴侶蛋白的相互作用機制提供了可靠的證據。

CAMP在附加基準資料集上的通用性

為了證明CAMP對二元互動預測的魯棒性,研究者評估了CAMP和基線模型對上述測試資料集的幾個變化的正-負比率的效能。圖4a和b顯示CAMP在所有場景下取得了最好的結果,表明CAMP優於基線方法,具有相對穩健的效能。研究者還觀察到,隨著正負比從1:1下降到1:10,所有方法的AUC均略有增加。

研究者還評估了CAMP對肽結合殘基識別的預測結果。研究者從PepBDB中獲得了註釋的肽序列結合殘基。從測試資料集來看,總共有208種PepPIs具有這樣的肽結合殘基標籤。圖4c和d顯示了CAMP能夠維持其對上述附加資料集的預測能力。

圖4. CAMP具有穩健的效能,並在獨立測試集上優於基線模型。圖片來源於Nat. Commun.

CAMP在三個相關任務中的擴充套件應用

研究者進一步研究了CAMP在預測肽-PBD (protein binding domain)相互作用、結合親和評價和肽虛擬篩選三個相關任務中的應用潛力。圖5顯示了CAMP在除PDZ外的所有家族中,都顯著優於HSM-ID和HSM-D。

Nat. Commun. | 多肽-蛋白相互作用預測的深度學習框架

圖5. CAMP、HSM-ID和HSM-D在8個系列中的模型表現。圖片來源於Nat. Commun.

結論總結

本篇文章提出了CAMP,一個用於預測多肽-蛋白多水平相互作用的深度學習框架,包括二元相互作用預測和多肽結合殘基預測。所有結果表明CAMP可以提供準確的肽-蛋白相互作用預測,並有助於理解肽結合機制。

未來,研究者計劃加入更多的資料,如結合域資訊,以進一步改進預測蛋白結合殘基的結果。

參考文獻

Lei, Y., Li, S., Liu, Z. et al. A deep-learning framework for multi-level peptide–protein interaction prediction. Nat Commun 12, 5465 (2021). https://doi.org/10.1038/s41467-021-25772-4

中大唯信頭條號與中大唯信公眾號、唯信計算訂閱號均由中大唯信科技有限公司運營,歡迎關注轉發,未經授權禁止轉載

分類: 親子
時間: 2021-11-05

相關文章

讓牆飾會說話——安定中心園班級環境評比活動

讓牆飾會說話——安定中心園班級環境評比活動
幼兒園的環境.牆飾是重要的教育資源,它不但能給予幼兒美的感受,還能激發幼兒的參與意識,在幼兒的成長過程中,發揮著隱性教育作用. 為了提高教師牆飾創設能力,更深入地開展每月主題活動,我園於10月9日在園 ...

聊齋故事新編:海公子,一文帶你看懂人性

聊齋故事新編:海公子,一文帶你看懂人性
書生與歌姬相戀 話說登州的張生,讀書很用功,在十里八鄉內頗有才名. 他讀書一直有一個習慣,每當心情煩悶,不能專心於學業時,都要去城中心的麗春院--當地最有名的妓院逛一逛,喝一壺茶,吃幾碟點心,就圖放鬆 ...

巴力斯塔,泰山球迷心底永遠有他的位置

巴力斯塔,泰山球迷心底永遠有他的位置
外援,在中國足壇一直都是比較特殊的存在,限於國內球員的能力,不管是球迷還是俱樂部都會對外援充滿期待,都希望外援能在隊中起到雪中送炭的作用,而不僅僅是錦上添花. 從甲A聯賽算起,中國足球職業化的道路也已 ...

革命者豈能貪財——陳贊賢烈士的故事
在風景秀麗的贛州八境公園內,有一座烈士紀念亭.這座紀念亭,建成於1955年5月,是江西省贛州城區內紀念陳贊賢烈士唯一的一座建築物. 坐落在贛州八境公園內的陳贊賢烈士紀念亭 陳贊賢(1896-1927) ...

街王(驚險故事)

街王(驚險故事)
漢水縣民間盛行著"鬥故事"的遊戲.鬥故事是咋回事?這"故事"出在一個平臺上,平臺用優質木料做成,高一米.寬兩米.長三米,備有木槓,用四個大漢抬著走,每個臺上有一 ...

董賢遺物遺蹟考

董賢遺物遺蹟考
漢代董賢與漢哀帝之間的斷袖故事是古代最著名的同性戀典故,董賢是中國古代最著名的同性戀人物.其遺物在清乾隆年間曾經比較集中地出現過.程晉芳<董賢玉印歌>寫到: 雄狐化雌氣不振,榮落匆匆抵朝蕣 ...

“人民英雄”麥賢得——鋼鐵戰士的“鋼鐵人生”
1966年第4期<解放軍畫報>封面刊登的麥賢得照片.(資料照片) [人物小傳]麥賢得,原91708部隊副部隊長.1965年"八六"海戰中,麥賢得作為611號護衛艇機電兵 ...

杜修賢給主席拍照僅三分鐘,總理:誰違反規定,我不找別人就找你

杜修賢給主席拍照僅三分鐘,總理:誰違反規定,我不找別人就找你
前言 著名的"紅牆"攝影記者杜修賢在中南海工作十多年,曾先後擔任周總理.毛主席的專職攝影記者,他用手中的相機記錄下了許多珍貴的畫面. 一.第一次見面,毛主席送他一支雪茄,他珍藏了許 ...

被認成胡歌“老婆”,與成龍傳緋聞,京城四美白冰的故事比戲出彩

被認成胡歌“老婆”,與成龍傳緋聞,京城四美白冰的故事比戲出彩
2007年,網上傳言白冰和成龍的"友誼"非同一般. 有人說白冰能有這麼好的資源,多虧成龍大哥的"細心照顧". 對此,白冰強勢回應:我沒有被成龍"潛規則 ...

廣漢五幼:“光碟行動”成常態

廣漢五幼:“光碟行動”成常態
10月12日,一場"'糧'全其美,不負'食'光"的"光碟"展示活動在廣漢五幼各班教室舉行,孩子們競相展示他們在餐後不剩一粒飯菜的餐盤或瓷碗,臉上洋溢著開心和自豪 ...

“我用八年走遍中國各個角落,將風景刺於華服之上”

“我用八年走遍中國各個角落,將風景刺於華服之上”
<唐宮夜宴><元宵奇妙夜><端午奇妙遊>的火爆出圈,國民對中國文化的興趣與認同快速升溫,越來越多的人開始關注中國的傳統文化. 華服作為中國傳統服飾的代表,也是最能體 ...

你知道要怎麼樣寫好幼兒園家長的評語嗎?供大家分享
幼兒園家長的評語[精選篇] 1. ***你聰明活潑,遊戲中總有你快樂的笑聲.你對有禮貌,喜歡幫助集體做力所能及的事.只是發現這學期你上課有時管不住自己,經常開小差,這樣可不行呀.希望你在新的學期裡能更 ...

《紅樓夢》播出34年:“林黛玉”出家,薛寶釵至今未嫁

《紅樓夢》播出34年:“林黛玉”出家,薛寶釵至今未嫁
蔣勳說,<紅樓夢>這部書,不過就在做一件事--曹雪芹把自己一生記憶裡有情緣的人,做最後一次掩埋. <紅樓夢>誕生至今,已經有300多年曆史.20世紀以來,關於<紅樓夢&g ...

解密早培班:家長說沒見識過人大附中的早早培,都不配談“雞娃”

解密早培班:家長說沒見識過人大附中的早早培,都不配談“雞娃”
2012年的北京人大附中校門口.這裡的早培班.早早培,被喻為北京"雞娃"的天花板.圖中學生與本文無關. (張濤/圖) 2021年9月13日晚間,在北京多年從事理科培訓的機構老師陳立 ...

縣第三幼兒園開展中秋節關愛留守兒童活動

縣第三幼兒園開展中秋節關愛留守兒童活動
活動現場 為進一步關愛留守兒童的健康成長,讓幼兒感受家庭的溫暖和節日的氛圍,在中秋佳節來臨之際,寧南縣第三幼兒園於9月16日下午開展了以"情滿中秋 愛在三幼"為主題的關愛留守兒童活 ...

可愛靈動,韻味深長——讀圖畫書《小狐狸的百寶箱》| 書評

可愛靈動,韻味深長——讀圖畫書《小狐狸的百寶箱》| 書評
<小狐狸的百寶箱>是著名兒童文學作家湯素蘭和90後青年插畫師曾學清合作的一本圖畫書,書中講述了這樣一個故事:森林裡的小狐狸有一個裝著平時所撿物什的百寶箱,箱子吸引了許多動物前來觀看,而它們 ...

山東省推普工作展示|國家通用語言文字教育教學經驗分享——小學篇(1)

山東省推普工作展示|國家通用語言文字教育教學經驗分享——小學篇(1)
2021年9月12日至18日是第24屆全國推廣普通話宣傳週,本屆推普周以"普通話誦百年偉業 規範字寫時代新篇"為主題,在推普週期間,將推出"山東省推普工作"新聞 ...

被偏愛的“隱世大佬”鄧光榮,與十幾位港星的愛恨情仇太精彩

被偏愛的“隱世大佬”鄧光榮,與十幾位港星的愛恨情仇太精彩
能被人記住的殿堂級歌手不多,香港的羅文算是一個. 被觀眾較為熟知的作品,就是83版<射鵰英雄傳>中的鐵血丹心. 2002年,歌王羅文去世,葬禮上眾多香港大佬現身,著名的"女星狙擊 ...

小李子肥溫到底賺了多少片酬?《泰坦尼克號》幕後26個冷知識

小李子肥溫到底賺了多少片酬?《泰坦尼克號》幕後26個冷知識
作者|林小野 這裡經常有朋友問我,你那麼喜歡寫電影周邊為何不寫<泰坦尼克號>? 我說有啊有啊,默默攢資料也是寫文的一部分啊.好在隨著時間的推移<泰坦尼克號>之前從未披露的幕後花 ...

MixPad精靈開關:年輕人的第一臺真智慧開關

MixPad精靈開關:年輕人的第一臺真智慧開關
當市面上多數智慧家居產品都在單兵作戰.各自為政的時候,歐瑞博MixPad精靈觸屏語音開關已經領先了一大步.它將觸控螢幕.實體按鍵.語音控制.APP控制融為一體,讓智慧開關具備近場.中場.遠場的三層互動 ...