Nat. Commun. | 多肽-蛋白相互作用預測的深度學習框架

一種基於深度學習的多肽-蛋白質相互作用(PepPIs)預測框架(CAMP)，包括了多肽-蛋白質相互作用預測和相應的多肽結合殘基識別。

背景介紹

多肽，透過與多種蛋白質相互作用參與了許多細胞過程，如程式性細胞死亡、基因表達調控和訊號轉導，在人類生理中發揮著重要作用。透過實驗確定PepPIs通常是費時且昂貴的。為了解決這個問題，研究人員開發了一系列計算方法，以促進肽藥物的發現。

基於序列和基於結構的方法，是預測蛋白質與配體相互作用的兩種主流方法。基於序列的方法，主要利用原始序列資訊對互動進行建模。但這種方法，通常需要已知的蛋白質-配體相互作用作為監督標記，蛋白質(或配體)的成對相似度評分作為輸入特徵，由於相似度計算的複雜性，這對於大規模資料通常是不切實際的。基於結構的方法，如分子對接，透過在原子水平上建模結構構象和預測結合親和力，成功地解決了這個問題。目前，確定PepPIs有許多成熟的對接策略，根據輸入結構資訊的程度，大致可分為區域性 (DynaRock和rossetta FlexPepDock)和全域性(如PIPER-FlexPepDock和HPEPDOCK)對接方法。不幸的是，求解這樣的三維結構，通常是耗時且昂貴的，更不用說由於能量函式的高計算複雜性而消耗的大量計算資源。

最近，蓬勃發展的深度學習技術，為蛋白質配體或蛋白質相互作用(PPI)的建模提供了可行的解決方案，用更少的計算資源就可以實現更高的準確性。儘管肽藥物越來越被重視，最近幾十年獲批的肽療法的數量也呈上升趨勢，但只有少數工作提出了利用機器學習或深度學習方法來建模PepPIs。此外，對於解讀PepPIs的潛在機制，現有的方法主要集中在蛋白質表面的肽結合殘基的識別上，如基於序列的PepBind方法和基於結構的InterPep方法。遺憾的是，這些方法都有自身的侷限性。

此外，現有大多數用於建模PepPIs的計算方法，都未能回答藥理學家經常提出的一個重要問題——如何確定每個單獨的肽殘基對結合活性的貢獻？因此，顯然需要解決以下挑戰：(1)準確有效地識別PepPIs，同時考慮多肽和蛋白質的資訊；(2)對大資料集具有很強的泛化能力；(3)檢測關鍵的肽結合殘基，可提供有用的線索。

主要內容

為此，來自清華大學的趙誕&曾堅陽等研究者提出了CAMP，這是一個可同時預測PepPIs和識別結合殘基以及肽序列的深度學習框架。綜合評價表明，CAMP可以成功捕獲多肽與蛋白質之間的二元相互作用，並識別出參與相互作用的多肽的結合殘基。此外，CAMP在預測雙肽-蛋白相互作用方面，優於其他主流方法。CAMP可以作為預測肽-蛋白相互作用和識別肽中重要結合殘基的有用工具，有助於肽藥物的發現過程。相關的研究成果以“A deep-learning framework for multi-level peptide-protein interaction prediction”為題釋出在國際著名期刊Nature Communications上。

CAMO概述

首先，CAMP應用了以下5個步驟的多源資料管理和多級標籤構建(圖1a)：

(1) 從RCSB PDB中提取肽蛋白複合物結構，從DrugBank中提取已知藥物-靶點對；

(2) 利用蛋白質配體相互作用預測因子(protein ligand interaction predictor, PLIP)，識別每個PDB複合物中肽與蛋白質之間的非共價相互作用，僅保留具有非共價相互作用的肽蛋白對作為陽性樣本；

(3) 從PepBDB獲得肽的結合殘基標籤(PepBDB是由RCSB PDB衍生的肽蛋白複合物的結構資料庫)；

(4) 基於肽和蛋白質的一級序列，生成肽和蛋白質的殘基級結構和理化性質、內在無序傾向以及蛋白質的進化資訊；

(5) 整合多級標籤，即肽-蛋白對的二元相互作用標籤和肽結合殘基標籤進行訓練過程。

圖 1. CAMP的工作流程和體系結構。圖片來源於Nat. Commun.

CAMP的整體網路架構，如圖1b所示。給定輸入肽-蛋白對的特徵輪廓，CAMP利用兩個多通道特徵提取器分別對它們進行處理。該數值通道，用於提取預定義的密集特徵(即蛋白定位特異性評分矩陣(PSSM)和蛋白和肽序列中每個殘基的內在無序趨勢)。每個分類通道都包含一個自學習詞嵌入層，該層採用輸入肽或蛋白質的分類特徵之一(即原始氨基酸、二級結構、極性和親水性)。

接下來，CAMP利用兩個卷積神經網路(CNN)模組分別提取多肽和蛋白質的隱藏語境特徵。此外，CAMP採用自注意力機制來了解殘基之間的長期依賴關係，以及蛋白質和多肽個體殘基對最終相互作用預測的貢獻。然後，CAMP結合所有提取的特徵，使用三個完全連線層來預測給定的肽-蛋白對之間是否存在相互作用。CAMP取每個位置具有sigmoid啟用功能的肽CNN模組的輸出，預測每個肽殘基是否與伴侶蛋白結合。

在二元相互作用預測中，CAMP優於基線方法

在這裡，研究者比較了CAMP與其他最先進的基線方法的分類效能，包括基於相似度的矩陣分解方法(NRLMF)、基於深度學習的PPI預測模型(PIPR)和基於深度學習的CPI預測模型(DeepDTA)。

圖2顯示，CAMP的表現始終優於最先進的基線方法，在AUC和AUPR方面分別增加了10%和15%。此外還注意到，在“新肽設定”下的模型表現，似乎比在其他設定下的模型表現更好。這些測試結果表明，在所有交叉驗證設定下，CAMP都能比基線方法獲得更好、更健壯的效能。圖2還顯示了CAMP在某些聚類設定下生成的預測結果相對不同。

圖2. 交叉驗證三種設定下CAMP與基線模型的AUC和AUPR。圖片來源於Nat. Commun.

透過表徵肽結合殘基的新見解

在CAMP中，研究者設計了一個監督預測模組，來識別肽序列中的結合殘基。首先，研究者利用來自PepBDB的相互作用資訊，構建了一組肽結合殘基的合格標籤；這是一個全面的結構資料庫，包含了從RCSB PDB已知的相互作用肽蛋白複合物，以及有關氫鍵和疏水接觸中肽結合殘基的資訊。

在這些監督資訊的支援下，CAMP在使用隨機分裂設定的五倍交叉驗證程式進行肽結合殘留鑑定時，獲得的平均AUC為0.806，馬修斯相關係數(MCC)為0.514(圖3a, b)。

圖3. 透過5倍交叉驗證，評價CAMP在基準資料集上肽結合殘基識別的效能。圖片來源於Nat. Commun.

為了進一步證明CAMP在結合殘基預測中的效能，研究者還選擇了4個具有代表性的案例(預測肽結合殘基的平均AUC評分分別為約1%、35%、50%和85%)，並將預測殘基與真實相互作用的殘基進行了比較。

圖3c顯示了第一個案例，一個HIV-1特異性細胞進入抑制劑和HIV-1 GP41三聚體核心的複合物(PDB ID: 1FAV)。肽抑制劑有33個氨基酸，其中12個是結合殘基。CAMP識別了所有這些結合殘基，沒有任何假陽性。

圖3d顯示了第二個案例，HIV-1 gp120包膜糖蛋白和CD4受體的複合物(PDB ID: 4JZW)，在平均AUC方面排名前35%左右。該肽有28個氨基酸，其中13個是結合殘基。研究者預測的結合殘基覆蓋了沿著肽序列的11個真結合殘基，遺漏了2個真結合殘基。

圖3e顯示了第三個案例，組蛋白去乙醯化酶和錨蛋白重複家族A蛋白的一個肽複合物(PDB ID: 3V31)。在研究者的預測中，這一對在AUC方面排名中位數，CAMP成功識別了11/13的真結合殘基，其中有一個假陽性。

圖3f顯示了最後一個案例，T淋巴瘤侵襲和轉移誘導蛋白和8個殘基磷酸化的syndecan-1肽複合物(PDB ID: 4GVC)，在研究者的預測中排名約85%，平均AUC為0.571。所有8個殘基(包括1個假陽性)都被CAMP預測為結合殘基。

總體來說，研究者的測試結果表明，CAMP能夠準確預測結合殘基，從而為進一步理解肽與伴侶蛋白的相互作用機制提供了可靠的證據。

CAMP在附加基準資料集上的通用性

為了證明CAMP對二元互動預測的魯棒性，研究者評估了CAMP和基線模型對上述測試資料集的幾個變化的正-負比率的效能。圖4a和b顯示CAMP在所有場景下取得了最好的結果，表明CAMP優於基線方法，具有相對穩健的效能。研究者還觀察到，隨著正負比從1:1下降到1:10，所有方法的AUC均略有增加。

研究者還評估了CAMP對肽結合殘基識別的預測結果。研究者從PepBDB中獲得了註釋的肽序列結合殘基。從測試資料集來看，總共有208種PepPIs具有這樣的肽結合殘基標籤。圖4c和d顯示了CAMP能夠維持其對上述附加資料集的預測能力。

圖4. CAMP具有穩健的效能，並在獨立測試集上優於基線模型。圖片來源於Nat. Commun.

CAMP在三個相關任務中的擴充套件應用

研究者進一步研究了CAMP在預測肽-PBD (protein binding domain)相互作用、結合親和評價和肽虛擬篩選三個相關任務中的應用潛力。圖5顯示了CAMP在除PDZ外的所有家族中，都顯著優於HSM-ID和HSM-D。

圖5. CAMP、HSM-ID和HSM-D在8個系列中的模型表現。圖片來源於Nat. Commun.

結論總結

本篇文章提出了CAMP，一個用於預測多肽-蛋白多水平相互作用的深度學習框架，包括二元相互作用預測和多肽結合殘基預測。所有結果表明CAMP可以提供準確的肽-蛋白相互作用預測，並有助於理解肽結合機制。

未來，研究者計劃加入更多的資料，如結合域資訊，以進一步改進預測蛋白結合殘基的結果。

參考文獻

Lei, Y., Li, S., Liu, Z. et al. A deep-learning framework for multi-level peptide–protein interaction prediction. Nat Commun 12, 5465 (2021). https://doi.org/10.1038/s41467-021-25772-4

中大唯信頭條號與中大唯信公眾號、唯信計算訂閱號均由中大唯信科技有限公司運營，歡迎關注轉發，未經授權禁止轉載

分類： 親子

時間： 2021-11-05

Nat. Commun. | 多肽-蛋白相互作用預測的深度學習框架

相關文章

街王（驚險故事）
漢水縣民間盛行著"鬥故事"的遊戲.鬥故事是咋回事?這"故事"出在一個平臺上,平臺用優質木料做成,高一米.寬兩米.長三米,備有木槓,用四個大漢抬著走,每個臺上有一 ...

董賢遺物遺蹟考
漢代董賢與漢哀帝之間的斷袖故事是古代最著名的同性戀典故,董賢是中國古代最著名的同性戀人物.其遺物在清乾隆年間曾經比較集中地出現過.程晉芳<董賢玉印歌>寫到: 雄狐化雌氣不振,榮落匆匆抵朝蕣 ...

“人民英雄”麥賢得——鋼鐵戰士的“鋼鐵人生”
1966年第4期<解放軍畫報>封面刊登的麥賢得照片.(資料照片) [人物小傳]麥賢得,原91708部隊副部隊長.1965年"八六"海戰中,麥賢得作為611號護衛艇機電兵 ...

被認成胡歌“老婆”，與成龍傳緋聞，京城四美白冰的故事比戲出彩
2007年,網上傳言白冰和成龍的"友誼"非同一般. 有人說白冰能有這麼好的資源,多虧成龍大哥的"細心照顧". 對此,白冰強勢回應:我沒有被成龍"潛規則 ...

廣漢五幼：“光碟行動”成常態
10月12日,一場"'糧'全其美,不負'食'光"的"光碟"展示活動在廣漢五幼各班教室舉行,孩子們競相展示他們在餐後不剩一粒飯菜的餐盤或瓷碗,臉上洋溢著開心和自豪 ...

《紅樓夢》播出34年：“林黛玉”出家，薛寶釵至今未嫁
蔣勳說,<紅樓夢>這部書,不過就在做一件事--曹雪芹把自己一生記憶裡有情緣的人,做最後一次掩埋. <紅樓夢>誕生至今,已經有300多年曆史.20世紀以來,關於<紅樓夢&g ...

Nat. Commun. | 多肽-蛋白相互作用預測的深度學習框架

相關文章

街王（驚險故事） 漢水縣民間盛行著"鬥故事"的遊戲.鬥故事是咋回事?這"故事"出在一個平臺上,平臺用優質木料做成,高一米.寬兩米.長三米,備有木槓,用四個大漢抬著走,每個臺上有一 ...

董賢遺物遺蹟考 漢代董賢與漢哀帝之間的斷袖故事是古代最著名的同性戀典故,董賢是中國古代最著名的同性戀人物.其遺物在清乾隆年間曾經比較集中地出現過.程晉芳<董賢玉印歌>寫到: 雄狐化雌氣不振,榮落匆匆抵朝蕣 ...

“人民英雄”麥賢得——鋼鐵戰士的“鋼鐵人生” 1966年第4期<解放軍畫報>封面刊登的麥賢得照片.(資料照片) [人物小傳]麥賢得,原91708部隊副部隊長.1965年"八六"海戰中,麥賢得作為611號護衛艇機電兵 ...

被認成胡歌“老婆”，與成龍傳緋聞，京城四美白冰的故事比戲出彩 2007年,網上傳言白冰和成龍的"友誼"非同一般. 有人說白冰能有這麼好的資源,多虧成龍大哥的"細心照顧". 對此,白冰強勢回應:我沒有被成龍"潛規則 ...

廣漢五幼：“光碟行動”成常態 10月12日,一場"'糧'全其美,不負'食'光"的"光碟"展示活動在廣漢五幼各班教室舉行,孩子們競相展示他們在餐後不剩一粒飯菜的餐盤或瓷碗,臉上洋溢著開心和自豪 ...

《紅樓夢》播出34年：“林黛玉”出家，薛寶釵至今未嫁 蔣勳說,<紅樓夢>這部書,不過就在做一件事--曹雪芹把自己一生記憶裡有情緣的人,做最後一次掩埋. <紅樓夢>誕生至今,已經有300多年曆史.20世紀以來,關於<紅樓夢&g ...

街王（驚險故事）
漢水縣民間盛行著"鬥故事"的遊戲.鬥故事是咋回事?這"故事"出在一個平臺上,平臺用優質木料做成,高一米.寬兩米.長三米,備有木槓,用四個大漢抬著走,每個臺上有一 ...

董賢遺物遺蹟考
漢代董賢與漢哀帝之間的斷袖故事是古代最著名的同性戀典故,董賢是中國古代最著名的同性戀人物.其遺物在清乾隆年間曾經比較集中地出現過.程晉芳<董賢玉印歌>寫到: 雄狐化雌氣不振,榮落匆匆抵朝蕣 ...

“人民英雄”麥賢得——鋼鐵戰士的“鋼鐵人生”
1966年第4期<解放軍畫報>封面刊登的麥賢得照片.(資料照片) [人物小傳]麥賢得,原91708部隊副部隊長.1965年"八六"海戰中,麥賢得作為611號護衛艇機電兵 ...

被認成胡歌“老婆”，與成龍傳緋聞，京城四美白冰的故事比戲出彩
2007年,網上傳言白冰和成龍的"友誼"非同一般. 有人說白冰能有這麼好的資源,多虧成龍大哥的"細心照顧". 對此,白冰強勢回應:我沒有被成龍"潛規則 ...

廣漢五幼：“光碟行動”成常態
10月12日,一場"'糧'全其美,不負'食'光"的"光碟"展示活動在廣漢五幼各班教室舉行,孩子們競相展示他們在餐後不剩一粒飯菜的餐盤或瓷碗,臉上洋溢著開心和自豪 ...

《紅樓夢》播出34年：“林黛玉”出家，薛寶釵至今未嫁
蔣勳說,<紅樓夢>這部書,不過就在做一件事--曹雪芹把自己一生記憶裡有情緣的人,做最後一次掩埋. <紅樓夢>誕生至今,已經有300多年曆史.20世紀以來,關於<紅樓夢&g ...