一種基於深度學習的多肽-蛋白質相互作用(PepPIs)預測框架(CAMP),包括了多肽-蛋白質相互作用預測和相應的多肽結合殘基識別。
背景介紹
多肽,透過與多種蛋白質相互作用參與了許多細胞過程,如程式性細胞死亡、基因表達調控和訊號轉導,在人類生理中發揮著重要作用。透過實驗確定PepPIs通常是費時且昂貴的。為了解決這個問題,研究人員開發了一系列計算方法,以促進肽藥物的發現。
基於序列和基於結構的方法,是預測蛋白質與配體相互作用的兩種主流方法。基於序列的方法,主要利用原始序列資訊對互動進行建模。但這種方法,通常需要已知的蛋白質-配體相互作用作為監督標記,蛋白質(或配體)的成對相似度評分作為輸入特徵,由於相似度計算的複雜性,這對於大規模資料通常是不切實際的。基於結構的方法,如分子對接,透過在原子水平上建模結構構象和預測結合親和力,成功地解決了這個問題。目前,確定PepPIs有許多成熟的對接策略,根據輸入結構資訊的程度,大致可分為區域性 (DynaRock和rossetta FlexPepDock)和全域性(如PIPER-FlexPepDock和HPEPDOCK)對接方法。不幸的是,求解這樣的三維結構,通常是耗時且昂貴的,更不用說由於能量函式的高計算複雜性而消耗的大量計算資源。
最近,蓬勃發展的深度學習技術,為蛋白質配體或蛋白質相互作用(PPI)的建模提供了可行的解決方案,用更少的計算資源就可以實現更高的準確性。儘管肽藥物越來越被重視,最近幾十年獲批的肽療法的數量也呈上升趨勢,但只有少數工作提出了利用機器學習或深度學習方法來建模PepPIs。此外,對於解讀PepPIs的潛在機制,現有的方法主要集中在蛋白質表面的肽結合殘基的識別上,如基於序列的PepBind方法和基於結構的InterPep方法。遺憾的是,這些方法都有自身的侷限性。
此外,現有大多數用於建模PepPIs的計算方法,都未能回答藥理學家經常提出的一個重要問題——如何確定每個單獨的肽殘基對結合活性的貢獻?因此,顯然需要解決以下挑戰:(1)準確有效地識別PepPIs,同時考慮多肽和蛋白質的資訊;(2)對大資料集具有很強的泛化能力;(3)檢測關鍵的肽結合殘基,可提供有用的線索。
主要內容
為此,來自清華大學的趙誕&曾堅陽等研究者提出了CAMP,這是一個可同時預測PepPIs和識別結合殘基以及肽序列的深度學習框架。綜合評價表明,CAMP可以成功捕獲多肽與蛋白質之間的二元相互作用,並識別出參與相互作用的多肽的結合殘基。此外,CAMP在預測雙肽-蛋白相互作用方面,優於其他主流方法。CAMP可以作為預測肽-蛋白相互作用和識別肽中重要結合殘基的有用工具,有助於肽藥物的發現過程。相關的研究成果以“A deep-learning framework for multi-level peptide-protein interaction prediction”為題釋出在國際著名期刊Nature Communications上。
CAMO概述
首先,CAMP應用了以下5個步驟的多源資料管理和多級標籤構建(圖1a):
(1) 從RCSB PDB中提取肽蛋白複合物結構,從DrugBank中提取已知藥物-靶點對;
(2) 利用蛋白質配體相互作用預測因子(protein ligand interaction predictor, PLIP),識別每個PDB複合物中肽與蛋白質之間的非共價相互作用,僅保留具有非共價相互作用的肽蛋白對作為陽性樣本;
(3) 從PepBDB獲得肽的結合殘基標籤(PepBDB是由RCSB PDB衍生的肽蛋白複合物的結構資料庫);
(4) 基於肽和蛋白質的一級序列,生成肽和蛋白質的殘基級結構和理化性質、內在無序傾向以及蛋白質的進化資訊;
(5) 整合多級標籤,即肽-蛋白對的二元相互作用標籤和肽結合殘基標籤進行訓練過程。
圖 1. CAMP的工作流程和體系結構。圖片來源於Nat. Commun.
CAMP的整體網路架構,如圖1b所示。給定輸入肽-蛋白對的特徵輪廓,CAMP利用兩個多通道特徵提取器分別對它們進行處理。該數值通道,用於提取預定義的密集特徵(即蛋白定位特異性評分矩陣(PSSM)和蛋白和肽序列中每個殘基的內在無序趨勢)。每個分類通道都包含一個自學習詞嵌入層,該層採用輸入肽或蛋白質的分類特徵之一(即原始氨基酸、二級結構、極性和親水性)。
接下來,CAMP利用兩個卷積神經網路(CNN)模組分別提取多肽和蛋白質的隱藏語境特徵。此外,CAMP採用自注意力機制來了解殘基之間的長期依賴關係,以及蛋白質和多肽個體殘基對最終相互作用預測的貢獻。然後,CAMP結合所有提取的特徵,使用三個完全連線層來預測給定的肽-蛋白對之間是否存在相互作用。CAMP取每個位置具有sigmoid啟用功能的肽CNN模組的輸出,預測每個肽殘基是否與伴侶蛋白結合。
在二元相互作用預測中,CAMP優於基線方法
在這裡,研究者比較了CAMP與其他最先進的基線方法的分類效能,包括基於相似度的矩陣分解方法(NRLMF)、基於深度學習的PPI預測模型(PIPR)和基於深度學習的CPI預測模型(DeepDTA)。
圖2顯示,CAMP的表現始終優於最先進的基線方法,在AUC和AUPR方面分別增加了10%和15%。此外還注意到,在“新肽設定”下的模型表現,似乎比在其他設定下的模型表現更好。這些測試結果表明,在所有交叉驗證設定下,CAMP都能比基線方法獲得更好、更健壯的效能。圖2還顯示了CAMP在某些聚類設定下生成的預測結果相對不同。
圖2. 交叉驗證三種設定下CAMP與基線模型的AUC和AUPR。圖片來源於Nat. Commun.
透過表徵肽結合殘基的新見解
在CAMP中,研究者設計了一個監督預測模組,來識別肽序列中的結合殘基。首先,研究者利用來自PepBDB的相互作用資訊,構建了一組肽結合殘基的合格標籤;這是一個全面的結構資料庫,包含了從RCSB PDB已知的相互作用肽蛋白複合物,以及有關氫鍵和疏水接觸中肽結合殘基的資訊。
在這些監督資訊的支援下,CAMP在使用隨機分裂設定的五倍交叉驗證程式進行肽結合殘留鑑定時,獲得的平均AUC為0.806,馬修斯相關係數(MCC)為0.514(圖3a, b)。
圖3. 透過5倍交叉驗證,評價CAMP在基準資料集上肽結合殘基識別的效能。圖片來源於Nat. Commun.
為了進一步證明CAMP在結合殘基預測中的效能,研究者還選擇了4個具有代表性的案例(預測肽結合殘基的平均AUC評分分別為約1%、35%、50%和85%),並將預測殘基與真實相互作用的殘基進行了比較。
圖3c顯示了第一個案例,一個HIV-1特異性細胞進入抑制劑和HIV-1 GP41三聚體核心的複合物(PDB ID: 1FAV)。肽抑制劑有33個氨基酸,其中12個是結合殘基。CAMP識別了所有這些結合殘基,沒有任何假陽性。
圖3d顯示了第二個案例,HIV-1 gp120包膜糖蛋白和CD4受體的複合物(PDB ID: 4JZW),在平均AUC方面排名前35%左右。該肽有28個氨基酸,其中13個是結合殘基。研究者預測的結合殘基覆蓋了沿著肽序列的11個真結合殘基,遺漏了2個真結合殘基。
圖3e顯示了第三個案例,組蛋白去乙醯化酶和錨蛋白重複家族A蛋白的一個肽複合物(PDB ID: 3V31)。在研究者的預測中,這一對在AUC方面排名中位數,CAMP成功識別了11/13的真結合殘基,其中有一個假陽性。
圖3f顯示了最後一個案例,T淋巴瘤侵襲和轉移誘導蛋白和8個殘基磷酸化的syndecan-1肽複合物(PDB ID: 4GVC),在研究者的預測中排名約85%,平均AUC為0.571。所有8個殘基(包括1個假陽性)都被CAMP預測為結合殘基。
總體來說,研究者的測試結果表明,CAMP能夠準確預測結合殘基,從而為進一步理解肽與伴侶蛋白的相互作用機制提供了可靠的證據。
CAMP在附加基準資料集上的通用性
為了證明CAMP對二元互動預測的魯棒性,研究者評估了CAMP和基線模型對上述測試資料集的幾個變化的正-負比率的效能。圖4a和b顯示CAMP在所有場景下取得了最好的結果,表明CAMP優於基線方法,具有相對穩健的效能。研究者還觀察到,隨著正負比從1:1下降到1:10,所有方法的AUC均略有增加。
研究者還評估了CAMP對肽結合殘基識別的預測結果。研究者從PepBDB中獲得了註釋的肽序列結合殘基。從測試資料集來看,總共有208種PepPIs具有這樣的肽結合殘基標籤。圖4c和d顯示了CAMP能夠維持其對上述附加資料集的預測能力。
圖4. CAMP具有穩健的效能,並在獨立測試集上優於基線模型。圖片來源於Nat. Commun.
CAMP在三個相關任務中的擴充套件應用
研究者進一步研究了CAMP在預測肽-PBD (protein binding domain)相互作用、結合親和評價和肽虛擬篩選三個相關任務中的應用潛力。圖5顯示了CAMP在除PDZ外的所有家族中,都顯著優於HSM-ID和HSM-D。
圖5. CAMP、HSM-ID和HSM-D在8個系列中的模型表現。圖片來源於Nat. Commun.
結論總結
本篇文章提出了CAMP,一個用於預測多肽-蛋白多水平相互作用的深度學習框架,包括二元相互作用預測和多肽結合殘基預測。所有結果表明CAMP可以提供準確的肽-蛋白相互作用預測,並有助於理解肽結合機制。
未來,研究者計劃加入更多的資料,如結合域資訊,以進一步改進預測蛋白結合殘基的結果。
參考文獻
Lei, Y., Li, S., Liu, Z. et al. A deep-learning framework for multi-level peptide–protein interaction prediction. Nat Commun 12, 5465 (2021). https://doi.org/10.1038/s41467-021-25772-4
中大唯信頭條號與中大唯信公眾號、唯信計算訂閱號均由中大唯信科技有限公司運營,歡迎關注轉發,未經授權禁止轉載