

一種基于深度學習的多肽-蛋白質相互作用(PepPIs)預測框架(CAMP),包括了多肽-蛋白質相互作用預測和相應的多肽結合殘基識別。
背景介紹
多肽,通過與多種蛋白質相互作用參與了許多細胞過程,如程序性細胞死亡、基因表達調控和信號轉導,在人類生理中發揮著重要作用。通過實驗確定PepPIs通常是費時且昂貴的。為了解決這個問題,研究人員開發了一系列計算方法,以促進肽藥物的發現。
基于序列和基于結構的方法,是預測蛋白質與配體相互作用的兩種主流方法?;谛蛄械姆椒?,主要利用原始序列信息對交互進行建模。但這種方法,通常需要已知的蛋白質-配體相互作用作為監督標記,蛋白質(或配體)的成對相似度評分作為輸入特征,由于相似度計算的復雜性,這對于大規模數據通常是不切實際的?;诮Y構的方法,如分子對接,通過在原子水平上建模結構構象和預測結合親和力,成功地解決了這個問題。目前,確定PepPIs有許多成熟的對接策略,根據輸入結構信息的程度,大致可分為局部 (DynaRock和rossetta FlexPepDock)和全局(如PIPER-FlexPepDock和HPEPDOCK)對接方法。不幸的是,求解這樣的三維結構,通常是耗時且昂貴的,更不用說由于能量函數的高計算復雜性而消耗的大量計算資源。
最近,蓬勃發展的深度學習技術,為蛋白質配體或蛋白質相互作用(PPI)的建模提供了可行的解決方案,用更少的計算資源就可以實現更高的準確性。盡管肽藥物越來越被重視,最近幾十年獲批的肽療法的數量也呈上升趨勢,但只有少數工作提出了利用機器學習或深度學習方法來建模PepPIs。此外,對于解讀PepPIs的潛在機制,現有的方法主要集中在蛋白質表面的肽結合殘基的識別上,如基于序列的PepBind方法和基于結構的InterPep方法。遺憾的是,這些方法都有自身的局限性。
此外,現有大多數用于建模PepPIs的計算方法,都未能回答藥理學家經常提出的一個重要問題——如何確定每個單獨的肽殘基對結合活性的貢獻?因此,顯然需要解決以下挑戰:(1)準確有效地識別PepPIs,同時考慮多肽和蛋白質的信息;(2)對大數據集具有很強的泛化能力;(3)檢測關鍵的肽結合殘基,可提供有用的線索。
主要內容
為此,來自清華大學的趙誕&曾堅陽等研究者提出了CAMP,這是一個可同時預測PepPIs和識別結合殘基以及肽序列的深度學習框架。綜合評價表明,CAMP可以成功捕獲多肽與蛋白質之間的二元相互作用,并識別出參與相互作用的多肽的結合殘基。此外,CAMP在預測雙肽-蛋白相互作用方面,優于其他主流方法。CAMP可以作為預測肽-蛋白相互作用和識別肽中重要結合殘基的有用工具,有助于肽藥物的發現過程。相關的研究成果以“A deep-learning framework for multi-level peptide-protein interaction prediction”為題發布在國際著名期刊Nature Communications上。
CAMO概述
首先,CAMP應用了以下5個步驟的多源數據管理和多級標簽構建(圖1a):
(1)?從RCSB PDB中提取肽蛋白復合物結構,從DrugBank中提取已知藥物-靶點對;
(2)?利用蛋白質配體相互作用預測因子(protein ligand interaction predictor, PLIP),識別每個PDB復合物中肽與蛋白質之間的非共價相互作用,僅保留具有非共價相互作用的肽蛋白對作為陽性樣本;
(3)?從PepBDB獲得肽的結合殘基標簽(PepBDB是由RCSB PDB衍生的肽蛋白復合物的結構數據庫);
(4)?基于肽和蛋白質的一級序列,生成肽和蛋白質的殘基級結構和理化性質、內在無序傾向以及蛋白質的進化信息;
(5)?整合多級標簽,即肽-蛋白對的二元相互作用標簽和肽結合殘基標簽進行訓練過程。

圖 1. CAMP的工作流程和體系結構。圖片來源于Nat. Commun.
CAMP的整體網絡架構,如圖1b所示。給定輸入肽-蛋白對的特征輪廓,CAMP利用兩個多通道特征提取器分別對它們進行處理。該數值通道,用于提取預定義的密集特征(即蛋白定位特異性評分矩陣(PSSM)和蛋白和肽序列中每個殘基的內在無序趨勢)。每個分類通道都包含一個自學習詞嵌入層,該層采用輸入肽或蛋白質的分類特征之一(即原始氨基酸、二級結構、極性和親水性)。
接下來,CAMP利用兩個卷積神經網絡(CNN)模塊分別提取多肽和蛋白質的隱藏語境特征。此外,CAMP采用自注意力機制來了解殘基之間的長期依賴關系,以及蛋白質和多肽個體殘基對最終相互作用預測的貢獻。然后,CAMP結合所有提取的特征,使用三個完全連接層來預測給定的肽-蛋白對之間是否存在相互作用。CAMP取每個位置具有sigmoid激活功能的肽CNN模塊的輸出,預測每個肽殘基是否與伴侶蛋白結合。
在二元相互作用預測中,CAMP優于基線方法
在這里,研究者比較了CAMP與其他最先進的基線方法的分類性能,包括基于相似度的矩陣分解方法(NRLMF)、基于深度學習的PPI預測模型(PIPR)和基于深度學習的CPI預測模型(DeepDTA)。
圖2顯示,CAMP的表現始終優于最先進的基線方法,在AUC和AUPR方面分別增加了10%和15%。此外還注意到,在“新肽設置”下的模型表現,似乎比在其他設置下的模型表現更好。這些測試結果表明,在所有交叉驗證設置下,CAMP都能比基線方法獲得更好、更健壯的性能。圖2還顯示了CAMP在某些聚類設置下生成的預測結果相對不同。?

圖2. 交叉驗證三種設置下CAMP與基線模型的AUC和AUPR。圖片來源于Nat. Commun.
通過表征肽結合殘基的新見解
在CAMP中,研究者設計了一個監督預測模塊,來識別肽序列中的結合殘基。首先,研究者利用來自PepBDB的相互作用信息,構建了一組肽結合殘基的合格標簽;這是一個全面的結構數據庫,包含了從RCSB PDB已知的相互作用肽蛋白復合物,以及有關氫鍵和疏水接觸中肽結合殘基的信息。
在這些監督信息的支持下,CAMP在使用隨機分裂設置的五倍交叉驗證程序進行肽結合殘留鑒定時,獲得的平均AUC為0.806,馬修斯相關系數(MCC)為0.514(圖3a, b)。

圖3. 通過5倍交叉驗證,評價CAMP在基準數據集上肽結合殘基識別的性能。圖片來源于Nat. Commun.
為了進一步證明CAMP在結合殘基預測中的性能,研究者還選擇了4個具有代表性的案例(預測肽結合殘基的平均AUC評分分別為約1%、35%、50%和85%),并將預測殘基與真實相互作用的殘基進行了比較。
圖3c顯示了第一個案例,一個HIV-1特異性細胞進入抑制劑和HIV-1 GP41三聚體核心的復合物(PDB ID: 1FAV)。肽抑制劑有33個氨基酸,其中12個是結合殘基。CAMP識別了所有這些結合殘基,沒有任何假陽性。
圖3d顯示了第二個案例,HIV-1 gp120包膜糖蛋白和CD4受體的復合物(PDB ID: 4JZW),在平均AUC方面排名前35%左右。該肽有28個氨基酸,其中13個是結合殘基。研究者預測的結合殘基覆蓋了沿著肽序列的11個真結合殘基,遺漏了2個真結合殘基。
圖3e顯示了第三個案例,組蛋白去乙?;负湾^蛋白重復家族A蛋白的一個肽復合物(PDB ID: 3V31)。在研究者的預測中,這一對在AUC方面排名中位數,CAMP成功識別了11/13的真結合殘基,其中有一個假陽性。
圖3f顯示了最后一個案例,T淋巴瘤侵襲和轉移誘導蛋白和8個殘基磷酸化的syndecan-1肽復合物(PDB ID: 4GVC),在研究者的預測中排名約85%,平均AUC為0.571。所有8個殘基(包括1個假陽性)都被CAMP預測為結合殘基。
總體來說,研究者的測試結果表明,CAMP能夠準確預測結合殘基,從而為進一步理解肽與伴侶蛋白的相互作用機制提供了可靠的證據。
CAMP在附加基準數據集上的通用性
為了證明CAMP對二元交互預測的魯棒性,研究者評估了CAMP和基線模型對上述測試數據集的幾個變化的正-負比率的性能。圖4a和b顯示CAMP在所有場景下取得了最好的結果,表明CAMP優于基線方法,具有相對穩健的性能。研究者還觀察到,隨著正負比從1:1下降到1:10,所有方法的AUC均略有增加。
研究者還評估了CAMP對肽結合殘基識別的預測結果。研究者從PepBDB中獲得了注釋的肽序列結合殘基。從測試數據集來看,總共有208種PepPIs具有這樣的肽結合殘基標簽。圖4c和d顯示了CAMP能夠維持其對上述附加數據集的預測能力。

圖4. CAMP具有穩健的性能,并在獨立測試集上優于基線模型。圖片來源于Nat. Commun.
CAMP在三個相關任務中的擴展應用
研究者進一步研究了CAMP在預測肽-PBD (protein binding domain)相互作用、結合親和評價和肽虛擬篩選三個相關任務中的應用潛力。圖5顯示了CAMP在除PDZ外的所有家族中,都顯著優于HSM-ID和HSM-D。

圖5. CAMP、HSM-ID和HSM-D在8個系列中的模型表現。圖片來源于Nat. Commun.
結論總結
本篇文章提出了CAMP,一個用于預測多肽-蛋白多水平相互作用的深度學習框架,包括二元相互作用預測和多肽結合殘基預測。所有結果表明CAMP可以提供準確的肽-蛋白相互作用預測,并有助于理解肽結合機制。
未來,研究者計劃加入更多的數據,如結合域信息,以進一步改進預測蛋白結合殘基的結果。
參考文獻
Lei, Y., Li, S., Liu, Z. et al. A deep-learning framework for multi-level peptide–protein interaction prediction. Nat Commun?12, 5465 (2021). https://doi.org/10.1038/s41467-021-25772-4