

一種基于幾何結構軟件和深度學習的新框架DeepPocket,用3D卷積神經網絡對Fpocket識別的口袋重新評分后能發現蛋白表面的空腔。
背景介紹
基于結構的藥物設計(SBDD)的關鍵步驟,是識別和驗證受體靶點。一旦受體位點被識別出來,就可以設計出能很好地與靶標結合的小分子,并顯示出所需的藥理效果。預測配體分子在蛋白結構上的結合位置,是藥物設計過程中必不可少的一步。這需要開發高度精確能夠從給定的受體三維結構中檢測配體結合位點的計算機模擬算法。
深度學習可以從數據中構建復雜的關系,這是傳統機器學習無法比擬的。深度學習模型基于概念層次原理,將相互連接的神經元層堆疊起來,即通過從簡單概念構建復雜概念來學習復雜概念。這些算法已被證明在計算機視覺和自然語言處理方面取得了巨大的進步。例如,卷積神經網絡(CNN)在圖像識別方面表現出了最先進的性能。
結合位點檢測,可以通過三維蛋白質結構的體素化建模轉化為計算機視覺問題。這樣就可以在相同的任務中使用這些CNN。DeeplyTough是一種基于CNN的孿生神經網絡,通過將口袋編碼成描述向量,使用歐幾里得距離來比較口袋的方法。DeepSite采用了類似于P2Rank的方法,它使用CNN對蛋白表面的所有點進行評分,并對所有得分高的點進行聚類,生成候選結合口袋。Kalasanty將整個蛋白結構通過一個受U-Net啟發的基于CNN的細化模型,一步生成預測的結合位點。它賦予每個體素作為口袋一部分的概率。在結合位點檢測方面,它的性能優于DeepSite。
主要內容
基于結構的藥物設計包括潛在藥物分子的開發,這些配體與給定受體的結合位點形成穩定的復合物。這樣做的前提是,在蛋白質的3D結構上找到和功能性相關的結合位點。雖然已有多種檢測結合位點的方法,但大多數方法在結合位點的準確識別和排序上都失敗了。深度學習算法,在結構生物學各個領域的快速應用和成功,預示著這種算法可用于精確的結合位點檢測。為此,來自印度國際信息技術研究所的U. Deva Priyakumar等人報告了基于幾何結構軟件和深度學習相結合的新框架DeepPocket。除此之外,研究者還提出了另一組包含蛋白質結構的數據集SC6K,用于配體結合位點(ligand binding site, LBS)的檢測,該數據集于2018年1月1日至2020年2月28日提交到蛋白質數據庫(PDB)。DeepPocket對各種結合位點數據集和SC6K的測試結果表明,它比目前最先進的方法具有更好的性能,對新結構具有良好的泛化能力。相關的研究成果以 “IDeepPocket: Ligand Binding Site Detection and Segmentation using 3D Convolutional Neural Networks” 為題發布在國際著名期刊Journal of Chemical information and Modeling上。
方法概述
DeepPocket是一個新的且全面的框架,能高效檢測蛋白質的三維結構中的結合位點。研究者采用多步驟方法從輸入的蛋白質結構中,獲得最終的口袋位置和三維形狀預測。首先,通過Biopython庫從蛋白質結構中去除所有雜原子和溶劑分子來處理輸入結構。然后,在結構上運行Fpocket,并計算每個預測口袋的中心。這些中心需要由CNN評分功能進行排序,再成為候選口袋中心。因此,在每個中心處放置固定大小的網格,然后使用CNN進行評分。最后,將排名靠前的中心通過CNN細分模型發送到最終的口袋結構。圖1給出了研究者方法的pipeline。

圖 1. DeepPocket的使用流程。圖片來源于JCIM
測試結果
為了對DeepPocket的泛化能力進行綜合評價和測試,研究者在scPDB v.2017數據庫上對分類和細分模型進行了10倍交叉驗證,然后在COACH420、HOLO4k和SC6K數據集上進行了測試。對細分模型進行測試,重點是與目前最先進的口袋三維形狀預測方法Kalasanty進行對比。最后,研究者驗證了DeepPocket使用refined set在已建立的基準上識別結合位點殘基的能力。
交叉驗證,分類實驗通過相應的交叉驗證細分訓練得到的10個分類模型的平均驗證accuracy為0.943,AUC-ROC為0.966。Top-n和Top-(n + 2)驗證集上10個模型的平均召回率分別為70.27%和87.77%。圖2中繪制了從Top-n到Top-(n + 7)的驗證集的成功率。研究者認為,從Top-n到Top-(n + 2)的17%的成功率,可能是數據集中尚未注釋的推定或隱藏的結合位點的存在。此外還看到數據集中的大多數口袋都被預測在Top-(n + 7)排名中。

圖 2. 在scPDB v.2017數據集中正確識別從Top-n到Top-(n + 7)級別的口袋的平均成功率。圖片來源于JCIM
研究者在三個測試數據集COACH420、HOLO4k和SC6K上,比較了DeepPocket與其他最先進的方法在識別結合空腔方面的性能。Top-n和Top-(n + 2)的成功率結果見表1。除了COACH420的Top-n得分,DeepPocket在所有數據集上都優于其他所有最先進的方法。DeepPocket也是唯一一種不會在數據集中提供任何蛋白質口袋位置的深度學習方法。DeepPocket成功地將Fpocket檢測到的85%的結合位點,排在了Top-n的排名中。

表1. DCA(與配體任一原子的距離)結果比較。表格來源于JCIM
表2報告了4?閾值下的DCC(到結合位點中心的距離)成功率和兩種方法的平均DVO(離散體積重疊)值。在DCC和DVO標準上,DeepPocket的表現都優于Kalasanty。DeepPocket在COACH420和SC6K上實現了驚人的DCC成功率,分別為81.31%和80.24%,這表明大多數預測口袋形狀的中心位于口袋的真中心附近,而在HOLO4K數據集上,成功率較低(65.79%),但仍然相對較好。在對三個數據集進行測試時,DeepPocket也返回了大于0.6的平均DVOs,這表明了良好的細分精度。

表2. DCC和DVO結果比較。表格來源于JCIM
三組數據的成功率曲線和DVO分布圖,如圖3所示。DeepPocket在COACH420和SC6K數據集上的成功率圖與交叉驗證實驗中的成功率圖非常相似,表明了良好的泛化性。這些結果可以得出結論,Kalasanty方法的優勢——在結合位點的局部生成密度(表1),而DeepPocket的細分算法對整個結合口袋形狀的解釋相對較好。對HIV蛋白酶的位點檢測案例顯示,分類模型給出的排名第一的口袋中心和晶體結構中的一致,說明預測正確。

圖3. DeepPocket和Kalasanty對測試數據集的細分結果。圖片來自JCIM
圖4. DeepPocket檢測到的HIV-1蛋白酶(PDB ID: 1K2C)和孕酮配體結合域(PDB ID: 1SQN)的頂部和細分口袋(“淺藍色”體積)。圖片來自JCIM
結論總結
本文介紹了一種方法DeepPocket,它遵循多步驟方法來識別蛋白質三維結構上的配體結合位點。主要包括三個步驟,提取候選口袋中心,使用3D CNNs分類模型對它們進行排序,最后使用細分模型對排名靠前的中心進行形狀說明。DeepPocket的一個額外的優勢是不會在任何提供的蛋白質結構上出錯。因此,將DeepPocket納入需要識別結合空腔的結構生物信息學和藥物設計pipeline中將大有裨益。本文源代碼地址:https://github.com/devalab/DeepPocket
參考文獻
Rishal Aggarwal, Akash Gupta, Vineeth Chelur, C. V. Jawahar, and U. Deva Priyakumar, DeepPocket: Ligand Binding Site Detection and Segmentation using 3D Convolutional Neural Networks, Journal of Chemical information and Modeling, Article ASAP. DOI: 10.1021/acs.jcim.1c00799