<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    Nat. Commun. | DeepRank:一種用于挖掘3D蛋白-蛋白界面的深度學習框架

    Nat. Commun. | DeepRank:一種用于挖掘3D蛋白-蛋白界面的深度學習框架

    Nat. Commun. | DeepRank:一種用于挖掘3D蛋白-蛋白界面的深度學習框架

    一種通用且可配置的深度學習框架,可利用3D卷積神經網絡進行蛋白質-蛋白質界面(PPIs)的數據挖掘。

    背景介紹

    高度調控的蛋白-蛋白相互作用網絡協調了從DNA復制到病毒入侵和免疫防御等大多數細胞過程,蛋白以特定的方式進行相互作用或與其他生物分子相互作用。獲得這些生物分子在3D空間中如何相互作用的知識是理解其功能和開發或設計這些分子用于各種靶標的關鍵,如藥物設計、免疫治療或設計新的蛋白等。

    在過去的幾十年里,各種實驗方法(如X射線晶體學、核磁共振、低溫電子顯微鏡)已經確定并積累了大量蛋白-蛋白復合物的原子分辨率3D結構。截至2020年9月2日,PDBe數據庫(https://www.ebi.ac.uk/pdbe/)中已有7000個非冗余結構。許多機器學習方法已經發展到可以從這些實驗3D結構中學習復雜的相互作用模式。與其他機器學習技術不同,深度神經網絡有望在非迅速達到性能穩定的情況下,從數百萬數據中學習,這是通過獲取硬件加速器(如GPU、TPU)和并行文件系統技術進行計算處理實現的。

    以圖形表示蛋白界面的圖形神經網絡(GNN)也已被應用于蛋白界面的預測。深度神經網絡在結構生物學中的應用有一個著名的案例,即AlphaFold2,這是在最新一期CASP14中在單鏈蛋白結構預測方面的最新突破。然而,預測蛋白復合物的3D結構仍然是一大挑戰:在CASP14中,除非有已知的模板,否則沒有一個單獨的組裝能被正確預測。這就需要開源的框架,因為它可以很容易地被社區修改和擴展以用于數據挖掘蛋白質復合物,并可以加速相關科學知識的發現。

    挖掘3D蛋白復合物數據目前存在幾個獨特的挑戰。首先,蛋白界面受物理化學規則的控制,不同類型的蛋白復合物(如酶-底物、抗體-抗原)可能具有不同的顯性相互作用特征;其次,蛋白質相互作用可以在不同的水平上進行表征:原子-原子水平、殘基-殘基水平和二級結構水平;第三,蛋白質界面,在形狀、大小和表面曲率方面具有高度多樣性;最后,蛋白質的大量原子坐標文件的高效處理和特征化,在計算成本和文件存儲需求方面是令人生畏的。

    主要內容

    荷蘭烏德勒支大學的Alexandre M. J. J. Bonvin 和Li C. Xue等研究者開發了DeepRank,一種基于3D CNNs的蛋白質-蛋白質界面數據挖掘的通用深度學習平臺。DeepRank將PDB中生物分子復合物的三維原子坐標計算出的原子和殘留級特征映射到三維網格上。DeepRank允許使用包含數百萬PPIs的數據集,高效地訓練3D CNNs,并支持分類和回歸。研究者展示了DeepRank在兩個不同挑戰上的表現:生物與晶體學PPIs的分類,以及對接模型的排序。在這兩個問題上DeepRank都是具有競爭力的,甚至優于最先進的方法。這證明了其在結構生物學研究框架的多功能性。相關的研究成果以“DeepRank: a deep learning framework for data mining 3D protein-protein interfaces”為題發布在國際著名期刊Nature Communications上。

    python包地址

    https://pypi.org/project/deeprank/

    源代碼地址

    https://github.com/DeepRank/deeprank

    ?

    DeepRank概述

    DeepRank允許對3D蛋白-蛋白復合物的數據集進行端到端訓練??蚣苡蓛蓚€主要部分組成,一個是數據預處理和特征化,另一個是神經網絡的訓練、評估和測試。特征化利用MPI并行化和GPU卸載,來確保在非常大的數據集上的高效計算。

    數據預處理和特征化:

    (1)?特性計算。從描述蛋白-蛋白復合物的3D結構的PDB文件開始,DeepRank利用pdb2sql來識別兩個鏈之間的界面殘基;默認情況下,界面殘基定義為那些與任何原子在5.5 ?距離截止(可配置)的其他鏈的任何原子(圖1A)。表1中給出的原子和基于殘差的特性,在默認情況下是計算出來的,但是用戶可以輕松定義新的特性,并將這些新的特性包含在他們的特性計算工作流中。

    Nat. Commun. | DeepRank:一種用于挖掘3D蛋白-蛋白界面的深度學習框架

    表 1. DeepRank中預定義的界面特性。表格來源于Nat. Commun.

    (2)?三維網格特征映射。DeepRank利用高斯映射,將復合體界面的原子和殘基特征映射到三維網格上。圖1A說明了基于殘基特征的映射過程。由于這種高斯映射,每個特征在三維特征網格上都具有非局部效應,從而形成大量的網格點。PPIs的這種特征映射產生了一個3D圖像,其中每個網格點包含多個通道值,對應于界面的不同屬性。多種數據增強和PPIs結構對齊策略可以豐富數據集。

    (3)?靈活的靶標值定義和計算。用戶可以很容易地為自己的蛋白結構定義特定問題的靶標值。在計算對接場景下,評估對接模型質量的標準指標是通過與參考結構的比較得到的,CAPRI(預測交互的關鍵評估)中使用的一些指標已集成到DeepRank中。比如配體RMSD、界面RMSD (iRMSD)、FNAT(原生接觸分數)、CAPRI質量標簽和DockQ評分。DeepRank能利用pdb2sql高效地執行這些計算。

    (4)?高效的HDF5格式數據存儲。處理數千萬個具有豐富特征表示的PDB文件,對文件系統和深度神經網絡的有效訓練都是一個挑戰。DeepRank以HDF5格式存儲特征網格(圖1B),特別適合存儲非常大的異構數據集。

    Nat. Commun. | DeepRank:一種用于挖掘3D蛋白-蛋白界面的深度學習框架

    圖 1. DeepRank框架。圖片來源于Nat. Commun.

    應用1:檢測晶體構造

    X射線晶體學,是測定蛋白質復合物三維結構最重要的實驗方法之一(它占所有PDB已存條目的80%)。當涉及到復合物的結構時,產生的晶體通常包含多個界面,其中一些與生物學相關,而另一些僅僅是結晶過程的產物,即所謂的“晶體界面”(圖2A, B)。在沒有額外信息的情況下,區分晶體界面和生物界面仍然具有挑戰性。

    Nat. Commun. | DeepRank:一種用于挖掘3D蛋白-蛋白界面的深度學習框架

    圖2. 利用DeepRank對生物界面和晶體界面進行分類。圖片來源于Nat. Commun.

    在由2828個生物界面和2911個晶體界面組成的MANY數據集上,研究者只使用了Position Specific Scoring Matrix (PSSM)特征對指定的3D CNN進行了訓練和驗證。每個結構在訓練前先用隨機旋轉(30次)增強。研究者采用驗證損失的早停法來確定最優模型。訓練后的網絡,在包含80個生物界面和81個晶體界面的DC數據集上進行了測試。測試得知,經過訓練的網絡在80個生物界面中正確分類了66個,在81個晶體界面中正確分類了72個(圖2C)。DeepRank的準確率達到86%,優于PRODIGY-crystal和PISA,后者分別為74%和79%(圖2D)。

    應用2:排序對接模型

    對于單個蛋白的三維結構,蛋白界面通常是通過生成數以萬計的候選構象(模型)來構建它們的相互作用模式,然后使用評分函數對這些模型進行排序,以選擇正確的(接近原生的)模型(圖3A)。

    Nat. Commun. | DeepRank:一種用于挖掘3D蛋白-蛋白界面的深度學習框架

    圖3. DeepRank應用于對接評分問題。圖片來源于Nat. Commun.

    研究者使用HADDOCK為對接基準v5 (BM5)集生成了一套不同質量的對接模型,包括剛性對接、柔性對接和最終的精準對接模型。在這項工作中,研究者關注142個二聚體,這些二聚體在生成的數據集中具有接近原生模型的可用性,在生成的數據集中,排除了所有的抗體-抗原復合物。

    DeepRank在剛性對接階段生成的HADDOCK模型上表現良好。DeepRank的評分能夠很好地區分接近原生的模型和錯誤的模型(圖3B),而HADDOCK的評分在這兩個類別之間呈現出顯著的重疊。在排序性能方面,DeepRank通過在Top N名中選擇更接近原生的模型,在剛性對接模型上優于HADDOCK(圖3C頂部)。

    DeepRank和HADDOCK在水-精準對接模型中的差異并不明顯(圖3C底部)。然而,請注意,HADDOCK要求對剛性、柔性對接和水-精準階段生成的模型使用不同的評分函數,而DeepRank對所有階段使用相同的評分函數。對DeepRank和HADDOCK在不同階段的成功率進行了分析,證實了DeepRank在每種類型模型上的表現都略好于HADDOCK。這再次證實了DeepRank評分的穩健性,因為它提供的單一評分在不同的模型中都表現良好。

    DeepRank的優點

    1. 從用戶的角度來看,該平臺界面對用戶十分友好。它實現了許多可以輕松調優的選項。特征化和神經網絡架構的設計提供了靈活性。這使得它直接適用于一系列使用蛋白-蛋白界面作為輸入信息的問題。

    2. 從開發人員的角度來看,DeepRank是一個軟件包,它遵循軟件開發標準,包括版本控制、持續集成、文檔和易于添加的新特性。這種靈活性增加了可維護性和社區對DeepRank的進一步開發,例如,允許預測單個蛋白質結構上的突變效應。

    3. 計算效率:DeepRank的開發使得利用數百萬PDB文件來訓練模型和測試其性能成為可能。

    4. 最后,在兩個不同的研究問題上,它們的表現與最先進的技術相媲美,證明了DeepRank在一般結構生物學中的多功能性。

    總結

    本文描述了一個開源的、通用的、可擴展的深度學習框架,可用于對海量的蛋白-蛋白界面數據集進行數據挖掘。研究者證明了在結構生物學的兩個不同挑戰中應用DeepRank的有效性和敏捷性。DeepRank有望能夠通過簡化繁瑣的數據預處理步驟,降低大規模數據分析可能帶來的令人生畏的計算成本,從而加快與蛋白界面相關的科學研究。

    DeepRank的模塊化和可擴展的框架具有極大的潛力,可促進計算結構生物學社區在其他蛋白質結構相關主題上的協作開發,并將有助于在結構生物學研究中應用和發展深度學習技術。

    參考文獻

    Renaud, N., Geng, C., Georgievska, S. et al. DeepRank: a deep learning framework for data mining 3D protein-protein interfaces. Nat Commun 12, 7068 (2021). https://doi.org/10.1038/s41467-021-27396-0

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放