<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    Nat. Mach. Intell. | 不考慮共進化信息的基于深度學習改進的蛋白質結構預測模型

    Nat. Mach. Intell. | 不考慮共進化信息的基于深度學習改進的蛋白質結構預測模型

    引言

    通過整合深度學習和共進化分析,從蛋白質的一級序列來預測其三級結構方法已經有了很大的改進,在CASP13和CASP14中表現的極為明顯。本文描述了一項最新研究,分析了網絡大小和共進化數據的有效性及其在天然蛋白和人工設計蛋白上的表現。結果表明,一個大的ResNet(卷積殘差神經網絡)可以預測出26個正確的折疊結構,精度超過80%。當不使用共進化時,ResNet仍然可以預測18個正確結構,大大超過了以前不使用共進化的方法。即使只有一級序列,ResNet也能預測出所有人工設計蛋白質的正確折疊結構。此外,ResNet在沒有共進化信息的情況下要比有共進化信息的情況下表現的更好。這些結果表明ResNet可以學習蛋白質序列-結構之間的重要關系。這對蛋白質設計和工程有重要的意義,尤其是在共進化數據不可用時。

    方法概述

    本文方法由兩個關鍵部分組成。第一個部分是用于預測三個主鏈原子對(C–C、C–C和N–O)的離散概率分布以及殘基間取向(trRosetta定義)的深度ResNet。第二個部分是一個增強的基于梯度的能量最小化方法,該方法從預測的距離、方向和主干扭轉角得到的電勢來建立蛋白質模型。PyRosetta fast relax方法用于側鏈packing和減少空間沖突。整體網絡架構與CASP13中使用的網絡架構類似,除了這里使用的ResNet更大更寬,具有100個2D卷積層,并且平均每層150個濾波器。CASP13中的ResNet只有60個2D卷積層,平均每層80個濾波器。本文使用多任務學習策略,并進行了充分的測試,可以同時預測所有的距離和方向矩陣。多任務學習并不能獲得明顯的性能提升,但它大大減少了模型訓練的時間和模型的數量。

    采用共進化信息時建模精度

    通過為每個目標生成150個誘餌并對它們進行聚類來測試本文ResNet。當四個ResNet模型作為一個集合時,第一和最佳預測模型的平均質量值(TMscore)分別為0.638和0.659。這一點可以進一步改進。每個目標生成600個誘餌可將第一和最佳模型質量值分別提高到0.640和0.675,并且將2D ResNet大小增加到120個卷積層(和每層170個濾波器)可將第一和最佳模型質量值分別提高到0.646和0.673。在考慮最佳模型的情況下,本文方法預測了32個FM目標中26個的正確折疊結構。這些結果表明,ResNet可以生成新穎的結構,產生的模型質量明顯高于簡單訓練集所能達到的效果。如下圖所示,模型質量與MSA深度之間存在適度相關性。本文方法可以預測出所有測試目標的正確折疊,但兩個測試目標[ln(MSA深度)>3]除外。本文的三維建模精度要比之前報道的結果效果更好。例如,在CASP13中,AlphaFold 1預測了32個CASP13 FM目標中23個的正確折疊結構,第一和最佳模型的平均TMscore 分別為0.583和0.625。trRosetta對32個CASP13 FM目標建模的平均TMscore 為0.618。

    不使用共進化信息時預測三維模型的精度

    在這里,本文總結和分析了沒有使用共同進化的ResNet如何預測32個CASP13 FM靶點和21個人類設計的蛋白質的結構。沒有共進化信息的CASP13 FM靶模型。ResNet生成的第一和最佳三維模型的平均質量(TMscore)分別為0.478和0.506。當考慮到最佳預測模型時,ResNet預測了32個CASP13 FM目標中的18個的正確折疊。圖2c顯示了建模精度和目標-訓練結構相似性之間的弱相關性(相關系數=0.363,趨勢線R=0.1315)。建模精度與MSA深度(相關系數=0.211,趨勢線R=0.0448)之間的相關性比使用共進化時弱,這并不意外。為了讓讀者更好地理解本文的工作,作者將其與頂級服務器Robetta和RGN進行了比較。Robetta是CASP13中最好的服務器,它沒有使用深度學習。它結合了基于模板的建模、從頭計算和基于共進化的接觸預測。RGN是一種端到端的深度學習方法,它可以從序列中預測蛋白質結構,而不是共進化。Robetta提交的32個CASP13 FM目標的first和best模型的平均核心值分別為0.390和0.430。RGN模型的平均核數為0.251。Robetta和RGN都比本文的方法差很多。此外,對于幾乎所有32個FM目標,ResNet在沒有共進化信息的情況下訓練預測出比RGN質量更好的3D模型。RGN無法預測所有32個測試目標的正確折疊結構,而Robetta和ResNet則只是分別預測了7個和15個正確折疊,即使只考慮第一模型。模擬人類設計的蛋白質。ResNet可以預測18種設計蛋白質中16種的正確折疊結構。當進化信息完全不可用時,ResNet仍然可以預測幾乎所有21種蛋白質的正確折疊結構。由RGN生成的21個模型的平均TMscore為0.363,比沒有共同進化和使用原始序列作為輸入的ResNet訓練的要差得多??偟膩碚f,RGN只預測了三種人類設計的蛋白質的正確折疊,而ResNet只預測了14種人類設計的蛋白質的正確折疊。Yang等人測試了21種人類設計的蛋白質中的11種。trRosetta預測的3D模型的平均TMscore為0.661,與使用共進化訓練的ResNet相當,這并不奇怪,因為trRosetta也使用共進化訓練。

    圖表匯總

    Nat. Mach. Intell. | 不考慮共進化信息的基于深度學習改進的蛋白質結構預測模型

    表1. 不同配置下ResNet對CASP13目標進行長距離接觸預測的精度和F1值

    表格來源于Nat. Mach. Intell.

    ?

    Nat. Mach. Intell. | 不考慮共進化信息的基于深度學習改進的蛋白質結構預測模型

    圖1. 不同ResNet模型對31個CASP13 FM 目標的接觸預測精度

    圖片來源于Nat. Mach. Intell.

    ?

    Nat. Mach. Intell. | 不考慮共進化信息的基于深度學習改進的蛋白質結構預測模型

    圖2. 32個CASP13 FM 目標的3D建模精度(Tmscore)

    圖片來源于Nat. Mach. Intell.

    圖3. 對于人工設計蛋白質的三維建模精度

    圖片來源于Nat. Mach. Intell.

    亮點總結

    本文介紹了deep-ResNet在結構預測方面的最新研究成果。研究表明,雖然ResNet在結構預測方面有了很大的改進,但是仍然可以改進??梢允褂靡粋€更大的ResNet、共進化矩陣和元基因組數據的組合來進行優化。此外,基于梯度的能量最小化和內部殘基方向也有助于三維建模。

    當不使用共進化時,用序列訓練的ResNet可以預測超過一半的CASP13 FM靶點和測試的所有人類設計的蛋白質的正確折疊結構。此外,對于人類設計的蛋白質,當序列同源物較少時,序列輪廓可能比共進化更有用。在進化信息不可用的情況下(即只有一級序列可用),ResNet仍然可以預測幾乎所有人類設計的蛋白質的正確折疊,盡管平均模型質量有所下降。這些結果表明ResNet可以從實驗蛋白結構中學習控制蛋白質折疊的重要信息。因此,ResNet可用于快速驗證設計的蛋白質是否具有所需的結構,從而避免了對昂貴且耗時的濕實驗室的需要。

    盡管ResNet可以在不使用任何進化信息的情況下預測人類設計的蛋白質的正確折疊結構,但它在天然蛋白質上的效果并不好,可能是因為人類設計的蛋白質通常比天然蛋白質有更深的能量井。對于大多數天然蛋白質,本文方法仍然需要少量的序列同源物才能工作。然而,在自然界中,蛋白質在不知道其序列同源物的情況下折疊。希望在將來可以得到一種方法能夠在不使用序列同源物的情況下折疊蛋白質。

    代碼下載

    https://github.com/j3xugit/RaptorX-3DModeling/

    https://doi.org/10.5281/zenodo.4642250

    在線服務

    http://raptorx.uchicago.edu/

    參考文獻

    Xu, Jinbo; McPartlon, Matthew; Li, Jin, Improved Protein Structure Prediction by Deep Learning Irrespective of Co-Evolution Information, Nature Machine Intelligence, 2021, ASAP. DOI: 10.1038/s42256-021-00348-5.

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放