中大唯信·唯信計算

Nat. Comput. Sci. | 打通蛋白結構預測最后一公里：深度圖神經網絡有效加速蛋白模型優化

背景介紹

高精度的蛋白質結構預測，有助于從分子水平上理解生物過程。在過去的幾年中，由于深度卷積殘差網絡(ResNet)以及最近在AlphaFold2中實現的注意力網絡的引入，蛋白質結構預測有了很大的進展。然而，相當大比例預測的蛋白質結構模型仍然偏離其真實結構，從而限制了它們在下游應用中的價值。為了進一步提高模型質量，人們在開發模型優化方法方面進行了大量的工作，主要目標是將初始模型進一步優化，生成更高質量的新模型。然而，這是一個非常具有挑戰性的任務，因為較差模型的空間比較好模型的空間大得多。許多CASP參與者提交的優化后模型的質量反而比他們的初始模型要差。

典型的模型優化方法，包括側鏈重裝、能量最小化和約束結構抽樣。由于能量函數通常很難優化，如果沒有大規模的構象抽樣，模型質量可能無法得到提升。目前，最成功的優化方法是通過分子動力學(MD)模擬或片段組裝進行大規模構象采樣，例如，Feig等人采用平底諧波約束迭代MD模擬采樣構象，利用Rosetta評分函數選取樣本模型的子集，取平均值，建立最終的優化模型；Baker組采用局部誤差估計方法，通過片段組裝的方法指導構象采樣，并通過重新組合二次結構片段和替換扭轉角的方法迭代優化模型，利用Rosetta評分函數確定最后一次迭代的最低能量模型，然后與構象鄰域進行平均，建立最終的優化模型；由Seok組開發的GalaxyRefine2采用多種構象搜索策略，模型誤差估計可以約束采樣空間，防止穩定結構區域的退化；DeepAccNet使用3D和2D卷積網絡來估計殘差精度和殘差間隔距離誤差，然后將其轉換為羅塞塔約束來指導構象采樣。盡管這些方法在某些蛋白質上表現良好，但它們依賴于廣泛的構象采樣，因此，即使是單個蛋白質模型也需要大量的計算資源。

目前，優化蛋白質模型以獲得更好的模型質量是極具挑戰性的工作。而最成功的優化方法，依賴于廣泛的構象采樣，因此，優化一個蛋白質模型通常需要幾個小時，幾天，甚至更長的時間。為此，來自美國芝加哥豐田計算技術研究所的許錦波教授等研究者，提出了一種快速有效的方法，可以在非常有限的構象采樣的情況下優化蛋白質模型。該方法采用GNN(圖神經網絡)從初始模型預測優化的原子間距離概率分布，然后以預測的距離為約束條件重建模型。相關的研究成果以“Fast and Effective Protein Model Refinement by Deep Graph Neural Networks”為題發布在國際著名期刊Nature Computational Science上。

方法概述

研究者提出了一種新的模型優化方法——GNNRefine，它可以快速提高模型質量，而不需要大量的構象采樣。GNNRefine的流程圖，主要包括以下三個步驟：

(1) 將初始模型表示為圖，從初始模型中提取原子、殘差和幾何特征；

(2) 利用圖神經網絡(GNN)預測圖中每條邊的優化距離；

(3) 將預測的距離概率轉化為距離勢能函數，并將其輸入到PyRosetta FastRelax中，通過側鏈組裝和能量最小化產生優化模型。

GNNRefine主要由三個模塊組成：原子嵌入層、多個消息傳遞層和輸出層。原子嵌入層用于學習一個殘基的原子級結構信息，所得到的原子嵌入與其他殘基特征相連接，形成殘基的最終特征。蛋白質圖建立在殘基特征(節點)和殘基對之間的鍵或接觸特征(邊)上。通過多個消息傳遞層迭代更新節點和邊緣特征，獲取全局結構信息。最后，利用一個線性層和一個softmax函數從邊緣特征預測距離概率分布。(圖1)

將預測的距離概率轉換為距離勢能，然后將距離勢能輸入到PyRosetta FastRelax中，建立優化模型。在CASP13數據集上測試，當使用10個cpu運行FastRelax(生成50個優化模型)時，研究者的方法平均只需要15分鐘來優化一個蛋白質模型。相比之下，Baker組的DeepAccNet需要在50個cpu上工作超過10個小時，才能優化一個有120個殘基的蛋白質模型。

優化目標性能

在此，研究者將上述方法與CASP13優化類別中的兩個領先的人工組(FEIGLAB和BAKER)以及5個服務器組(Seok-server、Bhattacharya-Server、YASARA、MUFold_server和3DCNN)進行了比較。評估的第一個提交的模型的質量，如表1所示；圖2為ΔGDT-HA分布的箱線圖。即使僅為每個初始模型生成5個優化模型，GNNRefine也具有與這兩個人工組相當的性能，并且在質量改進方面優于所有5個服務器組。此外，研究者的方法只生成4個較初始模型質量稍差的優化模型，但所有其他方法包括兩個人工組，都產生了許多更差的優化模型。因此，使用GNNRefine來優化模型是非常安全的。(表1和圖2)

同時，研究者也在37個CASP14優化目標上測試了該方法，并也將其與兩個人工組(FEIG和BAKER)以及四個服務器組(FEIG-S、Seok-server、Bhattacharya-Server和MUFold_server)進行了比較。表2總結了相關性能，圖3給出了ΔGDT-HA分布的箱線圖?？偟膩碚f，在CASP14的優化目標上，GNNRefine比FEIG的方法略差，與BAKER的方法相當，但優于其他方法。同時GNNRefine產生了最少的更差的優化模型。(表2和圖3)

GNNRefine成功地大幅度優化了5個CASP測試模型(3個CASP13模型和2個CASP14模型)的質量，把它們的GDT-HA分數提高最少10個點。圖4顯示了4個已經有公開實驗結構的模型，表明該方法可以在不同的二次結構區域(螺旋、片和線圈)優化初始模型。(圖4)

GNNRefine優于現有的獨立軟件

研究者還將GNNRefine方法與一些公開可用的軟件，如GalaxyRefine和ModRefiner進行了比較。GalaxyRefine采用默認配置在本地運行。ModRefiner在[0,100]中有一個可配置的參數強度，來控制從初始模型中提取的約束的強度，強度0表示沒有約束，而強度100表示初始模型的約束非常嚴格，研究者采用了三個不同的強度值(0, 50, 100)運行ModRefiner。作為對比，研究者也不使用GNNRefine預測的距離約束來運行PyRosetta FastRelax。表3顯示了在CASP13測試模型上三種方法的性能和運行時間，從所有指標來看，GNNRefine優于其他方法。(表3)

GNNRefine距離預測改善的原因

研究者從top L接觸精度和lDDT兩方面評估了GNNRefine預測的距離。對于每個殘差對，將8?以下距離的預測概率求和為預測接觸概率。根據其各自遞增的Cβ-Cβ歐幾里德距離來選擇初始模型中的top L接觸殘差對。為了計算GNNRefine預測的距離的lDDT，對于每個殘差對，研究者使用預測概率最高的區間的中間點作為其距離的預測。與此同時，研究者只考慮預測距離小于20?的Cβ-Cβ對。從表4可以看出，GNNRefine預測的距離在接觸精度和lDDT方面都優于啟動模型。(表4)

GNN在模型細化方面優于ResNet

卷積殘差神經網絡(ResNet)，已經廣泛應用于蛋白質接觸和距離預測。Baker組開發了一種基于ResNet的DeepAccNet方法用于模型的優化。為了在有限的構象采樣條件下測試DeepAccNet的性能，研究者將DeepAccNet生成的距離勢能輸入到PyRosetta FastRelax中，使用與GNNRefine完全相同的方法建立優化模型。此外，研究者還開發了一個內部的ResNet模型(包含41個2D卷積層)來預測與初始模型的距離，并測試其預測的距離是否可以用于優化模型。為公平地比較這三種方法，在實驗中研究者只使用了一個GNNRefine模型來進行細化。

對于每種方法，研究者從每個初始模型中生成10個優化模型，并選擇能量最低的模型作為最終的優化模型。表5顯示，GNN方法大大優于研究者內部開發的ResNet方法，而ResNet又優于DeepAccNet。也就是說，DeepAccNet在不使用廣泛的構象采樣時無法優化模型，但GNN方法是有效的。(表5)

GNN比ResNet在模型優化方面工作得更好的根本原因是GNN比ResNet更容易建模多個殘基的相關性。大多數蛋白質的半徑與它們長度的立方根成正比，所以任何兩個在一級序列上完全分開的殘基都可以在蛋白質圖中，通過比蛋白質長度立方根短的路徑連接起來。因此，ResNet更適合于初步預測殘基間關系，而GNN更適合于進一步優化殘基間關系。

消融研究

為評估單個因素對GNNRefine的貢獻，研究者評估了如表6中不同數據和不同特征訓練的GNNRefine模型。結果表明，大的訓練數據、殘差方向和DSSP衍生的特征是三個最重要的因素，而總體上原子嵌入并不能提供有用的信息。(表6)

圖表匯總

圖 1. 用于蛋白質模型優化的GNNRefine方法。圖片來源于Nat. Comput. Sci.

表1. CASP13優化目標上的性能。表格來源于Nat. Comput. Sci.

圖2. ΔGDT-HA值在CASP13優化目標上分布的Box圖。圖片來源于Nat. Comput. Sci.

表2. 所有CASP14優化目標上的性能。表格來源于Nat. Comput. Sci.

圖3. ΔGDT-HA值在CASP14優化靶點上分布的Box圖。圖片來源于Nat. Comput. Sci.

圖4. GNNRefine對CASP13的R0974s1、R0976-D2和R0993s2以及CASP14的R1082目標的成功優化范例。圖片來源于Nat. Comput. Sci.

表3. 在CASP13優化目標上獨立軟件的性能。表格來源于Nat. Comput. Sci.

表4. 預測距離與初始模型中距離的比較。表格來源于Nat. Comput. Sci.

表5. 基于GNN和ResNet的方法在CASP13優化目標上的性能。表格來源于Nat. Comput. Sci.

表6. 對不同特征和訓練數據的GNN在CASP13優化目標上的性能研究。表格來源于Nat. Comput. Sci.

結論總結

本文作者提出了一種新的蛋白質模型優化方法GNNRefine。GNNRefine利用圖神經網絡(GNN)從初始模型預測殘差距離分布，然后將預測的距離信息輸入PyRosetta FastRelax建立優化模型。由于只使用有限的構象抽樣，GNNRefine可以非?？焖俚馗倪M模型。研究表明，即使從一個初始模型中生成5個優化模型(約耗時15分鐘)，GNNRefine也可以提高模型質量，幾乎和生成50個優化模型一樣好，而且GNNRefine可以比一些使用廣泛的構象抽樣的方法更好。此外，當構象采樣受限時，GNNRefine在蛋白質模型優化方面比ResNet好得多，因為GNN可以比ResNet更好地預測初始模型優化后的距離。

數據下載

In-house data: http://raptorx.uchicago.edu/download/

DeepAccNet data: https://github.com/hiranumn/DeepAccNet

CASP13 and CASP14 models for refinement: https://predictioncenter.org/

CAMEO models: https://www.cameo3d.org/modeling/

參考文獻

Xiaoyang Jing, Jinbo Xu, Fast and Effective Protein Model Refinement Using Deep Graph Neural Networks, Nature Computational Science, 2021, ASAP. DOI: 10.1038/s43588-021-00098-9.?