

背景介紹
高精度的蛋白質結構預測,有助于從分子水平上理解生物過程。在過去的幾年中,由于深度卷積殘差網絡(ResNet)以及最近在AlphaFold2中實現的注意力網絡的引入,蛋白質結構預測有了很大的進展。然而,相當大比例預測的蛋白質結構模型仍然偏離其真實結構,從而限制了它們在下游應用中的價值。為了進一步提高模型質量,人們在開發模型優化方法方面進行了大量的工作,主要目標是將初始模型進一步優化,生成更高質量的新模型。然而,這是一個非常具有挑戰性的任務,因為較差模型的空間比較好模型的空間大得多。許多CASP參與者提交的優化后模型的質量反而比他們的初始模型要差。
典型的模型優化方法,包括側鏈重裝、能量最小化和約束結構抽樣。由于能量函數通常很難優化,如果沒有大規模的構象抽樣,模型質量可能無法得到提升。目前,最成功的優化方法是通過分子動力學(MD)模擬或片段組裝進行大規模構象采樣,例如,Feig等人采用平底諧波約束迭代MD模擬采樣構象,利用Rosetta評分函數選取樣本模型的子集,取平均值,建立最終的優化模型;Baker組采用局部誤差估計方法,通過片段組裝的方法指導構象采樣,并通過重新組合二次結構片段和替換扭轉角的方法迭代優化模型,利用Rosetta評分函數確定最后一次迭代的最低能量模型,然后與構象鄰域進行平均,建立最終的優化模型;由Seok組開發的GalaxyRefine2采用多種構象搜索策略,模型誤差估計可以約束采樣空間,防止穩定結構區域的退化;DeepAccNet使用3D和2D卷積網絡來估計殘差精度和殘差間隔距離誤差,然后將其轉換為羅塞塔約束來指導構象采樣。盡管這些方法在某些蛋白質上表現良好,但它們依賴于廣泛的構象采樣,因此,即使是單個蛋白質模型也需要大量的計算資源。
目前,優化蛋白質模型以獲得更好的模型質量是極具挑戰性的工作。而最成功的優化方法,依賴于廣泛的構象采樣,因此,優化一個蛋白質模型通常需要幾個小時,幾天,甚至更長的時間。為此,來自美國芝加哥豐田計算技術研究所的許錦波教授等研究者,提出了一種快速有效的方法,可以在非常有限的構象采樣的情況下優化蛋白質模型。該方法采用GNN(圖神經網絡)從初始模型預測優化的原子間距離概率分布,然后以預測的距離為約束條件重建模型。相關的研究成果以“Fast and Effective Protein Model Refinement by Deep Graph Neural Networks”為題發布在國際著名期刊Nature Computational Science上。
方法概述
研究者提出了一種新的模型優化方法——GNNRefine,它可以快速提高模型質量,而不需要大量的構象采樣。GNNRefine的流程圖,主要包括以下三個步驟:
(1) 將初始模型表示為圖,從初始模型中提取原子、殘差和幾何特征;
(2) 利用圖神經網絡(GNN)預測圖中每條邊的優化距離;
(3) 將預測的距離概率轉化為距離勢能函數,并將其輸入到PyRosetta FastRelax中,通過側鏈組裝和能量最小化產生優化模型。
GNNRefine主要由三個模塊組成:原子嵌入層、多個消息傳遞層和輸出層。原子嵌入層用于學習一個殘基的原子級結構信息,所得到的原子嵌入與其他殘基特征相連接,形成殘基的最終特征。蛋白質圖建立在殘基特征(節點)和殘基對之間的鍵或接觸特征(邊)上。通過多個消息傳遞層迭代更新節點和邊緣特征,獲取全局結構信息。最后,利用一個線性層和一個softmax函數從邊緣特征預測距離概率分布。(圖1)
將預測的距離概率轉換為距離勢能,然后將距離勢能輸入到PyRosetta FastRelax中,建立優化模型。在CASP13數據集上測試,當使用10個cpu運行FastRelax(生成50個優化模型)時,研究者的方法平均只需要15分鐘來優化一個蛋白質模型。相比之下,Baker組的DeepAccNet需要在50個cpu上工作超過10個小時,才能優化一個有120個殘基的蛋白質模型。
優化目標性能
在此,研究者將上述方法與CASP13優化類別中的兩個領先的人工組(FEIGLAB和BAKER)以及5個服務器組(Seok-server、Bhattacharya-Server、YASARA、MUFold_server和3DCNN)進行了比較。評估的第一個提交的模型的質量,如表1所示;圖2為ΔGDT-HA分布的箱線圖。即使僅為每個初始模型生成5個優化模型,GNNRefine也具有與這兩個人工組相當的性能,并且在質量改進方面優于所有5個服務器組。此外,研究者的方法只生成4個較初始模型質量稍差的優化模型,但所有其他方法包括兩個人工組,都產生了許多更差的優化模型。因此,使用GNNRefine來優化模型是非常安全的。(表1和圖2)
同時,研究者也在37個CASP14優化目標上測試了該方法,并也將其與兩個人工組(FEIG和BAKER)以及四個服務器組(FEIG-S、Seok-server、Bhattacharya-Server和MUFold_server)進行了比較。表2總結了相關性能,圖3給出了ΔGDT-HA分布的箱線圖??偟膩碚f,在CASP14的優化目標上,GNNRefine比FEIG的方法略差,與BAKER的方法相當,但優于其他方法。同時GNNRefine產生了最少的更差的優化模型。(表2和圖3)
GNNRefine成功地大幅度優化了5個CASP測試模型(3個CASP13模型和2個CASP14模型)的質量,把它們的GDT-HA分數提高最少10個點。圖4顯示了4個已經有公開實驗結構的模型,表明該方法可以在不同的二次結構區域(螺旋、片和線圈)優化初始模型。(圖4)
GNNRefine優于現有的獨立軟件
研究者還將GNNRefine方法與一些公開可用的軟件,如GalaxyRefine和ModRefiner進行了比較。GalaxyRefine采用默認配置在本地運行。ModRefiner在[0,100]中有一個可配置的參數強度,來控制從初始模型中提取的約束的強度,強度0表示沒有約束,而強度100表示初始模型的約束非常嚴格,研究者采用了三個不同的強度值(0, 50, 100)運行ModRefiner。作為對比,研究者也不使用GNNRefine預測的距離約束來運行PyRosetta FastRelax。表3顯示了在CASP13測試模型上三種方法的性能和運行時間,從所有指標來看,GNNRefine優于其他方法。(表3)
?
GNNRefine距離預測改善的原因
研究者從top L接觸精度和lDDT兩方面評估了GNNRefine預測的距離。對于每個殘差對,將8?以下距離的預測概率求和為預測接觸概率。根據其各自遞增的Cβ-Cβ歐幾里德距離來選擇初始模型中的top L接觸殘差對。為了計算GNNRefine預測的距離的lDDT,對于每個殘差對,研究者使用預測概率最高的區間的中間點作為其距離的預測。與此同時,研究者只考慮預測距離小于20?的Cβ-Cβ對。從表4可以看出,GNNRefine預測的距離在接觸精度和lDDT方面都優于啟動模型。(表4)
GNN在模型細化方面優于ResNet
卷積殘差神經網絡(ResNet),已經廣泛應用于蛋白質接觸和距離預測。Baker組開發了一種基于ResNet的DeepAccNet方法用于模型的優化。為了在有限的構象采樣條件下測試DeepAccNet的性能,研究者將DeepAccNet生成的距離勢能輸入到PyRosetta FastRelax中,使用與GNNRefine完全相同的方法建立優化模型。此外,研究者還開發了一個內部的ResNet模型(包含41個2D卷積層)來預測與初始模型的距離,并測試其預測的距離是否可以用于優化模型。為公平地比較這三種方法,在實驗中研究者只使用了一個GNNRefine模型來進行細化。
對于每種方法,研究者從每個初始模型中生成10個優化模型,并選擇能量最低的模型作為最終的優化模型。表5顯示,GNN方法大大優于研究者內部開發的ResNet方法,而ResNet又優于DeepAccNet。也就是說,DeepAccNet在不使用廣泛的構象采樣時無法優化模型,但GNN方法是有效的。(表5)
GNN比ResNet在模型優化方面工作得更好的根本原因是GNN比ResNet更容易建模多個殘基的相關性。大多數蛋白質的半徑與它們長度的立方根成正比,所以任何兩個在一級序列上完全分開的殘基都可以在蛋白質圖中,通過比蛋白質長度立方根短的路徑連接起來。因此,ResNet更適合于初步預測殘基間關系,而GNN更適合于進一步優化殘基間關系。
消融研究
為評估單個因素對GNNRefine的貢獻,研究者評估了如表6中不同數據和不同特征訓練的GNNRefine模型。結果表明,大的訓練數據、殘差方向和DSSP衍生的特征是三個最重要的因素,而總體上原子嵌入并不能提供有用的信息。(表6)
圖表匯總

圖 1. 用于蛋白質模型優化的GNNRefine方法。圖片來源于Nat. Comput. Sci.
?

表1. CASP13優化目標上的性能。表格來源于Nat. Comput. Sci.
?

圖2. ΔGDT-HA值在CASP13優化目標上分布的Box圖。圖片來源于Nat. Comput. Sci.
??

表2. 所有CASP14優化目標上的性能。表格來源于Nat. Comput. Sci.
?

圖3. ΔGDT-HA值在CASP14優化靶點上分布的Box圖。圖片來源于Nat. Comput. Sci.
?

圖4. GNNRefine對CASP13的R0974s1、R0976-D2和R0993s2以及CASP14的R1082目標的成功優化范例。圖片來源于Nat. Comput. Sci.
?

表3. 在CASP13優化目標上獨立軟件的性能。表格來源于Nat. Comput. Sci.
?

表4. 預測距離與初始模型中距離的比較。表格來源于Nat. Comput. Sci.
本文作者提出了一種新的蛋白質模型優化方法GNNRefine。GNNRefine利用圖神經網絡(GNN)從初始模型預測殘差距離分布,然后將預測的距離信息輸入PyRosetta FastRelax建立優化模型。由于只使用有限的構象抽樣,GNNRefine可以非??焖俚馗倪M模型。研究表明,即使從一個初始模型中生成5個優化模型(約耗時15分鐘),GNNRefine也可以提高模型質量,幾乎和生成50個優化模型一樣好,而且GNNRefine可以比一些使用廣泛的構象抽樣的方法更好。此外,當構象采樣受限時,GNNRefine在蛋白質模型優化方面比ResNet好得多,因為GNN可以比ResNet更好地預測初始模型優化后的距離。
數據下載
In-house data: http://raptorx.uchicago.edu/download/
DeepAccNet data: https://github.com/hiranumn/DeepAccNet
CASP13 and CASP14 models for refinement: https://predictioncenter.org/
CAMEO models: https://www.cameo3d.org/modeling/
參考文獻
Xiaoyang Jing, Jinbo Xu, Fast and Effective Protein Model Refinement Using Deep Graph Neural Networks, Nature Computational Science, 2021, ASAP. DOI: 10.1038/s43588-021-00098-9.?