

一種集成了多個深度學習和基于協同進化的接觸圖方法——C-QUARK,在非同源蛋白結構建模領域取得了極大進展,正確折疊的蛋白數量是其他方法的6倍。
背景介紹
從頭蛋白結構預測,通常指的是不使用PDB中的同源模板來建模蛋白結構的方法,在過去的幾十年里引起了人們極大的興趣。CASP(蛋白質結構預測的關鍵評估)實驗,見證了這一方向的長足進展。例如直到10年前,從頭算模型還只能折疊長度小于100個殘基的小蛋白質,但在最近的CASP實驗中,包括Rosetta和QUARK在內的幾個先進的pipelines,對長度大于100個殘基的靶標都生成了正確的折疊。這些進展主要歸功于能量力場和搜索引擎的發展,這些引擎有助于在模擬折疊過程中獲得接近自然狀態的全局最小能量。但目前的力場和搜索引擎,往往無法捕捉到蛋白質中精確的遠程原子相互作用。因此,基于從頭算折疊方法的復雜拓撲大蛋白建模的精度還有待商榷,而且遠遠不能令人滿意。
克服從頭算模型局限性的有效方法之一,是引入遠程接觸,即把在蛋白質序列中被至少24個殘基分開的接觸作為折疊模擬中的約束。殘基間接觸的先驗知識有助于將構象搜索限制為接近自然態,但需要足夠高的接觸預測精度。接觸圖預測的早期研究,主要集中在協同進化和機器學習上,但由于接觸圖預測的準確性有限,接觸圖預測對從頭構造折疊的影響不大。直接耦合分析(DCA)和深度神經網絡學習技術的引入,使接觸預測的精度有了質的飛躍。DCA有助于從多序列比對(MSAs)中去除平移接觸噪聲,而監督深度學習技術則從PDB結構中學習內在接觸模式,這些結構是從MSAs衍生的協同進化特征開始的。盡管接觸預測取得了顯著的進展,但除非預測的接觸與折疊模擬有效地結合起來,否則當前從頭算建模協議無法發揮其全部潛力。特別是當序列較長時,基于序列的接觸預測精度會偏低,如何平衡嘈雜的接觸圖與先進的折疊模擬力場,構造正確的從頭算結構折疊,仍是一個重要且具有挑戰性的問題。
主要內容
基于序列的接觸預測,在輔助非同源結構建模方面顯示了相當廣的前景,但它往往需要足夠數量的正確接觸才能實現正確的折疊。為此,來自美國密歇根大學的Yang Zhang等研究者,在QUARK的基礎上進行了擴展,開發了接觸引導的從頭算折疊程序C-QUARK;QUARK是自2010年以來,一直被評為CASP實驗的頂級方法之一。采用該方法對247個非冗余蛋白進行檢測,在TM評分(模板建模評分)≥0.5的情況下,C-QUARK可以折疊75%的范例,是QUARK的2.6倍。對于接觸精度低或同源序列少的59個案例,C-QUARK正確折疊的蛋白質數量比其他基于接觸的折疊方法高6倍。同時,C-QUARK在第13次CASP(蛋白結構預測的關鍵評估)實驗中的64個自由建模靶點上進行了測試,其平均GDT_TS(全局距離測試)得分比最佳CASP預測因子高5%。相關的研究成果以 “Improving fragment-based ab initio protein structure assembly using low-accuracy contact-map predictions” 為題發布在國際著名期刊Nature Communications上。
C-QUARK在從頭算結構預測方面明顯優于QUARK
基于最先進的從頭算蛋白質折疊模擬程序QUARK,C-QUARK首先從全基因組和宏基因組序列數據庫中收集多序列比對(MSA),其中兩種接觸圖由深度學習和基于協同進化的預測器創建。其次,從不相關的PDB結構中收集連續序列長度(1-20 AA)的結構片段,并在由基于知識的能量項組成的復合力場的指導下,通過副本交換蒙特卡羅(REMC)模擬組裝全長結構模型,根據距離分布,從結構碎片中收集殘基間接觸,以及基于序列的接觸圖預測(圖1)。

圖 1. 用于接觸引導從頭算蛋白質結構預測的C-QUARK流程圖。圖片來源于Nature Communications
表1總結了折疊結果,其中C-QUARK的第一個模型的平均TM-評分(模板建模得分)(0.606)比QUARK(0.423)高43%。這一差異對應的p值為6.8× 10-51,這表明從接觸圖預測的改善在統計學上是高度顯著的。表1還列出了前5個模型中最好的結果,這些結果是基于SPICKER的decoy大小進行排名的,其中C-QUARK再次顯著優于QUARK,其平均TM評分(=0.629)比后者(=0.468)高34%,p值為6.8× 10-47。

表1. 247個檢測蛋白的C-QUARK和QUARK結構建模綜述。表格來源于Nature Communications
為了檢驗C-QUARK在特定目標上的優勢,研究者給出了圖2a中與QUARK的頭對頭的TM評分比較。數據表明,在247個靶點中,C-QUARK生成的模型中有224個(212個)比QUARK生成的模型具有更高的TM評分(或更低的RMSDs)。當考慮前5個模型中的最佳模型時,兩個程序生成的正確折疊數分別增加到196和90。相反,在46%的QUARK無法折疊的情況下,C-QUARK產生了正確的折疊,這表明接觸限制在C-QUARK從頭折疊蛋白質結構的過程中起著主要的積極作用。

圖2. 247個檢測蛋白的C-QUARK模型和QUARK模型比較。圖片來自Nature Communications
在圖2b中,研究者進一步考察了C-QUARK和QUARK對不同長度蛋白質的折疊能力。對于長度在50-100、101-150、151-200、201-250和251-300之間的蛋白,C-QUARK模型的平均TM值分別為0.588、0.621、0.638、0.542和0.627,而QUARK模型的平均TM值分別為0.516、0.431、0.388、0.300和0.333。對于156個小蛋白,C-QUARK模型和QUARK模型的平均TM評分分別為0.607和0.467,對應C-QUARK模型的TM評分僅提高了30%。而91個大蛋白的改進率為74%,其中C-QUARK和QUARK的平均TM評分分別為0.604和0.347。此外,C-QUARK對小蛋白質和大蛋白質的平均TM評分具有很大的可比性(0.607 vs 0.604),而QUARK對大蛋白質的建模精度顯著差(0.467 vs 0.347)。
案例研究揭示了中、長接觸對具有復雜拓撲結構的折疊蛋白的重要作用
為了研究顯著改進的原因,研究者給出了C-QUARK和QUARK模型與相應的本地結構的結構比較,以及圖3中三個測試用例的接觸圖預測。第一個例子(PDBID: 2d7jA)是一個有188個殘基的α – β蛋白,由11條β鏈、5條α -螺旋和一個310-螺旋組成。該結構域的核心是一個七股β片,其兩側被α螺旋包圍(圖3a)。圖3d中的原生接觸圖顯示,由于N-端(HN)和C-端(HC)的殘基之間的長程相互作用(圖3d中用矩形標記),螺旋在N-端(HN)和C端(HC)上的距離很近。大多數原生接觸,包括保持兩端螺旋在一起的遠程接觸,都能夠正確預測,其中接觸圖預測精度為0.648,如圖3d左三角形中的紅色圓圈所示。這些預測接觸的約束主要導致殘基在C-QUARK模型中與原生結構具有相同的接觸網絡的排列,如圖C-QUARK模型和圖3d左三角形中帶有藍色圓圈的接觸圖所示。核心區域的接觸限制,也有助于維持該區域的7條β鏈的整體拓撲結構。
因此,C-QUARK模型與本地模型非常相似,TM評分=0.793。另一方面,在QUARK模型中,由于缺乏N-和C-末端之間的遠距離接觸約束,在QUARK模型中,末端的兩個α螺旋彼此距離較遠。因此,QUARK模型的整體折疊和對應的接觸圖(圖3d直角三角形中的藍色圓圈)與本地有顯著差異,導致TM評分較低,為0.295。這個范例強調了接觸的重要性,特別是長期接觸,可用于正確建模大型α-β蛋白。

圖3. 接觸引導從頭構造折疊的說明性范例。圖片來自Nature Communications
結論總結
本文介紹了一個接觸引導的從頭算折疊程序,C-QUARK,它顯示出了對在PDB中沒有同源模板的“硬”蛋白建模能力的顯著提高。重要的是,C-QUARK正確生成折疊的總體成功率約為75%,是QUARK(29%)的2.6倍,表明接觸圖預測在改進從頭構造建模中的重要性。此外,C-QUARK顯示出對長度為>150殘基的大中型蛋白具有一致的折疊能力,這是幾十年來從頭算建模領域的挑戰之一。
總體來說,雖然C-QUARK還有很大的改進空間,許多策略/組件正在開發中,但本研究的結果表明它能有效地將接觸圖約束與折疊非同源蛋白和遠端同源蛋白的前沿折疊組裝模擬相結合,具有強大和顯著的應用優勢。
參考文獻
Mortuza, S.M., Zheng, W., Zhang, C. et al. Improving fragment-based ab initio protein structure assembly using low-accuracy contact-map predictions. Nat Commun 12, 5011 (2021). https://doi.org/10.1038/s41467-021-25316-w.