

引言
在最近的CASP14上,DeepMind給出了非常精確的預測(即AlphaFold 2)。本文作者探索了結合相關思想的網絡體系結構,并在一個三軌網絡中獲得了最佳性能,其中一維序列級、二維距離圖級和三維坐標級的信息進行依次轉換和集成。三軌網絡產生的結構預測精度接近CASP14中的DeepMind,能夠快速解決具有較高難度的X射線晶體學和冷凍電鏡結構建模問題。該網絡還能夠僅從一維序列信息快速生成精確的蛋白質-蛋白質復合物模型,優化傳統建模方法(即需要對單個亞單位進行建模,然后進行對接)。作者開源此方法以加速生物學研究。有了RoseTTAFold,在一臺游戲電腦上只需10分鐘就可以計算出蛋白質結構。這項工作由貝克實驗室博士后學者Minkyung Baek領導,相關的研究成果以“Accurate prediction of protein structures and interactions using a three-track neural network”為題發布在國際著名雜志Science上。
網絡結構開發
受一些研究成果的啟發,以提高結構生物學研究中蛋白質結構的準確預測和推進蛋白質設計為目標,作者探索了不同組合的網絡結構。最終成功地制造了一個“雙軌”網絡,信息沿著一維序列比對軌道和二維距離矩陣軌道并行流動,其性能遠遠優于trRosetta(在CASP14中僅次于AlphaFold2)。作者通過擴展到在三維坐標空間中運行的第三個軌道,在序列、剩余距離和方向以及原子坐標之間提供更緊密的連接,實現更好的性能。RoseTTAFold是一個“三軌”神經網絡,意味著它同時考慮蛋白質序列中的模式、蛋白質的氨基酸如何相互作用以及蛋白質可能的三維結構。在這種結構中,一維、二維和三維信息來回流動,使網絡能夠共同推理蛋白質的化學部分與其折疊結構之間的關系。
三軌模型在CASP14目標上的性能仍然不如AlphaFold2,這可能反映了作者可以使用的硬件限制了探索的模型性能。在對少于400個殘基的蛋白質進行結構預測時,在序列和模板搜索(約1.5小時)之后,端到端版本的RoseTTAFold在RTX2080 GPU上約10分鐘可以完成預測,pyRosetta版本需要5分鐘進行網絡計算,需要1小時在15個CPU核上進行所有原子結構生成。由于計算機內存限制和忽視側鏈信息而導致的不完全優化可能解釋了端到端版本與pyRosetta版本相比性能較差的原因。作者期望,一旦計算機硬件的局限性被克服,端到端的方法最終會同樣準確。
輔助實驗蛋白結構測定
作者同樣也研究了RoseTTAFold的實用性,便于輔助X射線晶體學和低溫電子顯微鏡進行實驗結構測定,為目前未知結構的關鍵蛋白質提供幫助。通過分子置換(MR)解決X射線結構通常需要相當準確的模型。RoseTTAFold的精確度比現有方法高得多,這使得作者可以使用它來解決具有挑戰性的MR問題,并改進解決方案。四個晶體數據集,使用RoseTTAFold模型重新分析:一種來自牛的甘氨酸N-?;D移酶(GLYAT),一種細菌氧化還原酶,一種細菌表面層蛋白(SLP)和來自真菌黃孢原毛平革菌的分泌蛋白Lrbp。在所有情況下,預測模型都與真實結構具有足夠的結構相似性,從而給出成功的MR解決方案。此外,在使用RoseTTAfold預測GBD結構的過程中,盡管局部分辨率很低,但預測的結構仍然很容易擬合到電子密度圖中。
蛋白-蛋白復合物結構預測
為了探索RoseTTAFold對三條鏈以上的復合物的預測,作者使用它來生成人類IL-12R/IL-12復合物模型(四條鏈)。先前公布的IL-12受體復合物的冷凍電鏡圖譜顯示與IL-23受體相似的拓撲結構;然而,分辨率不足以觀察IL-12Rβ2和IL-12p35(34)之間的詳細相互作用。這種認識對于剖析IL-12和IL-23的具體作用以及發現可以產生阻斷IL-12而不影響IL-23信號傳導的抑制劑的研發是有重要意義的。RoseTTAFold模型很好地擬合了實驗cryo-EM 密度圖,并確定了IL-12p35中的Y189和IL-12Rβ2中的G115之間的相互作用,類似于IL-23p19中的W156和IL-23R中的G116之間的堆積。此外,該模型還觀察到一些在IL-12冷凍電鏡結構中未觀察到的相互作用(IL-12Rβ2 D26可能與IL-12p35中附近的K190和K194相互作用)。
圖表匯總

圖1. RoseTTAFold的網絡架構和性能。圖片來源于Science
圖2. RoseTTAFold預測的蛋白結構。圖片來源于Science
??

圖3. RoseTTAFold預測的蛋白-蛋白復合物結構。圖片來源于Science
?
結論總結
RoseTTAFold能夠解決具有挑戰性的X射線晶體學和冷凍電鏡建模問題,在沒有實驗結構的情況下提供對蛋白質功能的洞察,并快速生成蛋白質-蛋白質復合物的精確模型。對蛋白質-蛋白質復合物數據集的進一步訓練將可能進一步變為多蛋白組裝的建模。該方法可以與現有的小分子抑制劑和新型蛋白設計方法相結合,以改進現有計算手段。三軌結構在對序列、距離和坐標信息處理的同時為低溫電鏡結構處理以及蛋白質設計等問題打開了新的大門。
Public Server和代碼下載
RoseTTAFold Public Server:?
https://robetta.bakerlab.org
RoseTTAFold GitHub: https://github.com/RosettaCommons/RoseTTAFold
參考文獻
Minkyung Baek, Frank Dimaio, Ivan Anishchenko, et al., Accurate prediction of protein structures and interactions using a three-track neural network, Science, 2021. DOI: 10.1126/science.abj8754.