<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    JACS Au|機器學習時代下研究蛋白功能動力學的馬爾可夫狀態模型

    JACS Au|機器學習時代下研究蛋白功能動力學的馬爾可夫狀態模型
    JACS Au|機器學習時代下研究蛋白功能動力學的馬爾可夫狀態模型

    來自香港科技大學的研究者們綜述了針對馬爾可夫狀態模型(MSMs)在研究蛋白功能動力學中的挑戰及代表性的基于機器學習的解決方案。

    概述

    馬爾可夫狀態模型(MSMs)在蛋白折疊領域中應用廣泛,但在關注局部構象變化的蛋白功能動力學過程中應用較少。功能動力學主要關注蛋白局部的、緩慢的、層級的、特定的構象變化,與蛋白折疊關注蛋白整體的、顯著的構象變化有顯著不同。目前MSMs用于功能動力學研究有兩大挑戰:1. 選擇合適的結構特征子集(相對于整個蛋白全部結構特征來說)描述這一過程;2. 對構象變化的物理機制的理解能力。作者針對這兩大挑戰分別介紹了目前最新的基于機器學習的方法,并輔之以具體的案例。

    MSMs介紹與其在研究功能性構象變化中的挑戰

    MSMs通過較多的短時動力學來預測長時動力學,具體來講,MSMs把構象空間分為許多亞穩態,亞穩態之間變化較慢而內部變化較快,從而使得亞穩態之間的轉化具有馬爾可夫性質,進而可以如下描述長時動力學:?

    JACS Au|機器學習時代下研究蛋白功能動力學的馬爾可夫狀態模型

    其中Δ t為時間間隔,P(n Δ? t)為狀態參量(表示當前時刻亞穩態構象分布),T為狀態轉移概率矩陣。

    MSM建模的關鍵難點之一在于正確的選擇動力學亞穩態,也即選擇一組能夠合適地描述動力學特征的蛋白結構特征。將這些結構特征降維以后即可得到構象變化過程的廣義坐標(Collective Varibales,CVs),繼而將短時動力學的結果聚類到亞穩態上。然而,合適的、與功能有關的局部構象變化的結構特征是很難挑選的。此前的挑選過程通常依賴于研究者對研究體系的先驗理解,而機器學習方法大大降低了這一過程對經驗的依賴。

    MSMs的另一難點在于對構象變化的物理機制上的理解。由于MD模擬的限制,MSMs通常會產生數以百計的亞穩態,以使得這一過程符合假設的馬爾科夫性質。

    ?

    ?功能性構象變化的MSMs建模流程

    圖1展示了作者推薦的建模流程。在這個流程中,連接已知狀態的初始路徑通過例如TMD等的方法得到,并進一步使用String method等方法進行優化。之后,根據優化后的路徑上的構象進行進一步的更廣泛的動力學模擬。根據模擬結果,選取結構特征對功能性構象變化進行描述,這里作者推薦使用Spectral-oASIS等方法自動化的選取一組合適的特征。再之后,例如TICA等降維算法將被用來尋找CVs。通過CVs將動力學軌跡聚類到微狀態,聚類方法有多種如Kmeans等。此時建立微狀態MSM并使用Chapman-Kolmogorov test進行模型驗證,驗證式1是否成立,即動力學模擬得到的狀態轉移過程是否滿足該式。另一種Chapman-Kolmogorov test的實現方式是比較MSMs模型得到體系處在某狀態的概率與動力學模擬的結果是否一致。

    JACS Au|機器學習時代下研究蛋白功能動力學的馬爾可夫狀態模型

    圖1. 推薦的MSM建模流程。來源:JACS Au

    作者推薦使用交叉檢驗來避免過擬合及挑選最優參數(如,特征集、CVs的數量、微狀態的數量)。交叉檢驗中可以使用GMRQ、VAMP-2打分等來衡量模型參數的優劣?;谧兎衷淼倪@兩個打分函數傾向于給出較慢的動力學變化的模型。特別地,GMRQ可以使用狀態轉移矩陣的本征值計算得到,而VAMP-2可以用時間分割的輸入特征的協方差矩陣得到。

    如果構象采樣不足以建立有效的微狀態MSM的話,可以進行適應性采樣,并同時重復之前的步驟,直到建立一個有效的模型。

    最后,根據是否能快速互變,微狀態將會被合并為少數的亞穩定的宏狀態。這一步驟可以使用kinetic lumping算法,得到的宏狀態MSM將會對理解生物學過程的機制非常有益。盡管如此,想要建立一個馬爾科夫的宏狀態MSM仍然非常困難,因為狀態的時間間隔難以超過動力學模擬的軌跡長度,也即狀態之間很難具有完美的馬爾科夫性質。此時,qMSMs會非常有用。

    近期,MSMs成功地被用于解釋一些蛋白的功能性構象變換中。如圖2所示的2個例子,分別解釋了DNA糖基化酶無法沿DNA雙螺旋移動檢測DNA損傷的過程,和細菌表面的反向運輸蛋白NarK進行NO3-/NO2-的交換的過程與兩個精氨酸的靠近有關。

    JACS Au|機器學習時代下研究蛋白功能動力學的馬爾可夫狀態模型

    圖2. 兩個MSMs研究的例子。來源:JACS Au

    自動化特征選擇與降維

    如前所述,有效的選擇描述與功能有關的局部構象變換的結構特征是極具挑戰性的。這一部分作者介紹了一些新的工具可以自動化的完成特征選擇和降維。

    自動化特征選擇

    Spectral-oASIS是特別有用的一種方法。該方法基于Nystr?m matrix operation theory,僅使用一小部分輸入特征就可以重建整個輸入的協方差矩陣(圖3 AB)。圖3 C則展示了一個例子,Spectral-oASIS將25000個特征減少5倍后仍可以精確的描述所關注的構象變化——Trp215的翻轉。Sparse-TICA與Spectral-oASIS相似,都是在通過盡可能近似協方差矩陣的關鍵本征值的情況下來挑選特征子集;但它們的不同之處在于前者使用正則化方法而不是Nystr?m重建方法。第二種方法則是Stock及其同事發展的,作者稱之為“特征重要性選擇”。該方法通過使用特征對體系狀態(亞穩態的索引)的解釋能力進行特征排序,自動選擇最高的一批(圖3 D)。具體來說,該方法使用輸入特征和動力學構象的索引(作為標簽)訓練決策樹,樹根部的一批特征則為最重要的特征(圖3 E)。第三個方法AMINO是一種具有較大潛力的方法,目前尚未在MSM建模中使用。通過基于共同信息的聚類,Tiwary使用AMINO將428個特征減少到了8個,用于計算配體親和力。

    JACS Au|機器學習時代下研究蛋白功能動力學的馬爾可夫狀態模型

    圖3. 特征選擇。來源:JACS Au

    TICA降維算法

    TICA是MSM建模中最常用的降維算法,該方法基于對協方差矩陣的特征分解。關鍵本征向量是對整個體系的線性近似,稱之為TICs。作者推薦在Spectral-oASIS或者其他前述方法的基礎上使用TICA。

    基于深度學習的特征選擇與降維

    VAMPNets是最早的一批用于MSM的架構(圖4)。VAMPNets的一般實現不要求平衡態數據因此不保證系統嚴格平衡。為了應用在平衡態采樣中,VAMPNets的一個變種SRV被提出,通過將協方差矩陣轉為對稱矩陣強制保證平衡。這些類VAMPNets的深度學習算法用于降維輸出少數的CVs進行MSM建模。圖4 BCD的例子則展示了一個TICA未能捕捉而SRV可以捕捉到一種模式,同時SRV在交叉檢驗中更穩定。理論上,基于深度學習的方法可以同時完成特征選擇和降維組合為CVs的任務,但作者覺得深度學習也不一定總是萬能的,作者建議應用VAMPNets時也可以使用事先選好的特征。

    JACS Au|機器學習時代下研究蛋白功能動力學的馬爾可夫狀態模型

    圖4. VAMPNets結合交叉驗證表現優于TICA。來源:JACS Au

    在馬爾可夫模型之外:考慮動力學過程中的記憶

    如前文所述,MSMs如果只使用很少的狀態則難以保證狀態間具有馬爾可夫性質。對此,作者基于GME方程發展了qMSM方法,引入了顯式的記憶核來捕捉狀態間的聯系:

    其中記憶核K可以迭代的從狀態轉移矩陣T和T的導數得到。與MSM不同的是,qMSM使用轉移張量K而不是狀態轉移矩陣T來模擬動力學過程(圖5 AB)。圖5 CDE展示了一個例子。在RNAP轉錄復合物中RNAP clamp的打開與轉錄的啟動密切相關,作者展示了qMSM在這一過程的模擬中優于MSM。另外,Tiwary等人近期發展了一種基于長短記憶(LSTM)的算法用來處理動力學過程中的記憶問題,作者期待這類方法此后更好的表現。

    圖5. qMSM方法。來源:JACS Au

    結論和展望

    本文集中介紹了使用MSMs進行復雜生物分子的功能性構象變化研究。針對這類研究中的兩大挑戰,作者分別介紹了最新的針對性的解決方法。作者強調,本文介紹的大部分特征選擇與降維算法都是基于變分原理的,但是找到的過程并不一定與研究目的相關。qMSM,隱式馬爾可夫模型和core-set MSMs都可以針對小量的狀態進行MSM模擬但仍有可能無法精確解釋生物學機理。研究者對研究體系的理解與經驗對于更好地發展自動化MSN建模是至關重要的。

    參考文獻

    Konovalov, Kirill A., et al. “Markov State Models to Study the Functional Dynamics of Proteins in the Wake of Machine Learning.” JACS Au (2021).

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放