

Polyply包含了:1)一種多尺度圖匹配算法,用于快速生成參數,并適用于任意復雜的聚合物拓撲;2)通用的多尺度隨機行走協議,能夠高效地建立復雜系統,且不依賴于目標力場或模型分辨率。
背景介紹
生物大分子的動力學模擬已經成為研究人員補充實驗分析的有力工具。自現代醫學出現以來,人們一直在模擬單聚合物熔體或混合物,最近的趨勢是研究更復雜的多組分體系,包括純合成材料和生物合成的雜化大分子。通過MD對聚合物進行HT(高通量)篩選,有望成為實驗性HT方法的補充,因為它通常比合成探索成本更低,并且具有實驗性HT方法難以獲得的性質。
盡管HT模擬方法很有前途,但它需要程序用快速、可靠和一致的方式構建拓撲和模擬盒子。此外,考慮到基于聚合物的系統行為背后的時空尺度層次結構,需要具有全原子和粗粒度(CG)分辨率的模型。雖然有大量的程序可以用于生物相關系統的MD模擬,如蛋白質、脂質膜和DNA等,但對合成和生物合成雜化大分子模擬的支持,很大程度上是有限的。據目前所知,還沒有程序能夠為任意復雜的聚合物體系生成輸入參數和坐標,而不依賴于力場,并與HT方法兼容。
由于缺乏支持全原子和CG聚合物模擬的程序,限制了MD模擬在大型通用系統和(生物)大分子系統的HT研究中的應用。因此目前需要克服以下五大挑戰:
a. 該程序需要能夠生成坐標和參數,分辨率和力場獨立。
b. 需要一個易于使用的管道,來生成基于系統組成的輸入文件和坐標。
c. 該程序需要能夠結合各種生物分子結構的聚合物系統的輸入參數和坐標,如蛋白質、脂質雙分子層和核苷酸。
d. 它需要能夠建立復雜的系統,而不需要降低對模型的要求。
e. 坐標和參數文件的生成都需要足夠快,才能進行HT研究。
?
主要內容
荷蘭格羅寧根大學的Siewert J. Marrink等研究者,報告了一個可解決上述五大挑戰的開源的polyply軟件套件。它有助于生成(生物)大分子和納米材料MD模擬的輸入參數和坐標。polyply使用基于圖的算法,允許用戶從簡單的庫文件和殘基圖中生成任意組合和分支聚合物的參數文件。殘基圖不僅包含了聚合物的殘基序列,而且還記錄了哪些殘基連接在一起。使用多尺度隨機游走,polyply也可以用于生成任意力場和任意目標分辨率的起始坐標。此外,還包括復合物的重排,如微相分離聚合物系統或包在脂質囊泡中的多組分聚合物溶液。為了最大化模型和代碼的可訪問性,polyply通過python包索引來分發。相關的研究成果以“Polyply; a python suite for facilitating simulations of macromolecules and nanomaterials”為題發布在國際著名期刊Nature Communications上。
參數文件的生成
polyply生成參數文件的一般輸入是目標分子的殘基圖。此外,還需要與目標分子中殘基相對應的塊和鏈接(參見圖1虛線框)。目前,polyply提供了包含一些力場和聚合物參數的庫,這個數據庫將隨著時間的推移而擴展。polyply根據殘基圖、塊和鏈接的定義,分三步生成參數文件(參見圖1):

圖 1. 參數文件生成工作流程示意圖。圖片來源于Nat. Commun.
步驟1:生成殘基的非連通圖:
讀取輸入文件后,對輸入殘基圖的所有殘基進行多重迭代。對于每個殘基,將匹配塊添加到空圖中,從而生成目標分辨率處的殘基斷開圖。這張圖包含了目標分子的所有原子以及殘基內的相互作用。因此,分配連接兩個或更多殘基的適當相互作用的問題仍然存在。
步驟2:找到殘基層的所有鏈接:
為了生成跨越多個殘基的所有相互作用,選擇在兩個或多個殘基之間應用鏈接。為了用一般的方式來解決這個問題,研究者將其作為殘基圖層的子圖同構問題:一個鏈接可以適合于殘基圖的約束,如匹配節點屬性。
步驟3:將通用鏈接與特定殘基匹配:
利用鏈接和殘基之間的匹配,程序在目標分辨率處建立鏈接的原子和未連接圖中的原子之間的對應關系。為此,鏈接中給出的原子名稱和相對殘基指數,只需與第1步生成的未連接圖中殘基的原子相匹配。它還可以擴展到考慮其他原子特性。當添加一個鏈接時,該鏈接的邊也被添加到斷開的殘基圖中。這樣,在目標分辨率級,斷開連接的圖逐漸變成連接圖。這就完成了圖的轉換,分子包括了所有的相互作用,而只需要寫入一個文件。
系統構建
系統構建過程分為以下五個步驟:

圖2. 系統構建的多尺度算法原理。圖片來源于Nat. Commun.
步驟1:將所有分子映射到每個殘基的一個珠上:
第一步,分析拓撲文件,檢測系統中所有分子類型。對于每個分子,所有獨特的殘基都被識別并轉化為塊。進而創建了一個一般的一粒一殘基超級CG模型并以圖的形式存儲。殘基圖的連接性是從分子的鍵合圖中提取出來的。
步驟2:生成殘基坐標:
每個塊是單個殘基的圖,使用圖嵌入來生成該殘基的坐標。由于分子幾何的特殊要求,研究者采用了兩步圖嵌入的方法。先使用在NetworkX庫中實現了的Kamada-Kawai嵌入生成初始坐標。隨后,研究者利用有限內存Broyden Fletcher Goldfarb Shanno極小化器的scipy,對殘基內的鍵合相互作用進行了幾何優化。
步驟3:派生通用CG模型的參數:
在自排除隨機游走中,采用了單殘基珠近似CG模型。它基于Lennard-Jones (LJ)勢作為交互函數。σ參數決定了整體的堆積密度,反映了殘基的體積。研究者將這個概念移植到單個殘基的分子幾何上。此外,研究者還考慮了單原子具有的體積。
步驟4:約束隨機游走:
為了在目標系統中為每個殘基分子生成一個珠子的坐標,研究者執行了一個自排除的隨機游走。如果在被放置的珠上的力超過了最大值,那么在隨機游走中放置珠(步)的嘗試將被拒絕。默認情況下,自排除隨機游走是沿著分子圖的寬度優先遍歷進行的。這意味著彼此接近的節點(即殘基)首先放置,然后算法沿著鏈繼續前進。分子彼此分開放置,起始點從一個網格中隨機選擇。
這個網格可以是用戶指定的,也可以被認為是跨盒子的矩形網格。當隨機游走算法超過一定的步數時,默認情況下,它會在寬度優先的路徑上后退10個殘基,并試圖替換這10個殘基。為了滿足距離限制,polyply實現了一個基于圖的算法,該算法為每一步設置上下界。
步驟5:回映(Backmapping):
通過基于殘基模板的backmapping程序,將低分辨率坐標轉換為高分辨率目標坐標,類似于那些用于生物分子的程序。首先,將殘基模板的幾何中心移至重心位置;隨后,優化圍繞幾何中心的模板旋轉,這樣,與其他殘基有鍵的原子就被放置在那些殘基附近。
為了實現手性,研究者目前使用了一個特殊的反常二面體,在能量最小化步驟和/或模板生成過程中強迫手性。
單鏈DNA和環狀單鏈DNA
DNA是一種重要的生物大分子,在細胞中表達和調控遺傳信息。雖然大多數遺傳信息編碼在雙鏈DNA (dsDNA),單鏈DNA (ssDNA)參與重要的復制和修復過程。能否生成真實的ssDNA結構的多尺度隨機游走協議,是另一個層面的挑戰。一方面,DNA堿基是在全原子水平上約有30個原子的大殘基。另一方面,ssDNA的持久性長度大約是大多數柔性聚合物的3-10倍。最后,ssDNA是高度帶電的,可以協調周圍的離子,從而增加持久性長度。
為了驗證polyply能否生成這些大分子的構型,研究者在polyply中實現了Parmbsc1力場,并構建了不同長度(8、16、50、65、100個堿基)的poly-T ssDNA分布。對于每個長度,生成100個副本。對于每個鏈長,研究者設置了兩個實驗確定的持久性長度(3.2 nm, 1.4 nm),分別對應于低鹽濃度(12.4 mM/L)和高鹽濃度(1 M/L)。從而,獲得了由polyply產生的1000個DNA結構。
圖3a顯示了與SAXS值相比,兩組持久性長度的回轉半徑可作為鏈長的函數。隨機游走方案對旋轉半徑沒有偏好。生成的結構與實驗測量值較好地吻合。在低鹽濃度(v = 0.71±?0.01)下,用polyply測量的比例與實驗中發現的比例一致(v = 0.72±?0.01),而在高鹽濃度(v = 0.55±?0.01)下,比例稍低一些,但仍接近實驗(v = 0.57±?0.02)。圖3b顯示了兩條DNA鏈(100個堿基),對應于圖3a所示的平均旋轉半徑。鏈的主要組成部分是對齊的,表明兩者都是延伸的,但具有較高持久性長度的鏈明顯是更長的。

圖3. 單鏈DNA測試案例。圖片來源于Nat. Commun.
內部液-液相分離的脂質囊泡?

圖4. 囊泡內的液-液相分離。圖片來源于Nat. Commun.
研究者建立了一個系統組成的多組分脂質囊泡,由dioleoyl-phosphatidylcholine (DOPC) 、dipalmitoyl-PC (DPPC)和膽固醇組成,含有聚乙二醇和1-palmitoyl-2-oleoyl-phosphatidylethanolamine(POPE)脂質, 內部充滿由PEO和葡聚糖組成的相分離水溶液。這個系統已經被實驗證明可以誘導囊泡裂變,因此可用于洞察早期生命的形成。
為了生成這個系統的起始坐標,研究者首先使用TS2CG獲得一個囊泡。將TS2CG生成的脂質坐標,作為起始結構進行聚合。此外,使用了一個幾何約束來指定PEO和葡聚糖只能占據囊泡的一半,將其近似為一個球體,有一個2nm的重疊區域以允許一些間相混合。有了這個輸入,系統由通用超級CG隨機游走生成,然后是一個backmapping步驟。
生成整個系統大約需要30分鐘。一旦獲得初始坐標,就進行能量最小化,然后進行短暫的平衡和50 ns的生產運行。系統運行穩定,最終構型如圖4所示??梢郧宄乜吹?,系統至少在模擬的時間尺度上保持相分離,聚乙二醇化脂質均勻地分布在雙分子層的內外。
結論總結
本文介紹的polyply旨在促進模擬涉及聚合物的任何目標分辨率和所需的力場。除了支持大型和復雜的聚合物之外,生成輸入參數文件也很快,這使得它適合HT應用??偟膩碚f,眾多例子表明polyply能夠設置大型和復雜的系統,將生物分子世界與材料科學連接起來。
參考文獻
Grünewald, F., Alessandri, R., Kroon, P.C. et al. Polyply; a python suite for facilitating simulations of macromolecules and nanomaterials. Nat Commun 13, 68 (2022). https://doi.org/10.1038/s41467-021-27627-4