
引言
預測蛋白質與配體的結合親和力以及相關的生物分子識別熱力學是基于結構的藥物設計的主要目標。煉金術自由能模擬為實現該目標提供了高度準確且計算效率高的途徑。盡管數十年來,AMBER分子動力學軟件包已成功地用于學術研究小組的煉金術結合自由能模擬,但由于先前AMBER煉金術自由能方法的局限性,再加上體系設置的挑戰,因此對工業藥物發現環境的廣泛影響還十分有限。通過學術界和工業界的緊密合作,我們解決了許多以前的局限性,目的是提高工業藥物發現應用中煉金術結合自由能模擬的準確性、效率和魯棒性。本文我們重點介紹AMBER20在煉金術結合自由能(BFE)計算的一些最新進展,其計算強度低于探索完整結合/解離結合路徑的其他結合自由能方法。除此之外,我們還描述了與運行相關煉金術BFE計算相關的基本實踐方面以及最佳實踐的建議,不僅突出了煉金術模擬代碼的重要性,還強調了所需的輔助功能和專業知識以獲得準確可靠的結果。本文旨在提供與在AMBER20中運行相對BFE模擬相關的科學、技術和實踐問題的完整概述,重點關注現實世界中的藥物發現應用。
背景介紹
在AMBER軟件中首次實現自由能計算是在1986年,由Singh在先前開發的AMBER分子動力學(MD)代碼庫的基礎上構建的。Singh和Kollman與UCSF Langridge實驗室的Bash合作,將AMBER新命名的“Gibbs”模塊隨后應用于多個體系,他們共同在《科學》雜志上發表了第一篇描述AMBER在自由能計算中的應用的論文。在2000年代初期,由于對基礎AMBER分子動力學平臺的修改數量迅速增加,基本的Gibbs功能被重新實現到AMBER的Sander模塊中,如今在AMBER PMEMD程序中也實現了自由能方法,該程序不僅復制了Sander的功能,并且為高度并行的CPU平臺提供了明顯更好的效率。AMBER11中引入的一項主要性能增強功能是能夠使用圖形處理單元(GPU)來大幅加速PMEMD,以進行顯式溶劑PME和隱式溶劑/廣義生成(GB)模擬。AMBER14和AMBER16通過充分利用單精度浮點格式(SPFP)在不犧牲數值精度的情況下顯著提高了GPU的性能。盡管PMEMD的GPU加速版本(即PMEMD.cuda)已被設計為支持盡可能多的標準PMEMD功能,但是仍然存在一些限制,例如無法在GPU上執行煉金術自由能模擬。Giese和York認識到,無需修改PMEMD.cuda引擎就可以實現某些類型的僅涉及代表兩個最終狀態的力場參數插值的煉金術轉換。通過使Sander中的Gibbs功能進行較小的擴展以與PME一起使用,可以使用后處理工具實現某些煉金術的轉變。大約在同一時間,GPU加速的煉金術自由能模塊首先作為AMBER16的補丁應用,隨后被納入官方的AMBER18版本。自此,AMBER中的自由能方法得到了大量的驗證和應用,并且積極開發了煉金術自由能計算的許多進展,例如新型的軟核勢、各種約束類型和強大的分析方法。
AMBER20的進展
AMBER20中引入了許多重要的改進,以促進大規模RBFE和ABFE模擬計算。具體來說,使用平滑步長函數來改善軟核勢,這可以顯著減少以前版本的AMBER中的許多已知問題(如端點災難,粒子坍塌和dU /dλ曲線中的大梯度跳變)。此外,還應用了Boresch約束并且以自動化方式將其用于具有許多不同配體的ABFE模擬。進一步地,通過引入Boresch鍵合項可以用來控制哪些能量項包含在軟核區域中。如表1所示,使用上述描述的方案以及GAFF2力場和TIP3P水模型的結果與同一數據集上的其他最新RBFE工具相當,并且隨著即將發布的新的MM和QM力場用于配體結合的預測而能夠進一步改進。

表1.?8個蛋白質靶標的平均無符號誤差(MUE),單位為kcal/mol
表格源自JCIM
實際BFE計算中應該考慮的因素
力場、采樣、煉金術參數、體系準備、對接和置信度估計等多個方面對于獲得可靠的BFE預測十分重要。1)力場。量身定制的分子力場與結合自由能的計算相比,其計算成本較低,但它們可能會大大提高預測準確性。目前已經開發了許多用于參數化小分子的自動化工具,例如CGenFF,GAAMP(https://gaamp.lcrc.anl.gov/index.html),FFTK和OpenFF Initiative開發的工具。我們相信,用于定制參數化的自動化程序將成為結合自由能計算的未來應用中的默認選項。2)蛋白準備。蛋白結構準備可能會對結果質量產生重大影響,并可能引入人為偏差。蛋白結構準備好后,建議手動檢查結構,運行蛋白質分析程序(例如PROCHECK,WHATCHECK,MolProbity和SurVol),并執行適當時間尺度的MD模擬,以確保在運行計算成本較高的BFE模擬之前,體系具有較好的穩定性。3)配體準備。除了計算合理的配體狀態(離子化狀態、互變異構體、立體化學等)外,理想的方法是預測與每個狀態相關的能量損失,以解決在溶液中生成每個狀態所需的能量成本,然后應將此能量損失添加到計算出的自由能中,以獲得最終的結合預測。此外,基于量子力學或機器學習的進展對于該領域的進步將是必要的。4)對接。從理論上講,結合自由能的結果應與輸入pose無關,因為假定要進行足夠的采樣以使用MD探索所有可能的pose,但是這在計算上將是非常昂貴的。因此,獲得合理的初始pose也十分重要,并且在初始pose不明確的情況下,則應采用多種pose。對接問題的本質在RBFE和ABFE之間是不同的(并且與對接作為最終計算有所不同):對于RBFE計算,通常已知參考pose并且可以使用它來約束對接,而對于ABFE,通常沒有參考pose,因此需要不受限制的對接。5)原子映射(atom mapping)。對于RBFE計算,關鍵步驟是確定參考原子與受擾結構之間的關系,以使普通原子(“映射”原子)被λ線性內插,并且未映射原子被軟核函數形式處理以允許它們插入或刪除。從理論上講,最佳原子映射方案是使兩個分子之間的熱力學路徑最小化的方案,但是實際上有許多因素需要考慮,例如原子類型、鍵序、環構成、手性和結合構象等。應該注意的是,在某些情況下,僅基于2D信息(如最大公共子結構),映射是不明確的,如圖1A所示。在這個例子中,鄰甲氧基取代的分子的優選構象是在酰胺氮和甲氧基氧之間形成分子內氫鍵。但是,大量的氯取代更傾向于另一種構象,并且僅使用2D拓撲信息,氧就朝向相同的取代載體。諸如此類的映射問題通常會由于狀態之間不合理的長熱力學路徑而導致錯誤的結果(在這兩個狀態之間進行相互轉換將需要高能構象轉變)。幸運的是,基于3D pose的映射將產生正確的結果,如圖1B所示。因此,強烈建議盡可能使用準確的3D pose執行原子映射。6)λ Schedule。通常,目的是要有足夠但不是太多的λ窗口,以便以盡可能低的成本獲得足夠的精度。TI本質上可簡化為被積物的分段線性逼近,并且大致等效于將相鄰采樣分布近似為高斯。使用該近似值仍可以為計算提供良好的結果,在該計算中,λ間距足夠小,可以捕獲整個λ= [0,1]軌跡中λ的被積物的變化的本質。我們發現,少至五個λ值就可以為小擾動提供可靠的結果。已經表明,在某些情況下,單步λ計劃足以實現準確的結合自由能預測,盡管這種擾動很小的情況也不足以覆蓋化學空間,從而對大多數藥物發現應用都沒有很大的影響。當時間和資源可用時,可以添加更多的λ值以增強相鄰窗口之間的重疊,從而提高結果的可靠性。7)ABFE pose約束。ABFE中的pose約束的目的是在將相互作用縮放到極小的值(或零)時將配體保持在結合口袋中。因此,合理的標準是要求約束施加與完全相互作用的配體相似的取向。通常,這里的假設適用于相對強結合的化合物,不同的約束方案可能在其他方案中效果更好。在AMBER中,避免過長的距離(例如<30?),非共線的角度(遠離0°或180°)以及來自周期性邊界的二面角(即不接近±180°)也是有用的。符合這些標準的原子或點選擇的任何組合都應構成一組合理的約束。8)周期性和電荷校正。煉金術模擬對零能量的任意移動極為敏感,因為這僅基于系統電荷有效地移動了配體的結合自由能。9)置信度和誤差分析。通過有意義的誤差估計也可以改進自由能的預測。誤差的來源也可以歸因于驗證數據集和數據集偏差;BFE計算中一些最常見的處理誤差源的方法包括統計分析、結構分析、結合pose不確定性(Multiple Poses)、增強采樣和力場改進。

圖1?使用(A)2D或(B)3D信息的原子映射
圖片源自JCIM
未來發展方向
在學術界與工業界的合作推動下,AMBER的藥物發現將聚焦于許多新的自由能方法的開發上面,包括開發新的力場(QM、MM和機器學習),增強采樣方法(在λ維以及構象自由度上),改進的煉金術轉化路徑和RBFE網絡的優化(包括整合實驗約束)。值得一提的是,目前已經探索了其他方法來減少收斂QM或QM/MM自由能估計所需的能量和力的評估次數,主要包括軌跡重加權、凍結密度泛函近似的使用、哈密頓積分采樣、正交空間隨機游走策略以及超動力學??傮w而言,這些方法可以極大地提高具有實用計算資源的煉金術自由能模擬的準確性和預測能力。通過此處報道的AMBER20中最近實施的先進方法,我們可以更好地探索煉金術領域中各種先進的增強采樣方法,例如,已開發的SSC(2)方案非常適合于煉金術空間中的高級λ調度優化和增強的采樣方案,在此情況下,需要單通道協同λ變換,包括λ動力學、哈密頓量副本交換方法、自適應偏置和自調整混合采樣方法。對于力場來說,盡管可以通過微調力場中當前功能形式的參數來預期預測精度的進一步提高,但是可能需要進行更多實質性的修改才能達到實驗水平的精度?,F在人們普遍認識到,要精確地捕獲分子周圍的靜電勢,必須要有離原子中心的部分電荷,這些離原子中心的電荷被稱為虛擬位點,由一個母體原子和最多三個與該母體原子共價鍵合的相鄰原子組成。當前的AMBER代碼僅支持有限數量的方式來放置虛擬站點,并將它們稱為extra points(EP)。圖2中顯示了一些新型的虛擬位點類型,它們可能會在下一個正式版本中提供。但是,要使虛擬位點真正有用,需要大量工作來優化其位置和參數化其帶電值的方法。?
圖2.?AMBER的未來版本將提供七種類型的虛擬位點
圖片源自JCIM
總結
本文我們描述了AMBER20中用于執行GPU加速的煉金術結合自由能模擬的新功能。我們還描述了AMBER之外用于準備和分析煉金術結合自由能模擬所需的輔助工具。對于一些高度驗證的蛋白質靶標盡管已經有了十分成熟的工作流程,但每個靶標都面臨著有關自由能全景圖和采樣相關蛋白質和溶劑運動的內在時間尺度方面的獨特挑戰。因此,目前,經驗豐富的用戶可以對其使用的軟件包進行微調控制,從而獲得最佳結果。確實,盡管煉金術自由能模擬即使使用當前的自動化軟件包也能提供巨大價值,但需要注意的是與為藥物發現應用獲得準確而可靠的結合自由能預測有關的重大挑戰仍然存在。我們希望這項工作已經闡明了一些應考慮的關鍵問題,并將有助于啟發更多的研究人員在藥物發現和對新興領域(如精準醫學)的相關應用中使用結合自由能模擬。
參考文獻
Lee, T. S., Allen, B. K., et al. Alchemical Binding Free Energy Calculations in AMBER20: Advances and Best Practices for Drug Discovery. J. Chem. Inf. Model. 2020, 60(11), 5595-5623. DOI: 10.1021/acs.jcim.0c00613.