中大唯信·唯信計算

引言

Autodock(自動對接)及其各種變體是廣泛應用的對接方法，它們采用優化方法作為柔性配體對接和虛擬篩選的搜索算法。但其中許多方法存在高柔性配體的對接精度差和對接效率較低等缺點。本文基于自動對接環境的多群優化算法設計了一種高性能、高效的對接程序，即MSLDOCK。該搜索算法是隨機漂移粒子群優化與一種新的多群策略的結合，還采用了改進的Solis 和 Wets局部搜索方法。由于該算法的結構，MSLDOCK也具有多線程模式。實驗結果表明，MSLDOCK在自對接、交叉對接和虛擬篩選準確度以及對接有效性等很多方面優于其它兩種 Autodock-based方法。此外，與三種非基于自動對接的對接程序相比，MSLDOCK可以是自對接和虛擬篩選的可靠選擇，特別是對于處理高度柔性的配體的對接問題。

背景

盡管某些情況下，大多數改進的搜索算法結合自動對接軟件和其他對接程序發現的構象的對接精度優于其中LGA被用作搜索算法的Autodock-default 發現的構象，但這些程序仍有高柔性配體對接精度差和相對較低的對接效率等局限性。因此，為設計一種基于自動對接式對接環境的高性能、高效的柔性配體對接搜索算法，本文提出了一種新的混合搜索算法——multi-swarm Lamarckian RDPSO (MSLRDPSO)，與相應改進的MSLDOCK對接軟件一起用于最新的自動對接版本(4.2.6版)。它將整個RDPSO群劃分為幾個同等大小的子群，并采用一種特征交換方法來確保子群之間有足夠的信息交換。該算法結合了隨機漂移粒子群優化(RDPSO)、一種新的與大多數多群策略、廣泛使用的動態結構、更適合處理對接問題的多群策略和一種改進實現的SWLS方法。與之前提出的算法相比，MSLRDPSO的優勢說明如下:

(1) 這種RDPSO算法通常比許多優化算法具有更好的搜索性能。

(2) 尤其在使用特征交換方法時，多群策略有助于保持多樣性，從而提高算法的堅固性。

(3) 與LGA和LPSO等對接搜索算法相比，MSLRDPSO具有多群結構，其效率要高很多。

(4) 為適應多群的結構，MSLRDPSO中修改了SWLS方法的實現，進而提高了每個子群的多樣性。

(5) 由于多群結構，MSLRDPSO的搜索過程很容易用子群數并行化，因此提出了MSLDOCK的多線程模式(MSLDOCK-M)來并行單一對接任務。

計算方法

隨機漂移粒子群的優化

隨機漂移粒子群優化(RDPSO)是一種常用于解決非連續、復雜和全局優化問題的啟發式算法。本文用RDPSO作為混合算法的主體來解決對接問題。該算法是基于標準PSO的軌跡分析和位于外部電場中的金屬導體中的自由電子模型所提出的。

多群策略和特征交換方法

MSLRDPSO用一種新型的多群策略，即將整個群分為同等大小的子群。為了確保每個子群不易過早收斂，使用一定數量的能量函數評估的特征交換方法，以確保不同子群之間有效地交換信息，來保持它們的多樣性。(圖1)

局部搜索方法的實現

改進了MSLRDPSO中SWLS的實施，可以適應多群結構來增強局部優化，并進一步提高搜索過程中每個子群的多樣性。在所有的子群完成了一次性的RDPSO迭代過程后，該新的實現給出了對每個子群中的最佳粒子執行局部搜索方法的一定概率。本文將局部搜索概率設置為1/T，這意味著對于整個群，每一代執行SWLS方法的預期粒子數為1。

MSLRDPSO和MSLDOCK

MSLRDPSO算法結合了RDPSO與多群策略和改進的實施后的SWLS方法。在MSLRDPSO中，一代由T次迭代組成，每個迭代是由子群執行的正常RDPSO迭代，或由T次迭代組成，每次迭代是由每個子群執行的正常的RDPSO迭代和一個局部搜索過程的混合。所有子群在MSLRDPSO序列模式的一代內依次執行自己的搜索過程。MSLRDPSO的并行模式是對每個子群中的RDPSO和SWLS的搜索過程可以同時進行。并行模式主要由于每個SWLS應用程序的搜索時間不確定而無法保持子群之間的完全同步，但是在整個搜索過程中有如此小的空閑時間是可以接受的。為了使程序適應開放的MP接口，在MSLDOCK中修改了一些原始版本的自動對接文件，特別是那些與得分函數計算和局部搜索相關的文件，因為它們不是線程安全的。(圖2)

圖1. 特征交換操作示例

圖片來源于JCIM

圖2. MSLRDPSO的序列模式和并行模式的程序

(A)MSLRDPSO的序列模式。?(B)MSLRDPSO的并行模式

圖片來源于JCIM

實驗設置

數據集

本文實驗部分包括自對接、交叉對接和虛擬篩選三部分。使用了兩個數據集來評估自對接的性能。一是PDBbind coreset。PDB結合密碼位的蛋白質和配體文件可以從http://www. pdbbind-cn.org/casf.asp.獲得。二是被廣泛使用的黃金基準數據集，它最初包含134個測試用例，可從https://www.ccdc.cam.ac.uk/supportand-resources/Downloads/上獲得。

可比較的自動對接平臺程序的設置

根據該多群策略的結構，MSLRDPSO算法的關鍵參數是T。我們的初步實驗有子群MSLDOCK的MSLDOCK-s2和MSLDOCK-s6。當單次對接測試有足夠的重復時，MSLDOCK-s2可能更適合找到具有更低結合能的對接構象，并比具有更多子群的MSLDOCK版本產生更多不同能級的姿勢。MSLDOCK-s6的標準差最小，其在不同扭轉次數方面的平均對接能量性能是最好的之一，可能適合為“快速”對接問題找到良好的對接結果。因此，在接下來的實驗中，選擇了MSLDOCK-s2和MSLDOCK-s6與其他對接程序進行比較。

性能指標

本文比較了在自動對接測試結束時，各種自動對接程序的結合自由能。由得分函數評估的能量包括分子間和分子內相互作用能，而結合自由能只是分子間能和扭轉自由能之和，但不包括配體的內部或分子內相互作用能。通常通過計算均方根差(RMSD)來獲得所產生的構象和共結晶的構象之間的相似性。本文用配體的所有重原子來計算RMSD值，且不考慮該定義的對稱性。這意味著應測量蛋白質結合位點內整個配體的構象以及位置和方向的變化。本文還評價了兩種RMSD：一種是得分最好的RMSD，即參考結構與得分最低或結合自由能之間的RMSD；另一種是采樣最好的RMSD，即所有產生的構象中最接近晶體的構象的RMSD。這兩個指標被廣泛用于比較具有不同得分的對接程序產品。

圖3.?由(A) MSLDOCK-s2, (B) MSLDOCK-s6, (C) Autodock-d, and (D) SODOCK獲得的所有案例的實驗結合自由能與表現最好的結合自由能之間的散點圖

圖片來源于JCIM

結果和討論

從能量、準確性和效率等方面進行自對接結果的比較

圖3的相關系數表明MSLDOCK-s2 在估計結合自由能時精確度最好，其次是 MSLDOCK-s6 and SODOCK，最后是Autodock-d。此外，圖3A和3B中很多點的貢獻非常相似，這驗證了 MSLDOCK 中子群數略微影響本文提出的對接程序的結合親和力估計的結論。表1和表2中測試結果都表明 MSLDOCK-s2 和MSLDOCK-s6 是成功對接測試用例的數量最好的兩個對接程序。唯一的例外 Glide 獲得了PDBbind coreset上最小的平均得分最好的RMSD，其次是兩個MSLDOCK版本和Vina，然后是其它三個程序這驗證了MSLDOCK、Vina和 Glide 的最佳對接精度是相等的。另一方面，兩個MSLDOCK版本在最佳采樣RMSD(表2)方面的優勢比最佳得分RMSD(表1)更明顯。雖然表2中的P值表明Vina可以與兩個MSLDOCK版本相當，且Glide可以得到與MSLDOCK-s6相似的最佳采樣RMSD結果，但兩個MSLDOCK版本是幾乎所有標準中獲得的平均RMSD值第一和第二好的結果。為評估上述所有對接程序的對接效率，表3列出了每個對接程序所采取的生成每個對接構型的計算時間的平均值。其中MSLDOCK對接效率比Autodock-d，SODOCK和Vina表現更好，但比LeDock和Glide更差。

表1. 由所有比較算法對每個數據集和

所有測試用例獲得的最佳得分RMSD的統計結果

表格來源于JCIM

表2 由所有比較算法對每個數據集和

所有測試用例獲得的最佳樣本RMSD的統計結果

表格來源于JCIM

表3. 每個虛擬對接程序生成每個對接構型的平均時間?(單位：秒)

表格來源于JCIM

交叉對接精度的比較

圖4顯示了由四個基于自動對接的程序獲得的兩類的交叉對接結果的分布圖。其中，矩陣行和列對應于給定的配體或受體，并通過PDB代碼識別，對角線項表示自對接。對接結果分為采樣故障(紅色)、得分故障(綠色)和對接成功(藍色)。表4記錄了每個類中的測試用例的數量。這兩類交叉對接中MSLDOCK-s2獲得的結果最好，其次是MSLDOCK-s6和SODOCK，Autodock-d最差。這意味著PSO算法可能比遺傳算法更適合于處理交叉對接問題，且該算法可以比基于規范PSO算法的SODOCK獲得更好的交叉對接性能。MAPK14的兩個MSLDOCK版本優于Autodock-d和SODOCK，這比CDK2更明顯。這表明，所提出的對接程序不僅可以對相對容易的交叉對接系列(CDK2)進行對接，還可以對硬對接系列(MAPK14)獲得良好的效果。

圖4.?由MSLDOCK-s2、MSLDOCK-s6、Autodock-d和SODOCK獲得的(A)CDK2家族和(B)MAPK14家族的交叉對接結果

圖片來源于JCIM

表4. 基于自動對接的程序交叉對接精度的結果

表格來源于JCIM

虛擬篩選精度和篩選速度的比較

圖5中所有比較的對接程序的ROC曲線表明，基于自動對接的對接程序只生成非常類似的排名列表，kif11程序的SODOCK的列表除外。表5中相應的AUC-ROC值一方面驗證了這兩個MSLDOCK版本在平均AUC-ROC值方面的性能是否優于Autodock-d和SODOCK，另一方面，Vina在cp3a4和kf11上的性能略優于基于自動對接的程序，但在ampc和cxcr4上的性能稍微差一些。根據幾乎所有目標預期上Cxcr4中的ROC曲線，Glide比基于自動對接的程序要好。然而，表5中三個非基于自動對接的程序的平均AUC-ROC值表明，這兩個MSLDOCK版本比Vina和LeDock好，MSLDOCK6略好于Glide，而MSLDOCK-s2比它差一點。表5和表6中MSLDOCK-s6獲得的AUC-ROC和EF值所有平均標準有最好的結果，其次是MSLDOCK-s2，Autodock-d，最后是SODOCK。這表明，所提出的多群策略和RDPSO中的隨機漂移機制可以真正提高優化算法的虛擬篩選性能。此外，MSLDOCK-s6在虛擬篩選精度上比MSLDOCK-s2更好，這表明具有較多子群的MSLDOCK由于其較高的穩固性，更適合于較少重復的對接。表7中的平均結果顯示，MSLDOCK-s2和MSLDOCK-s6分別在所有單線程對接程序中，僅比Glide和LeDock慢，但比其他程序好得多，類似于自身對接速度比較的結果。由于高效率和優越的篩選精度，MSLDOCK程序成為虛擬篩選的最佳選擇之一。

圖5. 使用所有經過比較的對接程序進行虛擬篩選四個靶標的ROC曲線。(A) 圓形混凝土的ROC曲線。(B) 循環4的ROC曲線。(C) cp3a4的ROC曲線。(D) kf11的ROC曲線

圖片來源于JCIM

表5. 使用所有比較程序評估

DUD-E數據集虛擬篩選靶標的EAUC-ROC值

表格來源于JCIM

表6.?使用所有比較程序評估DUD-E數據集虛擬篩選靶標的EF值

表格來源于JCIM

表7.?使用所有比較程序的DUD-D數據集中

每個配體對接的平均篩選時間(單位：秒)

表格來源于JCIM

結論和展望

綜上所述，本文通過使用 MSLDOCK程序解決了大多數柔性配體對接問題并了獲得良好的對接結果。MSLDOCK的缺點在于無法通過獲得一個足夠好的RMSD來獲得得分最好的構象，具體表現如下：

(1) 對于自對接一個具有不太靈活配體的單個測試用例，在得分最好的RMSD方面，Vina 和 Glide 比MSLDOCK表現更好。

(2) MSLDOCK-s2 由于子群更少和足夠的對接重復，更適合對接一個需要多次重復的單次測試用例，找到得分最好的RMSD的構象，特別是對于高度靈活的配體對接問題。在自對接和交叉對接精度方面都優于MSLDOCK-s6。

(3) MSLDOCK-s6 由于具有相對較多的子群的高穩固性，適合對接一個需要少量重復的單個測試用例，例如虛擬篩選。

詳細評估子群數的變化如何影響對接結果或充分利用多線程模式快速評估子群數的設置，MSLDOCK可以為每個特定的對接問題自動找到合適的選擇。因此將進一步了解MSLDOCK在配體的原子數方面的對接性能，配體的原子數在某種程度上會真正影響對接的精度和效率。此外，已將集成MSLRDPSO與其他得分函數和/或其他對接程序，以檢查所提出的搜索算法的潛力。

代碼下載

MSLDOCK: https://github.com/lcmeteor/MSLDOCK

參考文獻

Chao Li, Jun Sun, and Vasile Palade, Multi-Swarm Optimization for Flexible Ligand Docking and Virtual Screening, J. Chem. Inf. Model., 2021, 61, 1500-1515. DOI: 10.1021/acs.jcim.0c01358.

實時關注公司行業最新動態

JCIM | MSLDOCK: 一種適合高柔性配體的虛擬篩選方法