<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    JCIM | 用于大規模虛擬藥物篩選的機器學習管道

    JCIM | 用于大規模虛擬藥物篩選的機器學習管道
    JCIM | 用于大規模虛擬藥物篩選的機器學習管道

    一種適用于大規模虛擬篩選的機器學習管道,可處理不斷增加的類藥化合物庫,并區分真陽性和假陽性。

    背景介紹

    在過去的數十年里,虛擬篩選技術在藥物發現中越來越普及,這很大程度上是由類藥分子的不斷增長和計算機技術的進步共同推動的,但至今其發展仍受到兩個方面的阻礙。首先,目前商業化合物的數量將很快達到1011-1012個分子,而人類預估類藥物分子的數量約為1060。將如此龐大的化合物庫與特定的藥物靶點對接是一項艱巨的任務。其次,對接能很好地篩選出非活性化合物,但會產生過多的假陽性。

    處理這類龐大化合物的策略之一是庫修整,這樣不會損失潛在的命中率。機器學習雖然已在藥物發現應用中,尤其是化合物分類及辨別對接結果的真假陽性方面(例:vScreenML)顯示出強大的功能,但據目前所知,它們還沒有被用于庫修整。

    如今,分子動力學(MD)模擬越來越多地被用于否決對接的假陽性結果?;旌系腝M/MM模型兼具了量子力學的精確性和分子力學的高效性,為研究蛋白-藥物復合物提供了強有力的工具。本文作者之前的工作已經證明了QM/MM MD模擬在選擇對抗SARS-CoV-2主要蛋白酶Mpro的抑制劑方面的成功。QM力場是ANI-2x,它是由一個神經網絡根據密度泛函理論對數百萬小分子進行訓練的。研究者的ANI/MM MD模擬,獲得了藥物發現工作流的完整過程。該工作流從對接的1615個FDA批準的針對Mpro的藥物開始,首先通過經典MD模擬,然后通過ANI/MM MD模擬將對接命中進一步過濾,最后預測了9個Mpro抑制劑,其中至少有3個是已報道的活性抑制劑。

    主要內容

    本文中,來自伊利諾伊大學芝加哥分校的Huan-Xiang Zhou教授等人報道了一個用于大規模虛擬篩選的機器學習管道。該管道的兩個核心部分是(1)通過聚類進行庫修整;(2)通過密集神經網絡(DNN)將對接選擇的命中結果分離為真陽性和假陽性。研究者通過篩選RPN11抑制劑、蛋白酶體的去泛素酶亞基(圖1)和乳腺癌的藥物靶點來闡述這一管道。作者調整了之前的工作流程,從而得到了8種RPN11抑制劑。相比之下,在顯著降低計算成本的情況下,機器學習管道發現了其中的6個抑制劑。相關的研究成果以?“Machine Learning-Enabled Pipeline for Large-Scale Virtual Drug Screening”為題發布在國際著名期刊Journal of Chemical Information and Modeling上。

    通過全對接和昂貴的MD模擬篩選RPN11抑制劑

    這個工作流程涉及對接的240萬個化合物,并通過昂貴的經典和混合量子/經典MD模擬來評估命中,獲得了8個真陽性(圖1A)。然后,研究者開發了一個機器學習管道,其中庫在對接前縮減了10倍,DNN被訓練來區分真陽性和假陽性。

    JCIM | 用于大規模虛擬藥物篩選的機器學習管道

    圖1. 通過全對接和經典MD模擬篩選RPN11抑制劑。圖片來自JCIM

    研究者使用Autodock Vina將240萬化合物中的每一個與從ZINC15網站上的ChemDiv和Asinex庫中提取的可對接的化學結構與RPN11剛性對接。在這個“一級”對接中,對每個化合物生成的10個構象選出Vina評分最好的一個。根據Vina評分(最佳評分為?9.9 kcal/mol)對化合物進行排名,并以?9.2 kcal/mol為截斷值篩選出101個化合物。

    其次,研究者為Ins-1環生成了19種額外的構象,并進行了二級對接,其中一級對接選擇的101種化合物中的每一種都和其他19種Ins-1構象一起與RPN11對接。在101種化合物中,研究者選擇了48種化合物,它們在20種Ins-1構象中至少有6種的Vina評分高于?9 kcal/mol。

    剩下的任務是在48次測試中區分真陽性和假陽性。這是分兩步完成的。首先,研究者進行了100 ns的經典MD模擬。在MD模擬中,真陽性預期是穩定的,而假陽性預期是在結合位點移動或離開結合位點,導致高的配體-RMSD值。因此,研究者計算了模擬的20到100ns部分的平均配體-RMSD(圖1B),并使用4 ?的截斷值將19個命中定義為陽性,其余25個為陰性。在第二步中,對19例陽性樣本進行了5 ns混合ANI/MM MD模擬。最后,基于5 ?的配體-RMSD截斷,研究者選擇了8個配體作為真陽性(圖1C)。與之前對SARS-CoV-2主要蛋白酶的研究類似,ANI/MM MD模擬改善了大多數真陽性(8個中的5個)的結合自由能,但削弱了大多數假陽性(11個中的9個)的結合自由能(圖1C)。

    用k-均值聚類對全庫進行修整

    研究者從ZINC15網站的101種配體中的97種的一級對接中(圖2A)提取PDARB。其余四種配體,研究者使用RDKit包獲得了PDARB。根據PDARB計算的距離進行層次聚類,101個配體分為3種聚類,分別為25個、48個和28個配體(圖2B)。通過對二維結構和物理化學性質的考察,研究者驗證了同一組中配體是相似的 (圖2A,C)。組I是高HBA和RB;組II log P高,HBA低;組III在HBD和Ring中含量較高。由此,驗證了通過對接選擇的陽性確實形成了少量聚類且PDARB用于聚類是有效的。

    JCIM | 用于大規模虛擬藥物篩選的機器學習管道

    圖 2. 101種化合物的層次聚類。圖片來源于JCIM

    隨后,研究者從ZINC15網站上提取PDARB,以獲得初始庫中的240萬個化合物,并成功提取了130萬個化合物。研究者設定了10倍縮減的目標,并使用k-均值聚類化合物(圖3A)。?

    JCIM | 用于大規模虛擬藥物篩選的機器學習管道

    圖 3. 在RPN11靶標上的庫修整和工作流程闡述。圖片來源于JCIM

    第一步是找到最優的組數量(“k”)。為此,研究者將130萬個化合物聚成50、100或200個組,并根據找到的101個配體的數量對組進行排序(圖3B)。然后,計算了前10%的聚類的總召回率。當k = 50、100和200時,總召回率分別為44.3±4.6、90.0±2.2和64.3±3.1。這些結果表明,k = 100是最優選擇。

    接下來,當k = 100時,研究者根據每個群組中少數配體的Vina評分,選擇10個左右(即k的10%)的組。具體來說,在每個組中,選擇最接近簇心的10個配體,并獲得它們的Vina分數。然后,為組調整了Vina分數的截斷值。當10個配體中Vina得分低于截斷值時,選擇一個組。當截斷值分別為?8.0、?7.9和?7.8 kcal/mol時,選擇的簇數分別為7、11和12,由此產生的11個組召回了101個配體中的75個。在101個配體中,44個通過二級對接,并通過100 ns MD模擬進行了評估。在這44個配體中,有37個被11個選定的組召回。有趣的是,7個沒有被10倍縮減庫召回的配體,最終被100 ns MD模擬(6/7)或ANI/MM MD模擬(1/7)消除。因此,基于聚類的裁剪將庫的大小減少了10倍,且不損失任何真陽性。

    用DNN分離真陽性和假陽性

    通過對接10倍縮減后的庫以選擇命中并分離真陽性和假陽性,仍然是一個重大的挑戰。DNN可以解決此問題,作者準備了兩個截然不同的化合物子集來訓練DNN。A組由頂級的Vina評分者組成;它們的陰、陽性分類是基于配體-RMSD的一個短時(10 ns) MD模擬。B組是好的和壞的Vina得分的配體的混合;他們的陽性或陰性的分類是基于Vina的分數。?

    JCIM | 用于大規模虛擬藥物篩選的機器學習管道

    圖 4. DNN用于命中分類。圖片來源于JCIM

    研究者通過100 ns MD模擬評估了44種配體,其中19種為真陽性,其余25種為假陽性。以這44個配體作為測試集,結合2000個配體訓練的DNN預測了13個真陽性和31個假陽性,其中9個和21個是正確的,準確率為68.1%。此外,根據ANI/MM MD模擬19個配體的評估,8個預測的真陽性有6個是正確的,11個預測的假陽性有8個是正確的,在19個ANI/MM評估的配體的測試集中,準確率為73.7%。相比之下,僅在子集A上訓練DNN時,44 個100 ns MD評價配體的測試集的預測準確率較低,為61.4%,這再次表明子集B被納入訓練DNN時的準確率有提高。以19個ANI/MM評估的配體作為測試集,在訓練中省略子集B并不影響整體準確性,但預測的真陽性少了一個,多了一個正確的假陽性預測來補償。

    結論總結

    本文報道了一個可用于大規模虛擬篩選的機器學習管道。通過混合ANI/MM MD模擬,研究者確定了8個新的化合物可作為潛在的RPN11抑制劑。此文提出的機器學習流程,將有助于開發針對RPN11和其他靶點的潛在活性化合物。

    參考文獻

    Aayush Gupta and Huan-Xiang Zhou, Machine Learning-Enabled Pipeline for Large-Scale Virtual Drug Screening, Journal of Chemical Information and Modeling Article ASAP. DOI: 10.1021/acs.jcim.1c00710.

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放