<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    JCIM | 深度學習加速新型靶蛋白的藥物從頭設計

    ?

    JCIM | 深度學習加速新型靶蛋白的藥物從頭設計

    引言

    在困擾于新疾病的現實世界中,我們必須加快藥物設計進程以開發針對這些新疾病的新療法。近年來,基于深度學習的方法在基于配體的藥物設計中逐漸嶄露頭角。然而,這些方法在針對新靶標設計藥物時面臨數據匱乏的問題。在本工作中,作者利用了深度學習和分子建模方法的巨大潛能來開發藥物設計流程,這對于靶標特異性配體數據集有限或不可用的情況很有用。在靶蛋白的活性位點篩選靶蛋白同系物的抑制劑以產生初始靶標特異性數據集,之后使用遷移學習用于學習靶標特定數據集的特征,然后利用深度預測模型預測新設計分子的對接打分,最后通過強化學習將這兩種模型結合起來,以優化的對接打分設計新的化學小分子。通過設計針對人類JAK2蛋白的抑制劑來驗證該方法工作流程,并且其中沒有使用現有的JAK2抑制劑數據進行訓練。結果顯示該方法能夠從驗證數據集中重現現有抑制劑分子并設計出具有更好結合能力的分子,進而證明了該方法的實用潛力。

    背景介紹

    傳統的藥物設計方法通過篩選可在公共或商業分子庫中獲得的化合物或者通過使用片段和藥效團模型從頭產生分子來識別對目標靶蛋白具有特異性的分子。但是,使用傳統方法僅僅探索了化學空間的一部分,即大約十億個小分子,而實際的化學空間大約為~10^63個分子或更多。深度學習方法在一定程度上可以彌合這一差距,并設計具有所需類藥物特性的新化學實體。

    人工智能(AI)和大數據領域的最新進展表明,有可能從根本上改變計算模型在包括藥物發現在內的醫療領域的準確性和可靠性。簡化的分子輸入線輸入系統(SMILES)表示或分子圖表示通常用于訓練深度神經網絡模型以學習特征表示。盡管AI早期研究的重點是用于虛擬篩選庫的生成,但為優化性能而引入強化學習(reinforcement learning)的方法有助于使模型產生偏向,從而生成具有目標特性的化合物。此外,通過使用記憶增強神經網絡(memory-augmented neural networks),可以顯著提高模型產生化學有效分子的效率。盡管基于AI的方法的應用取得了一些進步,但是蛋白質特異性藥物發現的數據可用性目前仍然是一個巨大的挑戰。

    本文研究中,作者開發了一種從頭設計藥物的流程,該流程可用于針對新型靶標蛋白(其3D結構已知或已建模并且可以表征活性位點)。作者先使用生成模型進行訓練以學習已知的類藥物分子的語法,然后應用分子建模技術來編譯特定于靶標蛋白的數據集,并且使用遷移學習(transfer learning)學習已編譯數據集的特征。最后,強化學習被用于組合生成模型和預測模型,從而優化打分函數以產生預計可與靶標蛋白更好結合并具有所需藥物特性的小分子。

    方法

    整個從頭藥物開發流程可分為以下幾個部分:(1)數據集管理、預處理和訓練生成模型:從ChEMBL數據庫獲得用于訓練生成模型和案例研究的數據集,這些分子以SMILES格式表示,學習SMILES語法的問題被轉換為Seq2Seq問題(機器翻譯),生成模型用來對具有堆棧增強遞歸神經網絡的SMILES數據集進行模擬。通過應用順序過濾器對SMILES數據集進行預處理,以除去立體化學、鹽和具有不利原子或基團的分子。將獲得的SMILES字符串規范化,并刪除重復項,僅收集長度≤100的分子;(2)生成靶標特異性配體數據集并進行遷移學習:來自相似蛋白質的小分子精選數據集經過了廣泛的預處理,選擇具有高生物活性(pChEMBL分數≥6.0)的分子來訓練生成模型。通過使用AutoDock Vina將這些分子對接到靶標蛋白質的活性位點上來進一步提高該數據集的靶標選擇性。具有高對接得分的分子用于重新訓練生成模型,以通過遷移學習來捕獲特定于目標受體的分子特征;(3)訓練預測模型:預測模型用于學習小分子與它們相應的實驗確定的屬性值(如生物活性)之間的映射關系;(4)增強學習來生成特性優化的分子:使用強化學習將遷移學習后獲得的生成模型與預測模型相結合,以生成具有模型偏向且感興趣屬性的分子;(5)通過理化性質過濾產生的分子;(6)應用基于規則的過濾器除去具有不良基團的分子:使用泛化學干擾化合物(PAINS)過濾器、BRENK過濾器、NIH過濾器和ZINC過濾器對經過理化性質過濾器應用后獲得的分子集進行進一步篩選;(7)通過分子模型驗證過濾后的分子:為了研究溶劑的影響并計算結合自由能,使用GROMACS 2016和CHARMM36力場進行分子動力學模擬。整個從頭小分子設計流程如圖1所示。

    JCIM | 深度學習加速新型靶蛋白的藥物從頭設計

    圖1. 從頭開始的小分子設計流程。其中x,h,y和w分別對應于輸入,隱藏狀態,輸出和權重

    圖片源自JCIM

    結果1. 設計具有Janus Kinase 2(JAK2)蛋白特有的最佳對接得分的小分子

    選擇已知抑制JAK1、JAK3和TYK2蛋白的配體來構建靶標特異性訓練數據集。經過預處理、規范化和除去JAK1、JAK3和TYK2抑制劑中的多余分子后,最終獲得了4167個分子的數據集,其中3711個分子的pChEMBL得分≥6.0。為確保3711個抑制劑分子的特異性,使用AutoDock Vina通過將其對接到人JAK2蛋白的活性位點來進一步篩選數據集,僅將虛擬篩選分數≤-7.0的3681個分子用于通過遷移學習訓練生成模型。從3681個分子的選定數據集中,進行100個epochs的遷移學習,直到推斷出的分子與訓練數據集之間的Tanimoto系數分布沒有進一步的改善(圖2a)。我們選擇了對接得分預測模型,因為它比實際對接過程快幾個數量級。經過廣泛的超參數調整后,預測模型可以在0.5的均方根誤差(rmse)范圍內預測SMILES字符串的對接得分。接下來,將遷移學習后獲得的靶標特定生成模型與預測模型進行對接分數優化,使用正則強化學習持續70個epochs。強化學習之前和之后的預測對接分數的分布被視為終止訓練過程的標準(圖2b)。強化學習后,從訓練后的生成模型中采樣了10000個分子,其中有93%(9290)在化學上是有效的。去除多余的(15.76%)和訓練固定的相同分子(2.45%)后,獲得了7469個小分子。通過使用屬性過濾器獲得了6691個分子的數據集。雖然藥物相似性得分的定量估計值分布(圖2c)仍然相似,但最終的分子集合也比訓練數據集具有更好的可合成性得分(圖2d)。

    JCIM | 深度學習加速新型靶蛋白的藥物從頭設計

    圖2.?遷移學習和強化學習期間分子屬性分布的變化

    圖片源自JCIM

    結果2. 生成模型捕獲訓練數據集的特征

    為了了解所生成分子的亞結構特征,我們計算了每個batch的不同分子片段的頻率,并計算所有batches的平均片段頻率。表1中列出了前10個片段的平均頻率。有趣的是,鑒定出的所有前10個片段通常用于設計和合成高選擇性JAK2抑制劑。值得注意的是,叔胺已顯示出增加JAK2抑制劑的選擇性和合成的容易性,并且已知雙環基團相對于JAK1、JAK3和TYK2可以提高抑制劑對JAK2的選擇性。?

    JCIM | 深度學習加速新型靶蛋白的藥物從頭設計

    表1.?驗證數據集中前10個分子片段的平均頻率

    表格源自JCIM

    JCIM | 深度學習加速新型靶蛋白的藥物從頭設計

    圖3.?優化的生成模型從訓練數據集中學習并生成接近驗證數據的分子

    圖片源自JCIM

    JCIM | 深度學習加速新型靶蛋白的藥物從頭設計

    圖4.?生成與驗證數據集相同的小分子以及具有改進的對接得分的分子

    圖片源自JCIM

    將遷移學習和強化學習后的平均片段頻率與訓練數據集和驗證數據集的頻率進行比較可以發現,遷移學習后,來自模型的平均片段頻率類似于訓練數據集的頻率,而強化學習后,來自模型的平均片段頻率類似于驗證數據集的頻率。例如,轉移學習后的叔胺頻率為3679,而強化學習后的頻率為3216。強化學習后的頻率降低表明該模型正在生成更接近驗證數據集而不是訓練數據集的分子。通過各種過濾器的強化學習模型中的小分子顯示為低維embedding(圖3)。從圖中可以推斷,生成模型能夠生成與訓練數據集和驗證數據集高度相似(使用Tanimoto系數量化)的小分子。

    結果3. 生成的小分子與驗證數據集的相似性

    為了進一步了解生成的分子相對于驗證數據集的分布,圖4a顯示了較低維的embedding。擴展連接指紋(ECFP4)被用作embedding的描述符。從embedding中可以推斷出,盡管與驗證數據集的子集相似,但這些分子也已從特異JAK2抑制劑占據的化學空間的更優化子空間中采樣(圖4a)。這可以通過生成模型在增強學習后生成具有高于預期的對接得分和具有更好的理化性質的分子的能力來證實。將虛擬篩選后最終獲得的6106個分子與特異JAK2抑制劑的驗證數據集進行比較可以發現,相對于來自驗證數據集的分子,生成的分子集中的310個分子(5%)的Tanimoto系數高于0.75。在這310個分子中,還發現一個分子與驗證數據集相同(圖4b)?;谔摂M篩選得分,與已知抑制劑分子相比,新分子可能是更好的JAK2抑制劑,且這些代表性分子的子集如圖4c所示。根據MM/PBSA計算,與現有的JAK2抑制劑(-28.9 kJ/mol)相比,新分子的預測結合自由能(Mol_1285和Mol_0717分別為-87.6和-75.3 kJ/mol)表現更好。

    總結

    作者最后總結了使用本文提出的基于深度學習的方法的優勢:(1)能夠有效探索化學空間。傳統的從頭藥物設計方法主要集中在與現有抑制劑具有高度骨架相似性的新型小分子的產生上,而深度學習模型顯示了通過生成模型生成完全新穎的骨架和小分子的能力。從研究結果可以看到,與訓練和驗證數據集相比,所生成分子的骨架中有25.21%是新穎的;(2)靶標特定分子設計。通過使用遷移學習,深度學習模型能夠從靶標特異性小分子數據集中捕獲藥效學表現形式;(3)物理化學性質的動態控制??梢允褂迷鰪妼W習將對接分數替換為所需的理化特性,以進行實時性能優化。

    參考文獻

    Sowmya Ramaswamy Krishnan, Navneet Bung, Gopalakrishnan Bulusu, and Arijit Roy, Accelerating De Novo Drug Design against Novel Proteins Using Deep Learning, J. Chem. Inf. Model. 2021, 61(2), 621-630. DOI: 10.1021/acs.jcim.0c01060.

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放