<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    JCIM | Frag20-可基于3D結構和深度學習探索化學空間的數據集

    JCIM | Frag20——可基于3D結構和深度學習探索化學空間的數據集

    引言

    數據集是深度學習模型開發的基礎,深度學習模型的成功在很大程度上取決于數據集的質量和大小。在這項工作中,作者提出了一個新的數據集準備步驟,并建立了一個基于片段的大型數據集——Frag20,該數據集包含優化了3D幾何形狀并在Merck分子力場(MMFF)和在B3LYP/6-31G*級別的DFT下計算出的分子特性。整個數據集包含超過五十萬個由H,B,C,O,N,F,P,S,Cl和Br組成且不超過20個重原子的小分子?;谛碌臄祿?,作者使用簡化的PhysNet框架針對DFT和MMFF優化的小分子幾何結構開發了健全的分子能量預測模型,該模型在多個測試集包括基于實驗晶體結構的CSD20和Plati20上均達到或優于化學精度(1 kcal/mol)。

    背景介紹

    分子能量計算對于構象分析和基于結構的藥物設計至關重要。近年來,使用深度學習模型來獲取分子能量逐漸嶄露頭角。深度學習模型可以使用多個非線性層從原始數據中提取高級原子或分子表示,并以更少的計算成本提供可靠的能量預測。而深度學習方法的成功在很大程度上取決于數據質量,覆蓋廣泛化學空間的數據集對于開發具有良好泛化能力的魯棒模型是必不可少的。大部分用于分子能量預測的深度學習模型都是使用QM9數據集開發的,該數據集涵蓋了使用DFT方法在B3LYP/6-31G(2df,p)的級別上計算的133,885個由H,C,N,O和F組成且不大于9個重原子的分子的平衡態結構和分子性質,已成為深度學習模型的經典基準數據集。但是,由于DFT幾何優化的計算成本,基于DFT優化幾何結構的深度學習模型的預測分子能量的適用性將受到很大限制。最近,Glavatskikh等經過詳細的鍵距和官能團分析后指出,QM9缺乏化學多樣性。因此,為了在使用3D幾何結構開發用于分子能量預測的更健全和適用的深度學習模型方面取得進一步的進步,我們需要更大、更多樣化的分子數據集。在本文工作中,作者提出了一種新的數據準備過程,并建立了一個基于片段的分子數據集——Frag20。Frag20基于ZINC和PubChem數據庫中的可商購和公開報道的分子構建而成,并且主要從以下三個方面進行了改進:(1)分子大小和元素覆蓋:Frag20包含超過五十萬個分子,但不大于20個重原子,并涵蓋有機類藥物化合物中的常見元素(H,B,C,N,O,F,P,S,Cl,Br);(2)化學多樣性和化學空間覆蓋范圍:在Frag20的構建中,使用Murcko片段化和擴展官能團(EFGs)選擇具有代表性和多樣性的分子;(3)幾何形狀和性質:Frag20提供使用B3LYP/6-31G*理論級別的DFT和Merck分子力場(MMFF)計算的幾何形狀和分子性質。除了Frag20外,作者還使用Platinum數據集中的蛋白-配體結合分子和Cambridge結構數據庫(CSD)中的晶體結構來構建Plati20和CSD20作為外部數據集,以評估所建模型的泛化性能?;诰哂蠨FT和MMFF優化的分子幾何結構的數據集,作者使用簡化的PhysNet(sPhysNet)建立了健全的分子能量預測模型。

    Frag20,Plati20和CSD20數據集

    本文構建的Frag20,Plati20和CSD20數據集總結如表1所示。圖1展示了Frag20的數據準備過程,它主要包括四個步驟:數據預處理、分子片段化、分子選擇以及1D(SMILES)到3D(幾何構型)標記。作者從ZINC15下載了超過10億個分子量不超過400 D且LogP不大于5的分子的SMILES字符串,從PubChem下載了約9,600萬個SMILES。首先合并兩個數據集并刪除重復項,然后過濾分子以僅保留不大于20個重原子且由H,B,C,N,O,F,P,S,Cl和Br組成的分子,并且去除了立體化學,僅保留了去鹽后的最大碎片,最后得到包括98,449,207個分子的SMILES的Mol20數據集。由于Mol20含有大量分子,對所有分子進行QM計算十分困難,所以作者使用Murcko片段化將分子分解為片段,不能通過Murcko裂解的分子則被去除。經過分子裂解后,數據集的大小減少到大約900萬(8,659,028)。為了進一步減少具有大于10個重原子的分子的數量,作者基于擴展功能基(EFG)庫進一步選擇分子。EFG的生成已在python包中實現。作者為初始Mol20生成了一個EFG庫,并且僅保留了Mol20中頻率最高的前10%EFG,最終的EFG庫包含4520種不同的EFG,涵蓋了Mol20中99.9%的分子。

    圖2展示了從1D SMILES到生成3D幾何結構的過程,作者使用RDKit中的ETKDG方法為每個分子隨機生成1個構象。對于每個分子,作者使用RDKit中的MMFF94(MMFF)優化了其幾何形狀,并在MMFF優化的幾何結構的基礎上,使用B3LYP/6-31G*的級別的DFT方法進行了QM幾何優化和頻率計算。此外,作者還刪除了帶有部分電荷或自由基的分子,以確保數據集僅包含中性分子。

    整個數據準備過程已實現為python包(Frag20Prep),可用于其他的數據集構建。

    表1.?用于機器學習模型開發和評估的數據集,其中Frag20,Plati20和CSD20數據集是本文工作中新開發的

    表格來源于JCIM

    JCIM | Frag20——可基于3D結構和深度學習探索化學空間的數據集

    JCIM | Frag20——可基于3D結構和深度學習探索化學空間的數據集

    圖1.?Frag20的構建過程

    圖片來源于JCIM

    ?

    JCIM | Frag20——可基于3D結構和深度學習探索化學空間的數據集

    圖2.?1D(SMILES)到3D(Geometry)標記流程

    圖片來源于JCIM

    深度學習模型

    最近的PhysNet在QM9數據集上實現了用于分子能量預測的最新性能。PhysNet的架構(圖3A)受到ScheNet和HIP-NN的啟發。類似于許多其他基于3D幾何結構的用于分子能量預測的深度學習模型,PhysNet的輸入包括核電荷矢量Z和成對距離矩陣。PhysNet中的每個模塊都會產生一個原子預測,并將它們匯總到所有模塊中。最后,通過匯總每個分子中的每個原子獲得分子級屬性。PhysNet可以同時預測能量、力、電荷和偶極矩,因此,其損失函數是每個項的損失的加權總和。為了確保每個模塊的預測隨著模塊深度的增加而分層遞減,還添加了非分層懲罰的正則項。PhysNet還通過添加靜電相互作用和色散校正項來整合遠程相互作用。本文中,作者通過探索模型超參數,找到了PhysNet的簡化版本(sPhysNet)(圖3B),該版本將可訓練參數的數量顯著減少至約74萬,同時保留了在QM9數據集上相似的性能。作者將主模塊的數量從5個減少到3個,刪除了主模塊中的一個殘差層,并在交互層中刪除了2個殘差層,同時將原子embedding維數(num_feature)從128個增加到160個。

    JCIM | Frag20——可基于3D結構和深度學習探索化學空間的數據集

    圖3.?1D(SMILES)到3D(Geometry)標記流程

    圖片來源于JCIM

    結果

    如表2所示,我們可以看到sPhysNet與PhysNet具有相同的性能,并且兩個模型的性能都明顯優于DTNN_7ib。sPhysNet模型通過微調可以在QM9上達到0.19 kcal/mol MAE,在QM9M上達到0.35 kcal/mol MAE。由于sPhysNet模型比PhysNet復雜度低,訓練效率高,并且微調比單獨遷移學習產生更好的結果,因此sPhysNet模型更值得關注。

    表2.?三種深度學習模型在QM9和QM9M數據集的性能

    表格來源于JCIM

    JCIM | Frag20——可基于3D結構和深度學習探索化學空間的數據集

    基于Frag20數據集,作者進一步探索了使用sPhysNet開發分子能量預測模型的方法。為了廣泛檢查模型的性能,作者不僅使用了Frag20保持測試集,還使用了兩個額外的測試集CSD20和Plati20。在使用DFT優化的幾何結構作為輸入時,sPhysNet模型對于Frag20可以達到0.34 kcal/mol MAE,對于CSD20可以達到0.82 kcal/mol MAE,對于Plati 20可以達到0.72 kcal/mol MAE,都優于1.0 kcal/mol的化學精度。同時,對于Frag20,CSD20和Plati20測試集,以MMFF優化的幾何結構作為輸入,sPhysNet模型的MAE分別為0.63、1.36和1.40 kcal/mol。盡管使用DFT優化的幾何結構作為輸入的深度學習模型優于MMFF優化的幾何結構,但是獲得DFT優化的幾何結構的計算成本是獲得MMFF優化的幾何結構的數千倍。從這個角度來看,需要DFT優化的幾何結構作為輸入的深度學習模型在實際應用中價值有限。因此,我們的結果表明,以力場優化的幾何結構作為輸入來開發用于預測分子能量的深度學習模型是一個非常有希望的方向,同時也仍有待改進的地方,而我們基于Frag20訓練的sPhysNet模型可以用作未來開發的基準模型,以探索具有3D幾何結構的化學空間。

    總結

    本文中,作者提出了一種基于分子片段的數據集構建過程,并建立了Frag20數據集。Frag20顯示出廣泛的化學空間覆蓋范圍和廣泛的化學基團多樣性,這將增強深度學習模型的性能。Frag20提供了DFT和MMFF優化的幾何形狀,因此可以可用于開發用于預測分子能量的深度學習模型。此外,Frag20可以用作開發新的分子數據集的基礎,以預測其他分子特性,例如溶劑化作用和分子光譜。同時通過開發的用于預測分子能量的sPhysNet模型進一步證明,開發基于力場的幾何結構來預測分子能量的深度學習模型是一個有前途的方向,這將有助于使用3D幾何結構有效地探索化學空間。

    代碼下載

    sPhysNet:

    https://www.nyu.edu/projects/yzhang/IMA

    Frag20_prepare:https://github.com/jenniening/Frag20_prepare

    參考文獻

    Jianing Lu, Song Xia, Jieyu Lu, and Yingkai Zhang, Dataset Construction to Explore Chemical Space with 3D Geometry and Deep Learning, J. Chem. Inf. Model., 2021, 61, 3, 1095-1104. DOI: 10.1021/acs.jcim.1c00007

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放