<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    JCIM | 全球最大的篩選數據庫ZINC20上線,新增數十億分子及兩大快速檢索方法

    JCIM | 全球最大的篩選數據庫ZINC20上線,新增數十億分子及兩大快速檢索方法

    引言

    鑒定及購買新的小分子以進行生物學實驗可以幫助配體發現,但基于廉價的按需定制化合物庫的可購買化學空間已經持續增長到數百億,簡單的化學空間搜索都成為一個重大挑戰。ZINC是一個匯總了化合物的銷售及其他注釋信息的公開數據庫,其數據量從2005年的不到100萬增長到現在近20億。面對如此龐大的數據量,傳統的化學空間搜索及分子表示方法逐漸變得笨拙,迫切需要新的搜索算法來保持較快的響應速度和滿足不同的搜索需求。

    背景

    全世界庫存化合物每年僅增長百分之幾,而按需定制庫則成倍增長,數年之后,市售化合物的數量將達到1012 ,化合物多樣性也將得到極大擴展,迫切需要新的方法來搜索這個化學空間。傳統搜索方法如基于ECFP4 Tanimoto對10億分子進行40%相似度檢索需要3分鐘以上,而3分鐘以上的全分子相似性搜索往往會因非實時搜索而直接失去研究人員的關注。對于子結構和模式檢索,這種非實時(響應時間>3分鐘)問題更加嚴重。

    解決此問題的一種方法是通過使用特征樹(近似藥效團)在構建塊(building-block)空間中搜索來避免完全枚舉數據庫。該方法在相同的時間內能比基于分子指紋的搜索方法搜索10倍之多的分子,在化學空間增長時,該方法仍能保持競爭力。缺點是不如基于原子水平的枚舉化合物庫方法精確,無法準確匹配氫鍵供體和受體的特定模式。

    UCSF的John J. Irwin教授發布了ZINC20(zinc20.docking.org),提出了新的搜索方法決傳統基于原子分辨率搜索方法的弊端。

    ZINC20的新增化合物

    ZINC的規模不斷擴大,ZINC20現在包括14億化合物,其中13億來自150個公司共310個產品目錄。這些化合物滿足90/90/90規則,即超過90%的目錄每90天更新一次且90%以上的化合物均可購買。新增的數據集包括10^10個分子,暫未添加到ZINC中。

    為了研究按需定制庫與物理篩選平臺中分子的多樣性,作者從骨架多樣性和分子形狀兩方面開展實驗。對ZINC按需定制庫(大部分來自Enamine REAL)和其他幾個公開的物理篩選庫(NIH的小分子庫MLSMR,UCSF小分子庫SMDC,ZINC的Ro4化合物存貨)計算Bemis-Murcko骨架并統計每個骨架內化合物的數量,研究結果顯示,按需定制庫中超過97%的化合物無法在ZINC存貨中找到,新的骨架數量幾乎與分子數量呈線性關系增長。當骨架數量增長16倍時,按需定制庫的分子數量是ZINC存貨庫的88倍。使用NPMI方法對各庫分子形狀分類后發現,按需定制庫的分子在結構上也比物理篩選庫更多樣化,盤狀(如苯環)及球形(如金剛烷)分子大幅增加。

    ZINC20的新增搜索工具

    • 全化合物相似搜索 SmallWorld

    SmallWord(https://sw.docking.org)是一種圖形編輯距離和最大公共子圖(MCS)方法,主要創新之處是為所有可能列舉的分子的匿名圖做了預索引。該方法在磁盤夠大夠快速的情況下,搜索時間呈亞線性時間增長,幾乎與搜索的分子數無關。在一個1660億的分子庫中,只需1-2秒就能在作者的計算機上找到最相似分子。對按需定制庫進行檢索時,成千上萬的分子類似物通常在15秒內出現。而使用將ECFP指紋存儲在Postgres中索引的方法則需要3分鐘以上的時間才能在14億分子中找出最相似的100個類似物。對1000多個分子搜索類似物時,SmallWord為每個分子找到前100個類似物的平均響應時間為2秒。與任何已知的基于指紋的方法相比,這是一種根本性的算法改進。?

    JCIM | 全球最大的篩選數據庫ZINC20上線,新增數十億分子及兩大快速檢索方法

    圖1. SmallWord用于ZINC全分子相似性檢索的界面

    圖片來源:JCIM

    • 子結構檢索及模式匹配Arthor

    Arthor(https://arthor.docking.org)通過聯合分子的一致性二進制表示形式和基于SMARTS的自定義模式匹配器來對分子進行操作。一臺內存為128G的計算機,Arthor能在1-2秒內搜索10億分子的子結構或化學型。與SmallWord不同,Arthor的性能受到分子數量的制約,但該方法已是迄今為止原子水平上進行子結構和模式搜索最快的方法。它還可以使用RoundTable算法在幾臺計算機上并行以快速搜索數十億甚至數百億分子。為了更適用于一般性搜索需求,作者將Arthor搜索的上限設為10000個分子。對常見模式如苯基和環己基,通常不到一秒就能發現前10000個分子,復雜的模式則需要10-20秒完成14億分子的搜索或達到10000分子的上限。

    JCIM | 全球最大的篩選數據庫ZINC20上線,新增數十億分子及兩大快速檢索方法

    圖2. Arthor用于ZINC子結構檢索和模式匹配的界面

    圖片來源:JCIM

    參考文獻

    ZINC20—A Free Ultralarge-Scale Chemical Database for Ligand Discovery. John J. Irwin, Khanh G. Tang, Jennifer Young, Chinzorig Dandarchuluun, Benjamin R. Wong, Munkhzul Khurelbaatar, Yurii S. Moroz, John Mayfield, and Roger A. Sayle. Journal of Chemical Information and Modeling Article ASAP. doi: 10.1021/acs.jcim.0c00675

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放