虛擬篩選

虛擬篩選是利用計算機模擬藥物篩選過程,對化合物的活性做出預測,可從大型化合物庫中迅速篩選出有潛在活性的候選藥物。目前用到的虛擬篩選方法包括基于結構的藥物設計(SBDD)、二維指紋相似性、三維形狀的相似性,其在準確性、速度和新穎性方面都有優缺點(如圖1)。

圖1.二維相似性(藍色)、三維相似性(紅色)和基于結構的藥物設計(綠色)的虛擬篩選方法在準確性、速度和新穎性方面的定性比較
圖片來源JCIM
三維形狀相似性搜索的虛擬篩選
本文集中討論了三維形狀相似性搜索的虛擬篩選,以及如何將其擴展到非常大的化學空間,進一步研究了需要列舉和搜索多少化合物,以最大限度地從給定化學空間中檢索新的化合物,達到高效率高質量的目的。ROCS是一款基于三維形狀相似性的虛擬篩選工具,通過形狀比較快速地識別潛在的活性化合物,其中,FastROCS是目前基于3D形狀的最快方法之一。然而,生成和搜索超過幾百萬個分子的三維構象數據庫可能需要大量的硬件資源,使得本地計算機資源緊張。在本文,作者是在OpenEye云平臺Orion中的FastROCS,實現了10^5-10^10數量級虛擬分子庫的生成和搜索,并討論了五個數量級的分子庫虛擬篩選的時間、費用、命中率和相似性得分的差異。虛擬分子是基于4100多個已建立的合成路線生成的,如圖2所示,通過三個分子片段組成一個全新的虛擬分子,根據給定的化學路線大部分都能被合成出來。

圖2.?虛擬分子產生的示例圖
圖片來源JCIM
結果
為了進一步評估FastROCS虛擬篩選的性能,作者生成了分子量為51M、172M、1330M和12700M四個數據庫。圖3給出了生成數據庫的時間和費用,以及基于云平臺的FastROCS搜索這些數據庫所需的時間。計算費用與分子庫數量有明顯的線性關系,因此可以根據計算的數據庫大小預估成本。生成數據庫所需的時間取決于CPU的數量,使用更多的CPU可以很容易地降低所需的時間。

圖3.?數據庫生成和搜索所需的時間和費用
圖片來源JCIM
作者用了十個不同類型的提問式 (query)(圖4)查詢上述數據庫,并統計了排名top200000的分子的命中率,TanimotoCombo相似性量度(Tc),片段的多樣性(圖5)。如預期的那樣,基于查詢式得到的分子命中率與分子庫大小成線性關系,另外,有趣的是,Tc得分值也隨著搜索空間增加而增加。最重要的發現是,用更大的搜索空間檢索會增加命中化合物的結構新穎性,并且在10^9-10^10尺度下,曲線變平,即新型骨架的數量不再線性增加。這表明,在10^10尺度達到這個特定化學空間的多樣性極限。

圖4.?FastROCS搜索中使用的十個查詢式的3D形狀和化學結構
圖片來源JCIM

?圖5.?10個定義的查詢式搜索數據庫的結果統計
圖片來源JCIM
總結
作者通過研究發現,10^10個化合物庫足夠最大限度地檢索新的化合物,不過未來,有待通過優化分子庫達到更高的數量級。如果生成一個10^10分子構象集,時間為2-3天,成本約為20000美元。一旦生成,此資源可用于無限數量的搜索,如果用FastROCS對如此大量的分子進行搜索是可以在幾分鐘內實現的,每個查詢大約需要100美元。
參考文獻:
Grebner C, Malmerberg E, Shewmaker A, et al. Virtual screening in the cloud: How big is big enough?[J].?Journal of chemical information and modeling,?2019.
?