
RealVS是一種可以顯著提高top hits的精度的新方法,并能學習與生物活性相關的可解釋的關鍵子結構。
背景介紹
虛擬篩選(VS)是一種用于藥物發現的計算技術,可用于搜索最可能與藥物靶點(如蛋白質受體或酶)結合的小分子庫。VS大致分為兩大類,即基于結構的(SBVS)和基于配體的(LBVS)。
SBVS將候選配體與目標蛋白對接并利用評分函數來估計配體與高親和力蛋白結合的可能性,這一方法已經在許多工作中得到了成功應用。然而在大多數現實場景中,僅依靠SBVS無法獲得滿意的結果,需要了解蛋白質靶點的完整或局部三維結構。相比之下,基于配體的虛擬篩選(LBVS)不需要知道蛋白質靶點的三維結構,可以作為一種重要的虛擬篩選手段。同時,LBVS可以充分利用豐富的已知生物活性的配體樣品,在大型化合物數據庫中構建優良的藥物先導物虛擬篩選模型。LBVS方法通??煞譃槿?,包括基于相似度的、基于藥效團的和基于機器學習的方法,其中以基于機器學習的方法最為流行,在藥物設計中得到了廣泛的應用。
基于機器學習的LBVS方法的大體策略都是從一個龐大的數據庫中精確預測所有化合物的生物活性。但是實驗工作者比起關注整個化合物庫的預測結果,更傾向于從大型數據庫中預測的生物活性排名前k位的化合物中進行選擇,以繼續進行濕法藥物發現實驗。在藥物先導物的虛擬篩選中,top-k精度的顯著提高比傳統LBVS方案更有價值。但目前,還沒有專門關于這方面的研究。
主要內容
本文中,來自南京郵電大學的吳建盛團隊提出了一種新方法–RealVS,可以顯著提高從大型化合物數據庫中進行藥物先導物虛擬篩選的top-k精度。RealVS的特點如下:(1)通過遷移學習,從源域引入豐富的訓練樣本,彌補與藥物靶點相關的非活性配體的不足;(2)采用自適應域對齊擬合訓練模型所用化合物生成特征的分布與篩選化合物生成特征的分布,確保訓練模型具有更強的泛化能力;(3)提出一種新的目標函數,同時優化分類損失、回歸損失和對抗損失,通過優化分類損失可以篩選出大多數非活性配體;(4)引入圖注意力網絡,學習與配體生物活性相關的關鍵亞結構,提高模型的可解釋性。大量基準數據集的結果表明,該方法在針對大型化合物數據庫中的LBVS虛擬命中里顯著提高了不同k值下的top hits精度,在實際應用中具有重要價值。相關的研究成果以“RealVS: Toward Enhancing the Precision of Top Hits in Ligand-Based Virtual Screening of Drug Leads from Large Compound Databases”為題發布在國際著名期刊Journal of Chemical Information and Modeling上。
RealVS網址
http://noveldelta.com/RealVS
網站首頁:

模型組成
研究者提出的RealVS模型包含四個模塊,如圖1所示,即(1)圖關注模塊G;(2)回歸模塊R;(3)分類模塊C;以及(4)適應模塊A?;貧w模塊R和分類模塊C構成了一個篩選調節器,以篩選出無活性的配體,重點預測活性配體的活性。

圖 1. 本文所提出的RealVS的架構。圖片來源于JCIM
與基于圖分子預測方法的比較
研究者將結果與基于圖分子預測方法進行了比較,包括圖卷積網絡(GCN)、圖注意網絡(GAT)、利用監督學習和語境預測預訓練的圖同構網絡(GIN)、神經指紋(Neural FP)、Weave、消息傳遞神經網絡(MPNN)、加權深度學習和隨機森林(WDL-RF)、以及Attentive FP。
如表1所示,在所有數據集和k值上,RealVS均取得了最好的性能,對前5%,平均精度提高了15.27% (RealVS, 52.84%;第二名,45.85%),對前15%,平均精度提高了25.17% (RealVS, 62.46%;第二名49.89%),前25%則提高了30.88% (RealVS, 71.58%;第二名,54.69%)。特別是top-k精度的顯著提高(提高32.55%;RealVS,60.64%;第二名,45.75%)的結果表明,即使在小的訓練樣本量下,RealVS仍然保持著較高的top-k精度。?

表 1. 5倍交叉驗證下不同靶標GPCRs的Top-k精度和召回率比較。表格來源于JCIM
特征可視化與解釋
與此同時,研究者對靶向高活性配體和篩選出非活性配體的能力進行了探索。在測試集中,研究者分別為人體溶脂、大麻素和腺苷受體選擇了三種高活性配體和非活性配體(見圖2和圖3)。結果如下:
(1) RealVS更關注最有可能與靶標結合的原子,因此,預測高活性配體的等級較高。例如,RealVS將注意力集中在可能通過提供氫鍵與人溶質受體Q99500結合的羥基(“-OH”)上(見圖2a);RealVS更關注氯離子(“Cl-”),氯離子可能通過提供陰離子與人大麻素受體P34972結合(見圖2b);RealVS更關注“N”原子附近的“C”原子,該原子很可能與人腺苷受體P29274結合(見圖2c)。? ? ? ? ?

圖 2. RealVS命中高活性配體能力的解釋。圖片來源于JCIM
(2) RealVS將注意力從看起來像但不會鍵合的原子轉移,因此,即使回歸模塊預測高生物活性,分類模塊也可以篩選出非活性配體。例如,RealVS將注意力從不容易與人類溶脂受體Q99500結合的“O”原子轉移(見圖3a);RealVS將其注意力轉移到苯環外的所有原子,猜測配體可能不會與人體大麻素受體P34972結合(見圖3b);RealVS將注意力從亞氨基(“-NH-”)和“O”原子轉移,它們看起來像人的腺苷受體P29274,但不會結合(見圖3c)。?

圖 3. RealVS篩選非活性配體能力的解釋。圖片來源于JCIM
在PDBbind v2016中的研究
為了進一步驗證RealVS的算法性能,研究者在PDBbind v2016基準數據集上進行了實驗。PDBbind v2016數據集包含了114344個實驗確定的結構和16179條實驗確定的結合親和力數據(Kd, Ki和IC50)。采用默認設置,將精煉集作為訓練集,將核心集作為測試集。核心集包含聚集在57類蛋白質中的285個蛋白-配體結合親和性數據。研究者使用了791個配體的SMILES和精煉集(不包括核心集)中同類型蛋白質的蛋白-配體結合親和力作為訓練集。
為了更好的比較,將活性最高的配體數量排在第一位(top-1 hit),并對所有57個數據集取Pearson相關系數(R)平均值來評估算法(圖4a和4b)??梢钥闯?,RealVS,在R和top-1 hit方面都優于其他方法,尤其是R指數(與基于配體的共識結果0.747相比),顯示出了出色的預測能力。

圖4. 5倍交叉驗證下PDBbind v2016精練集和核心集上R與Top-1 Hit的比較。圖來源于JCIM
結論總結
本篇文章提出了一種新方法,RealVS,可以顯著提高top hits的精度,并學習與化合物生物活性相關的可解釋的關鍵子結構。
RealVS的動機包括以下幾點:首先,通過從源結構域轉移豐富的信息,減少了與藥物靶點相關的非活性配體的需求。隨后,采用域對齊方法擬合訓練數據集和篩選數據庫中化合物生成特征的分布,以獲得較好的模型泛化能力。接下來,研究者提出了一個新的目標函數,同時優化分類損失、回歸損失和對抗損失,其中大多數非活性配體往往被篩選出活性預測。最后,研究者采用圖注意力網絡來學習與配體生物活性相關的關鍵子結構,以提高模型的可解釋性。大量基準數據集的結果表明,RealVS在藥物先導物虛擬篩選的各種設置下,均顯著提高了top-k精度(平均提高32.64%)。
參考文獻
Yin, Yueming, et al. “RealVS: Toward Enhancing the Precision of Top Hits in Ligand-Based Virtual Screening of Drug Leads from Large Compound Databases.”?J. Chem. Inf. Model.?2021, 61, 10, 4924–4939.?https://doi.org/10.1021/acs.jcim.1c01021