

Pharmacoprin是一種高分辨率的藥效團指紋,可對分子的呈現、類型和藥效團特征之間的關系進行編碼。
背景介紹
目前,指紋已成為編碼化合物結構最流行的方式之一,在化學信息學被廣泛應用于相似度搜索、聚類和分類等任務。分子指紋的基本思想是對分子應用一個函數來生成一個位向量或計數向量。
另一種化學信息學尤其是虛擬篩選中常用的技術是藥效團模型。藥效團是與生物靶點相互作用,并觸發生物效應的分子的各種結構特征的空間取向。藥效團過濾器,本身可以作為篩選的一部分,甚至可以作為一個獨立的工具。指紋也經常在機器學習方法中扮演輸入的角色;因此,創建一個廣泛描述化學結構藥效團特性的指紋圖譜,可極大擴展該方法的應用領域。
將指紋圖譜與藥效團模型相結合的做法并不新鮮。McGregor和Muskal等人使用10549比特的指紋來描述三點藥效團,Wood等人的四點藥效團將其擴展到超過30萬比特,應用起來非常耗時且消耗CPU。ChemAxon在軟件中引入了一種基于原子對的二維藥效團指紋,這個指紋被定義為所有原子-原子藥效團特征對及拓撲距離的集合,然而該指紋無法被轉換成二進制向量。盡管前人已創建了高分辨率的表示,但該主題仍留有進一步探索的空間。
主要內容
在本研究中,來自波蘭科學院藥理學研究所的Rafa? Kurczab等人提出了藥效團指紋(以下稱為Pharmacoprint)的概念和構建,以二進制形式描述藥效團特征。Pharmacoprint在分類實驗中使用ML算法(邏輯回歸、支持向量機、線性支持向量機和神經網絡)進行了評估,其性能優于其他流行的分子指紋(如ECFP4、Estate、MACCS、PubChem、Substructure、klekotra – roth、CDK、Extended和GraphOnly)和ChemAxon藥效特征指紋圖譜。Pharmacoprint由39973比特組成;采用多種方法進行降維,其中最優的算法不僅縮短了位串長度,而且提高了ML測試的效率。最后,Pharmacoprint產生了具有明確氫原子的三維(3D)結構作為輸入文件應用到神經網絡中,并使用監督自動編碼器選擇最重要的比特,使得可以最大化Matthews相關系數,最高可達0.962。相關的研究成果以?“Pharmacoprint: A Combination of a Pharmacophore Fingerprint and Artificial Intelligence as a Tool for Computer-Aided Drug Design”?為題發布在國際著名期刊Journal of Chemical Information and Modeling上。
Pharmacoprint考慮并評估了指紋作為ML實驗輸入數據的應用(圖1)。?

圖 1. 本研究中所進行實驗的一般方案。圖片來源于JCIM
項目地址:
?https://github.com/lstruski/Pharmacoprint
Pharmacoprint的工作流程
該算法的主要作用是識別分子中的藥效團特征,并確定以鍵為單位的拓撲距離測量的內部特征距離。用戶可自定義特征定義和距離倉。

圖2. Pharmacoprint生成方案,其中兩個特征,兩點和三點藥效團,和兩個距離倉定義一個38比特指紋。圖片來自JCIM
為了說明算法是如何工作的,研究者假設只有兩個藥效團特征(圖2中的A和B),兩個或三個特征的所有可能組合,以及兩個距離倉(兩個或更少的鍵和兩個以上的鍵)。兩種藥效團特征(A和B)可以組合成三對(AA、AB和BB)和四對三聯(AAA、AAB、ABB和BBB)。特征對之間的距離可以認為是在第一個倉內(兩個或更少的鍵;bin “0”)或第二個倉內(兩個以上鍵;bin “1”),這意味著一個單一的兩點藥效團是由兩個比特來描述的。三點藥效團由8比特描述,因為三個內部距離,可以在第一或第二距離倉,可以產生8種可能的解決方案。這種表示的整個指紋由38比特組成。
在本研究中,為了測試Pharmacoprint的性能,研究者人員進行了以下設置:采用Gobbi和Poppinger最初列出的8種藥效團特征類型(氫鍵受體、氫鍵供體、堿性基團、酸性基團、疏水基團、鹵素、脂肪環和芳香環的連接點)和七個距離倉[(<1,3), (<3,4), (<4,5), (<5,6), (<6,7), (<7,8), (<8,100),以鍵為單位度量所有距離]。8個藥效團特征、7個距離倉和所有的2點和3點藥效團的組合,共產生了39973比特的指紋。?

表1. 本研究中所使用的受體列表,以及ZINC中的活性數據和化合物的數量。圖片來自JCIM
指紋比較
研究者比較了不同分子指紋圖譜和藥物學指紋圖譜的效率。使用了兩種非活性物質(ChEMBL的真正非活性物質和ZINC的假定非活性物質)。Pharmacoprint是通過以下設置生成的:無約簡算法(所有39973比特指紋全部使用)?,生成氫原子位置確定的三維表征。所有計算均使用三種ML方法(SVM、LSVM和LR)進行。

圖3. 本研究分析的所有指紋圖譜的MCC值箱圖。圖片來自JCIM
結果(圖3)顯示,Pharmacoprint在真假陽性化合物分類方面優于所有測試指紋。Pharmacoprint的中位MCC(Matthews相關系數,范圍為-1~1)和平均MCC均最高(分別為0.766和0.736);然而,ECFP4和FCFP4的結果相似(ECFP4的中位MCC = 0.754,平均MCC = 0.729, FCFP4的中位MCC = 0.749,平均MCC = 0.722)。Pharmacoprint的性能與廣泛使用的KRFP、ECFP4和FCFP4具有可比性(KRFP和Pharmacoprint的中位MCC為0.980,FCFP4為0.981,ECFP4為0.983)。
Pharmacoprint與ChemAxon PF fp比較(分別針對靶點和ML方法),結果顯示出了Pharmacoprint的優勢,45例中有37例MCC值較高。?

表2. 比較Pharmacoprint和ChemAxon PF fpa的MCC值(3種ML方法和15種不同靶點計算)的差異。圖片來自JCIM
所有結果在p = 0.05的顯著性水平下,經Friedman檢驗進行了統計學分析。結果證明,ECFP4和FCFP4與Pharmacoprint的差異在統計學上并不顯著。Pharmacoprint與其他三種結構指紋圖譜(Ext、FP、KRFP)的差異也無統計學意義,但在等級上差異較大。六個剩余的指紋圖譜,已證明在統計上比Pharmacoprint差。
輸入分子表示的影響
隨后的實驗只進行了Pharmacoprint表示,沒有用無約簡算法來闡明化學結構,結果(圖4)表明在Pharmacoprint生成前,不管應用何種ML方法,適當準備化學結構是獲得高質量結果的關鍵。因此,為了保證結果的最高質量,化合物應制備為具有明確氫原子位置的三維結構。而在Pharmacoprint中,當藥效團特征的數量增加2倍時,比特數就會增加10倍。這樣的分子會引入很多噪音。當化合物從2D轉換為3D時,觀察到結果的質量得以提升,從而確保了高分子量化合物的消除。因此,為了獲得高質量的結果,自動截斷是必須的步驟,但轉換為3D數據本身并不是必須的。綜上所述,初始數據準備是耗時的;然而,必須最大限度地利用這些數據,來創建機器學習預測模型的統計參數。?

圖 4. 在三種不同的機器學習方法的分類實驗中獲得的輸入分子的不同表示的平均MCC值(15個不同的生物靶點計算)。圖片來源于JCIM
靶點依賴性
在分析不同靶點的結果時(圖5),可以發現無論采用哪種ML/約簡算法組合,一些靶點的結果都優于其他靶點的結果。特別是,對活性化合物數量最多的生物靶點(如delta阿片類受體或5-羥色胺-HT6受體)的檢測結果較好。NMDA和NPC1受體的活性成分相對較少,結果最差。

圖 5. 通過不同的機器學習方法和約簡算法獲得不同生物靶點的MCC值。圖片來源于JCIM
然而,HIV整合酶抑制劑卻沒有觀察到類似的結果,盡管和較差靶標的活性化合物的數量相似,但創建的分類模型卻非常有效 (MCC值達到了0.962,這是本研究中所實現的最大值)。與HIV整合酶抑制劑相比,在NPC1活性和非活性之間觀察到更高的內部差異,但在這種情況下,不良結果是由于活性和非活性之間的數量失衡(約1:161)。
以上結果表明,采用監督式自動編碼器對指紋進行約簡是最佳的方法;對于大多數靶點,該方法獲得的MCC值最高,與神經網絡結合尤其有效。

圖 6. 本研究分析的所有5-HT1AR活性化合物中活性最好的化合物ChEMBL42393的結構以及相似性搜索的每個指紋類型中最相似的三個化合物。圖片來源于JCIM
結論總結
本文介紹了一種描述化合物結構中藥效團特征呈現的指紋圖譜。Pharmacoprint是最長指紋之一;在一定設置下生成的完整指紋由39973比特組成,但這是很容易縮減的。當作為ML方法的輸入時,這種表示優于其他11種常用的分子指紋中的9種,并在分離真正的活性和非活性上返回與ECFP4和FCFP4相似的結果。
如果Pharmacoprint是由定義了氫原子的3D輸入結構生成的,并將其作為具有監督自動編碼器功能的神經網絡的訓練數據,則在分類測試中可以獲得高達0.962的MCC值。
參考文獻
Dawid Warszycki, ?ukasz Struski, Marek ?mieja, Rafa? Kafel, and Rafa? Kurczab, Pharmacoprint: A Combination of a Pharmacophore Fingerprint and Artificial Intelligence as a Tool for Computer-Aided Drug Design, Journal of Chemical Information and Modeling Article ASAP. DOI: 10.1021/acs.jcim.1c00589.