眾所周知,藥物是可以在體內發揮生物活性作用達到治療疾病目的的化合物,大部分藥物的生物活性都是通過藥物分子與體內的蛋白等生物大分子結合來介導的。[1]化合物的靶點結合作用機制是藥物研發的重要理論基礎,然而目前有大量的生物活性分子其作用靶點是未知的。此外,隨著基因組學發展,越來越多的新型靶點正在被發現,老藥新用也依賴于對這些藥物新靶點的預測。[2]因此,化合物靶點預測具有重大科學意義。
目前靶點預測的方法有很多,大部分的文獻都把這些方法分為實驗和計算兩大類。[3]實驗方法中最直接的就是生化測試法,通過孵育小分子化合物和相應蛋白的混合物,洗脫后直接評估兩者結合能力來判斷小分子是否結合于靶點。[4]另外還可以利用基因組的方法,比如將小分子的作用靶點鎖定在一定范圍內的基因簇后,通過對該基因簇進行一系列點突變或敲除,如果突變或敲除的樣本表現出和小分子作用相同的效應,則突變或敲除基因所編碼的蛋白很有可能就是小分子作用的靶點。[5]實驗方法準確性比較高,但是比較耗時費力,而且如果不能把小分子靶點鎖定在一個較小的范圍內的話,需要做大量的篩選工作,往往成本昂貴。而計算預測相對來說耗時比較少,但是當前算法的可靠性不如實驗方法,通常理論計算得到的結果都需要實驗來進一步驗證。接下來將主要介紹靶點預測的一些計算方法。
靶點理論預測方法中使用最多的是基于小分子配體結構的靶點發現,其核心理論就是結構相似的分子也會具有相似的生物學功能。[6]最簡單的思路就是對于一個未知靶點的化合物,如果它與一個已知靶點的分子在結構上很相似,那它很有可能也可以作用于相同靶點。因此這個方法中最重要的一點就是化學結構的相似性搜索。
最常見的化學相似性檢索方法有二維結構相似性和三維分子相似性檢索。二維結構檢索主要是采用分子指紋方法生成的描述符,分子指紋是指示化合物結構特征的一組數據,通常用0和1來表示,1表示分子中含有對應結構,0則表示沒有,如圖1A為PubChem分子指紋的一部分說明,如果分子中碳原子數量大于或等于2,則第9位為1,如果大于或等于4,則第9位、第10位都為1,以此類推。如果分子中含有碳氧雙鍵結構(即C=O),則第420位為1,同樣如果還含有C=S結構則421位也為1,否則為0。PubChem分子指紋一共預設了880種子結構特征,也就是說該分子指紋是一個880位的數組,包含的元素都是0或1。除了圖中的子結構以外,PubChem分子指紋還對一些基團的數量有預定義,如第除了PubChem以外,常用的分子指紋還有MACCS、ECFP、Daylight fingerprints等分子指紋,它們的區別就在于子結構的定義以及編碼的方式不同。計算得到分子指紋后就可以通過計算相似度(圖1B)來比較兩個分子之間的相似性。[7]以PubChem分子指紋為例,a為分子A中的子結構數量,b為分子B中的子結構數量,則c為分子A、B共有的結構數量,c的比例越大在一定程度上可以說明A、B分子越相似。因此這些相似度計算都是以c為判斷標準,不同計算方法區別在于分母的不同(Hamming系數除外)。其中最常用的是Tanimoto系數,不同方法的比較在參考文獻7中有詳細闡述,本文不再贅述。

圖1. A)PubChem分子指紋的部分子結構。B)分子指紋幾種相似度計算方法,其中假設有兩個分子A和B,則a表示分子A的分子指紋中1的數量,b表示分子B的分子指紋中1的數量,c表示A、B分子指紋中共同為1的數量,m表示分子指紋的總位數。
目前廣泛使用的生物活性分子數據庫如PDB、Binding DB、DrugBank、ChEMBL 等都帶有以分子指紋為基礎的化學結構相似性搜索功能,從而在某種程度上也可以提供簡單的靶點預測。但是在這些數據庫中一個分子的靶點可能有多個,對于用戶來說設置不同相似度閾值也會得到不同數量的相似分子。因此有許多工具對這些數據庫數據進行整合,并利用統計學等方法綜合分子相似度和靶點分布情況給出一個合理的靶點預測結果。比如SEA(Similarity ensemble approach)[8]整合了ChEMBL和MDDR(MDL Drug Data Report)等數據庫的化合物和靶點信息,利用Daylight分子指紋計算化合物的相似性,并將相似化合物的靶點進行聚類。用戶輸入化合物的SMILES結構式就可以在數據庫中進行匹配,最終可以得到分子的潛在靶點列表(圖2)。SuperPred[9]整合了SuperTarget, ChEMBL和BindingDB數據庫,去掉了其中一些結合較弱(比如Ki、IC50值大于10μM)的化合物-蛋白相互作用,并且只保留了在Therapeutic Target Database(TTD)中有收錄的靶點,也就是說所有的靶點都是和某些疾病相關的。SuperPred采取ECFP分子指紋計算結構相似性,支持化合物名稱,SMILES以及用戶自定義結構的查詢,同樣也可以得到預測靶點的相關信息(圖3)。
?

圖2.?SEA的搜索結果列表,包含了靶點的Unprot ID,顯著性檢驗P值(P值越小成為靶點的可靠性越大),MaxTC表示數據庫中和查詢分子相似性最高的相關系數(Tanimoto Coefficient, 圖1B)
??

圖3. SuperPred搜索結果列表,可以直接鏈接到Uniprot、BindingDB、DrugBank、PDB等數據庫
?
除了二維分子指紋以外,三維分子相似性的計算也常用于靶點預測。ChemMapper[10]是一個基于SHAFTS (SHApe-FeaTure Similarity)[11]方法的靶點預測工具,主要是把三維分子的形狀轉化為數據進行比較。該方法首先定義了七種特征藥效團,分別為疏水中心、正電中心、負電中心、氫鍵受體、氫鍵供體、芳香環以及金屬離子螯合中心,這些藥效團都分別對應了一系列的結構特征。對于待預測分子,先將分子中含有的上述藥效團全部標記出來,每三個為一組在空間中組成一個三角形(圖4),頂點代表不同類型的藥效團。對于數據庫中已知靶點的化合物做同樣的操作,當待預測分子中的藥效團三角形和已知化合物的藥效團三角形相同(即兩個三角形的頂點都是同樣的三種藥效團)時,稱為一次匹配(match),然后單獨對這兩個三角形所包含的結構進行align,再計算他們的“FeatureScore”(圖4中的FAB),FAB越大說明這兩個分子相似性越高。
?

圖4. 公式中i,j分別代表A分子和B分子中藥效團所包含的原子,f為兩分子產生的所有匹配F中的一種, dij為兩原子距離,Rf是距離的可接受值,默認為0.8?
?
靶點理論預測方法中還有一類基于受體結構特征的靶點預測,通常也指反向分子對接方法,即將小分子與一系列蛋白進行分子對接并進行打分,結合能力好的便認為是化合物的潛在靶點。這種方法的思路更接近于實驗方法,但是將生化測試換成了分子對接,在速度上和實驗相比要快很多,但是不如基于小分子配體的預測方法快速,而且這類方法很大程度上依賴于蛋白結構的準確性,該類方法的基本原理本文就不再詳細闡述。表1列出了常用的開源在線靶點預測工具,可以發現靶點理論預測方法很大程度上依賴于一個完備的包含生物活性分子和靶點結構的數據庫,其中ChEMBL、PDB是相對比較權威的數據庫,其包含的信息也比較廣泛。
?
表1. 常用的開源在線靶點預測工具

引用次數來源于Google?scholar, 截至2019.8.26
隨著生物活性數據以及化合物數據的增加,數據挖掘的方法也越來越多地應用于靶點預測,其中機器學習是最常見的方法。Polypharmacology Browser(PPB)[20][21]也是利用二維分子指紋相似性進行靶點預測的方法,在1.0版本中PPB融合了6種不同類型的分子指紋來進行分子相似性評估。而在2.0版本中,還是先將待預測分子與數據庫中已知靶點分子用分子指紋進行相似性計算,然后把分子指紋作為特征,靶點作為分類標簽,將相似性最高的前2000個分子應用于樸素貝葉斯模型進行訓練分類,訓練后的模型再以待預測分子的分子指紋為輸入特征,輸出分類進而得到靶點預測結果。
總的來說,化合物靶點理論預測方法已有不少但預測精度、廣度往往還需要不斷完善,且各類方法各有優劣。二維分子指紋的方法著重于分子化學結構的相似性,而三維方法更多的是著重于藥效團的相似性。理論上說三維方法會比二維方法更加準確,因為化合物與靶點的結合需要考慮三維空間結構的匹配,而且根據藥效團模型的理論,具有相同藥效團的兩個化合物在三維方法比較上是相似的但二維分子指紋的差異可能非常大。有文獻指出在主靶點(化合物結合的主要靶點,治療作用)預測上三維方法的優勢不大,而對于脫靶效應(化合物結合的其他靶點,副作用)的預測上三維的方法要明顯好于二維。[22]但是根據文獻的報道,利用不同分子指紋以及三維相似性等的方法在各自的應用實例中表現也都比較好,不過對于大量用戶提供的大量待預測分子是否都能很好地做出預測仍然有待檢驗。而且隨著數據量的增加,數據的冗余和無用數據也在增加,因此對數據的篩選和清洗也是靶點預測需要考慮的地方。對于用戶來說,如果條件允許,盡可能多地嘗試不同預測工具,將得到的結果匯總后,再經人工判斷有選擇地對靶點進行實驗驗證,往往是當前比較切實可行的一個辦法。
參考文獻:?
1. Gfeller, D.; Michielin, O.; Zoete, V., Shaping the Interaction Landscape of Bioactive Molecules. Bioinformatics 2013, 29, 3073-3079.
2. Sam, E.; Athri, P., Web-Based Drug Repurposing Tools: A Survey. Brief Bioinform 2017, 20, 299-316.
3. Forouzesh, A.; Samadi Foroushani, S.; Forouzesh, F.; Zand, E., Reliable Target Prediction of Bioactive Molecules Based on Chemical Similarity without Employing Statistical Methods. Front Pharmacol 2019, 10, 835.
4. Burdine, L.; Kodadek, T., Target Identification in Chemical Genetics: The (Often) Missing Link. Chem. Biol. 2004, 11, 593-597.
5. Zheng, X. S.; Chan, T.-F.; Zhou, H. H., Genetic and Genomic Approaches to Identify and Study the Targets of Bioactive Small Molecules. Chem. Biol. 2004, 11, 609-618.
6. Willett, P.; Barnard, J. M.; Downs, G. M., Chemical Similarity Searching. Journal of Chemical Information and Computer Sciences 1998, 38, 983-996.
7. Willett, P., Similarity-Based Virtual Screening Using 2d Fingerprints. Drug Discov Today 2006, 11, 1046-53.
8. Keiser, M. J.; Roth, B. L.; Armbruster, B. N.; Ernsberger, P.; Irwin, J. J.; Shoichet, B. K., Relating Protein Pharmacology by Ligand Chemistry. Nat. Biotechnol. 2007, 25, 197-206.
9. Nickel, J.; Gohlke, B.-O.; Erehman, J.; Banerjee, P.; Rong, W. W.; Goede, A.; Dunkel, M.; Preissner, R., Superpred: Update on Drug Classification and Target Prediction. Nucleic Acids Res. 2014, 42, W26-W31.
10. Gong, J.; Cai, C.; Liu, X.; Ku, X.; Jiang, H.; Gao, D.; Li, H., Chemmapper: A Versatile Web Server for Exploring Pharmacology and Chemical Structure Association Based on Molecular 3d Similarity Method. Bioinformatics 2013, 29, 1827-9.
11. Liu, X.; Jiang, H.; Li, H., Shafts: A Hybrid Approach for 3d Molecular Similarity Calculation. 1. Method and Assessment of Virtual Screening. J. Chem. Inf. Model. 2011, 51, 2372-2385.
12. Taboureau, O.; Nielsen, S. K.; Audouze, K.; Weinhold, N.; Edsg?rd, D.; Roque, F. S.; Kouskoumvekaki, I.; Bora, A.; Curpan, R.; Jensen, T. S.; Brunak, S.; Oprea, T. I., Chemprot: A Disease Chemical Biology Database. Nucleic Acids Res. 2010, 39, D367-D372.
13. Kim Kj?rulff, S.; Wich, L.; Kringelum, J.; Jacobsen, U. P.; Kouskoumvekaki, I.; Audouze, K.; Lund, O.; Brunak, S.; Oprea, T. I.; Taboureau, O., Chemprot-2.0: Visual Navigation in a Disease Chemical Biology Database. Nucleic Acids Res. 2012, 41, D464-D469.
14. Kringelum, J.; Kjaerulff, S. K.; Brunak, S.; Lund, O.; Oprea, T. I.; Taboureau, O., Chemprot-3.0: A Global Chemical Biology Diseases Mapping. Database 2016, 2016.
15. Wang, L.; Ma, C.; Wipf, P.; Liu, H.; Su, W.; Xie, X.-Q., Targethunter: An in Silico Target Identification Tool for Predicting Therapeutic Potential of Small Organic Molecules Based on Chemogenomic Database. The AAPS Journal 2013, 15, 395-406.
16. Gfeller, D.; Grosdidier, A.; Wirth, M.; Daina, A.; Michielin, O.; Zoete, V., Swisstargetprediction: A Web Server for Target Prediction of Bioactive Small Molecules. Nucleic Acids Res. 2014, 42, W32-W38.
17. Daina, A.; Michielin, O.; Zoete, V., Swisstargetprediction: Updated Data and New Features for Efficient Prediction of Protein Targets of Small Molecules. Nucleic Acids Res. 2019, 47, W357-W364.
18. Wang, J.-C.; Chu, P.-Y.; Chen, C.-M.; Lin, J.-H., Idtarget: A Web Server for Identifying Protein Targets of Small Chemical Molecules with Robust Scoring Functions and a Divide-and-Conquer Docking Approach. Nucleic Acids Res. 2012, 40, W393-W399.
19. Li, H.; Gao, Z.; Kang, L.; Zhang, H.; Yang, K.; Yu, K.; Luo, X.; Zhu, W.; Chen, K.; Shen, J.; Wang, X.; Jiang, H., Tarfisdock: A Web Server for Identifying Drug Targets with Docking Approach. Nucleic Acids Res. 2006, 34, W219-W224.
20. Awale, M.; Reymond, J.-L., The Polypharmacology Browser: A Web-Based Multi-Fingerprint Target Prediction Tool Using Chembl Bioactivity Data. J. Cheminf. 2017, 9, 11.
21. Awale, M.; Reymond, J. L., Polypharmacology Browser Ppb2: Target Prediction Combining Nearest Neighbors with Machine Learning. J. Chem. Inf. Model. 2019, 59, 10-17.
22. Yera, E. R.; Cleves, A. E.; Jain, A. N., Chemical Structural Novelty: On-Targets and Off-Targets. J. Med. Chem. 2011, 54, 6771-6785.