
引言
結合熱點區域通常結合低分子量化合物(片段),其重要性在FBLD的相關文獻中已被很好地證明。結合熱點大多通過實驗手段發現,如NMR-SAR方法和基于共晶的MSCS方法都可以確定蛋白表面上的重點結合區域,但實驗手段工作量巨大且失敗率高,基于計算的片段映射方法可靠性稍遜實驗但代價極小,其中GRID和MCSS過于關注局部能量最小值而產生過多假陽性片段,FTMap通過使用較大的分子來探測表面解決了此問題。測試及驗證計算方法需要標準或驗證數據集,本文構建了一個測試發現結合熱點方法的基準數據集Acpharis,并與Astex公司的基準數據集一起完成對FTMap方法的測試。
Acpharis 數據集的產生
第一步從PDB數據庫中查詢分子量在80-200g/mol之間的“片段”型配體,剩下的分子通過子結構檢索找到PDB庫中更大的配體,以下分子被排除:
i作為片段結合到同個蛋白上;
ii以相似的朝向或位置結合;
iii明顯大于片段(至少一個配體的分子量>250g/mol)。
最終得到包含62個片段-蛋白對的基準數據集,有48個唯一的蛋白和52和唯一配體。

圖1. 部分Acpharis數據集.
圖片來源:JCIM
結合配體結構的FTMap分析
基于片段結合的口袋包含至少一個重要的共有位點的共識,FTMap幾乎能在所有情況下檢測到此類口袋。運用FTMap對圖1第四列的數據進行分析返回5行結果,以人源碳酸酐酶II(PDB code2HNC)結合配體1SA為例,圖2(A)a.第一行表示FTMap給出的從強(00)到弱(06)的共有位點,括號內的數字表示每個位點處的探針簇的數量,大于13時表示位點能夠結合具有毫摩爾及以上親和力的分子,16及以上的探針簇則能預測和具有微摩爾級別化合物的結合。第二行表示每個熱點覆蓋片段的百分比,圖2 (B)a.青色(00)表示100%覆蓋片段1SA的原子,白色(04)表示部分覆蓋,第三行表示的關系則相反,表示有多少比例的熱點被片段占據。后兩行是片段生長為配體時的熱點分析,人源碳酸酐酶結構中最大的配體是ARZ,1SA是其子結構,第四行表示每個熱點覆蓋最大配體的百分比,圖2 (B)b.白色(04)和橙色(06)覆蓋率為68%和14%,第五行表示配體占據每個熱點的百分比,ARZ的10%占據了88%的04。

圖2. 人源碳酸酐酶II的熱點分析.
圖片來源:JCIM
未結合配體結構的熱點分析
大多數情況下,熱點區域分析的目的是找到沒有已知配體信息的蛋白上的配體結合位點。因此,Acpharis數據集還新增了這部分未結合配體的信息,共有44種蛋白表示了48個蛋白-片段對。結合位點與結合配體的結構做了疊合,人源碳酸酐酶II的熱點分析顯示,最強熱點探針簇00(16)比結合配體狀態時少,圖2 (B)c.顯示熱點00覆蓋了1SA70%的片段,片段卻只占據45%的熱點,00僅覆蓋最大配體ARZ的36%,圖2 (B)c.顯示配體(橙色)也與熱點06反應。
Astex和Acpharis數據集的比較
Astex公司的Verdonk及同事構建了一個相似的蛋白數據集,他們的主要目的是區分一個區域是熱點還是溫點,而不是和作者一樣為了測試驗證熱點的方法。該數據集包含52個結合熱點和溫點的樣本。作者為了知道是否任何一個強熱點能覆蓋片段結合位點,設立了熱點覆蓋片段的50%和80%兩個閾值,探針簇13和16的熱點被認為具有成藥可能,這兩種標準均被認為是成功找到的正確熱點。結果顯示,任何熱點中,Acpharis和Astex表現相似??紤]最強熱點00時,Acpharis中,有結合結構的成功率比沒有結合配體的結構高,Astex則相反。這可能是后者中更大的配體已與蛋白共結晶,結合這樣的配體可能會使區域遠離結合片段的口袋即熱點。

圖3. Acpharis和Astex數據集覆蓋熱點的能力對比.
圖片來源:JCIM
總結
本文創建了包含62種高質量蛋白-片段復合物的數據集Acpharis并用其測試了熱點鑒定方法FTMap。另外,還討論了另一個區分熱點和溫點的數據集Astex。盡管數據集的構造方法不同,但不考慮最強熱點時,兩者表現十分相似。
參考文獻
Wakefield AE, Yueh C, Beglov D, et al. Benchmark Sets for Binding Hot Spot Identification in Fragment-Based Ligand Discovery. J Chem Inf Model 2020. https://doi.org/10.1021/acs.jcim. 0c00877