引言
法國創新研究院研究者借鑒計算機視覺方法,提出了一種新的疊合和比較蛋白質空腔計算方法ProCare,有望應用于基于片段的藥物設計。
背景介紹
蛋白質的三維結構是基于結構藥物設計的基礎。潛在空腔可以用大量的計算工具在大分子表面檢測,通??煞譃槿?基于幾何型(如CavBase, VolSite, Fpocket)、基于能量型(如GRID, Q-SiteFinder)和基于進化型(如SURFNET-ConSurf)?;趲缀涡鸵蕾囉趯δ繕朔肿颖砻娴念A先計算來確定可觸及的口袋,而基于能量型則依賴于計算目標蛋白和幾個探針原子在三維晶格上的相互作用能,最后,基于進化型的工具需要對同一家族的靶點進行多重序列或結構比對,以確定與特定配體結構識別相關的進化保守基序。有趣的是,結構耐藥性或配位性,可以通過在已知的可給藥和不可給藥位點集上訓練的機器學習模型,快速計算出來。蛋白質配體結合袋的許多描述符(指紋、距離計數、藥效三聯、網格點、點云、圖形和形狀)可以通過幾何哈?;蛐』鶊F檢測算法來找到最突出的共享特征,指導蛋白質空腔的結構排列。
結果與討論
在計算機視覺、模式識別和機器人技術中,點云配準是找到使兩個點云對齊的最佳空間變換(如縮放、旋轉和平移)的過程(圖1)。

圖1 點云配準的示意圖表示。將紅色云沿其三個主要軸旋轉和平移,直到找到與綠色云的最佳對準。
兩個點云(cloud 1和cloud 2)配準的基本原理是,首先需要識別對等價點。如果cloud 1和cloud 2中的兩個點共享相似的微環境,即相鄰點的拓撲布局相似,則認為它們是等效的。因為目標是匹配兩個幾何形狀,所以這里用一個角度值直方圖描述一個點的環境,稱為快速點特征直方圖(FPFH)。
由于FPFH的每個描述符都是一個特定角度值范圍的“計數”,兩個FPFHs的相似性可以通過一個簡單的歐幾里得距離來估計。然而,FPFH雖然復雜,但不能避免在檢測通信中的歧義,尤其是當存在不應該被考慮的無關點(稱為離群值)時。一種排除離群點的方法是隨機樣本一致(RANSAC)算法。在每次RANSAC迭代中,在cloud 1中隨機抽取幾個點,分配它們在cloud 2中的對應點,通過比較拓撲距離來驗證這些對應點的相關性,最后估計一個旋轉/平移來對齊采樣集。這種基于少數點的初步校準,然后用迭代最近點(ICP)方法進行細化,它能使兩個云中對應點之間的總體均方根偏差最小化。
有趣的是,點云配準很少用于覆蓋蛋白質和配體的分子表面。在這里,云被描述為定期填充口袋的3D點的集合,每個點都有一個特定的藥效特性(顏色)來補充附近的蛋白質環境。因此,該云更大(200-300點),在形狀和藥效學特性上具有規律和互補性。我們將首先演示應用這種計算方法來解決蛋白質空腔排列問題的概念證明,接下來對一組參數進行微調,從而在一個已知空腔的大型數據集上實現最佳性能,然后提出一個物理化學相關評分來量化序列和口袋相似度。
ProCare的實現和參數優化。 許多點云配準參數對對準質量有很大影響。因此,研究者通過列舉157,465個參數組合,系統地研究了15個關鍵參數(表1,計算方法),以考慮它們的影響及其相互依賴性。為了測試所有這些條件,研究者設計了一個由五個不同的腔對完成的五個相似的對(EASY1 set)的數據集,只是為了過濾掉那些不能產生任何類型的對齊(fitness = 0),或者不能很好地區分相似和不同對的參數組合(ROC AUCs <1),這兩個簡單的過濾器可以將潛在組合的數量從157,465減少到20,181(圖2)。

表1?ProCare對齊的Open3D參數值(默認值下劃線)
?

?圖2 選擇程序,確定最佳對準參數。
為了對剩下的314種對齊條件進行基準測試,研究者從16,034個藥物-蛋白配體復合物的sc-PDB存檔出發,設計了一個更大、更多樣的相似對和不同空腔對的數據集(BO1 set)。BO1數據集包括了766對非冗余的VolSite空腔(383相似對,383非相似對),覆蓋了507個不同的蛋白(460在相似的集合中,178個在非相似的集合中),62套不同的Uniprot功能注釋用于相似對,38套不同的功能注釋。
314個預先選擇的條件被用來從BO1組中對齊腔對。通過使用三種可能的評分函數(ph4-strict、ph4-rules和ph4-ext)來計算二分類(相似、不同)的ROC曲線下面積(ROC AUC),根據藥物學匹配的模糊性對每個條件進行排序。根據ph4-ext評分,研究者最終選擇了ROC AUC值為0.87 (CI =[0.85;0.89])的最佳比對條件。使用BO1設置的最優參數集,但使用FPFH-colored-icp方法對粗糙RANSAC比對進行細化,證實了研究者的初始假設,即對應的AUC(ROC AUC = 0.83;CI =[0.81;0.86])低于上述報道。
利用直方圖編碼、形狀和藥效特性對方法進行改進。鑒于通過FPFH-icp獲得的結果以及出現的不對齊問題,研究者修改了默認實現的FPFH描述符,將8個藥典特征在一個點附近的分布編碼成8-bin直方圖(表2),每個bin對應8個藥典特征中的一個。接下來使用最終的41-bin直方圖,即c-FPFH來改進BO1腔對RANSAC的初步比對。使用ph4-ext評分函數對BO1腔對的對齊進行評分,在區分相似對和非相似對方面,新型c-FPFH明顯優于標準方法(c-PFPH, ROC AUC= 0.93, CI = [0.91;0.94]; FPFH, ROC AUC = 0.87)(圖3)。在相同的數據集上,該描述符的性能幾乎與使用最先進的Shaper對齊工具獲得的性能相似(ROC AUC = 0.92, CI = [0.90;0.93])。

表2 ph4-rules評分函數使用的藥典匹配規則。
??

圖3 在比較BO1組空腔時的ProCare評分的評價。
c-FPFH描述符辨別能力的提高是由于糾正了之前報告的對齊誤差,結果反映在分數上。失調的另一個原因是形狀的差異(球狀比平面)觀察兩腔之間。呈現相似性的隨機采樣點難以捕捉。當然,不能排除錯誤注釋BO1對的可能性,特別是那些預測的不相似。然而,觀察到功能不相關的蛋白質結合位點之間的相似性是非常罕見的事件,因此,即使在數據集中存在這種情況,也可以忽略不計。
ProCare評分分布的統計評價。結合c-FPFH描述符進行對齊和ph4-ext進行評分的方法的能力,首先通過使用ph4-ext評分的增量變化(從這里開始計算ProCare評分)區分BO1集合的相似和不同腔區的能力進行評估。在調查數據集的閾值為0.39的情況下,得到最佳判別能力(recall = precision = F-measure = 0.85)(圖4A)。為了檢查該閾值是否與數據集相關,研究者生成了250萬個對齊的背景分布(510個非冗余BO1空腔與4,223個scs -PDB空腔)。根據Kolmogorov-Smirnov檢驗(D = 0.046, P-value = 0.0292,α=0.02),每100,000個值的100個統計代表性樣本,可以擬合到一個廣義極值(GEV)分布(圖4B)。?

圖4 原子坐標變化的統計評價和靈敏度。
從背景分布來看,ProCare評分有統計學意義的閾值為0.47,對應的p值為0.05。在這個閾值下,前一個BO1集合的分類的召回率較低(0.72),但精度高得多(0.95)。從這里開始,ProCare將與上述報告的最佳參數集一起使用,將c-FPFH描述符用于對齊,將ph4-ext用于計分袋對齊。
標桿法與藥物化學中最先進的方法。研究者在此選擇了一個經典的藥物化學方案:兩個口袋結合相同的配體(化學類型)或不?為此,研究者重新訪問了最近發布的頂點數據集,其中包含6,029個蛋白結構定義的6,598個陽性蛋白對和379個陰性蛋白對。然而,已發布的數據集存在強烈的不平衡(正對>>負對),需要進行一些過濾,才能達到等效的338對陽性和338對陰性。六種公開可用的方法(FuzCav, Kripo, PocketMatch, ProBiS, Shaper, SiteAlign)被不同的組認為是最先進的腔體比較工具,通過簡單估計配體結合口袋相似度,與本文提出的方法進行比較,以區分陽性和陰性對(圖5)。
總體的趨勢是,將物理化學和/或藥物學性質映射到結合位點原子上的方法(FuzCav, PocketMatch, SiteAlign, KRIPO)優于兩種方法(ProCare, Shaper),它們依賴于將描述符映射到贗配體和原子坐標上。
但是,這些工具都有自身的缺陷所在(而ProCare不存在):
1. 不依賴-比對的方法(FuzCav, PocketMatch)非??焖俸蜏蚀_,但由于沒有生成蛋白質覆蓋,結果很難解釋。從藥物化學的角度來看,蛋白質配位的缺失阻止了配體從一個參考口袋轉移到另一個參考口袋,從而阻礙了基于結構的靶標-到-先導物的優化。
2. SiteAlign技術雖然非常精確,但速度非常慢(約30秒/對比),并且對較短的蛋白質列表的適用性有限,除非在分布式并行計算環境中執行。ProBiS允許對正負對進行精確分類,但代價是完整性較低(只有64%的對可以處理,圖5)。
3. 依賴已知蛋白配體相互作用生成結合位點描述符的KRIPO方法在5%的測試案例中未能產生結果,也不能用于apo蛋白。

?圖5 根據六種不同的方法,通過減少口袋相似度來繪制676個蛋白對(頂點集:338個陽性,338個陰性)的受試者工作特征圖。每一種方法的ROC曲線下面積和完滿度(處理成功對的百分比)在括號中表示。
因此,ProCare是一種廣泛適用的、健壯的檢測結合位點相似性的方法,因為它是唯一累積速度快(幾秒/對比),精度好的方法(ROCAUC = 0.81),可解釋性(對齊蛋白,匹配殘基之間的距離列表)和大的應用范圍(配體結合和游離配體蛋白結構)。
檢測片段子口袋和全蛋白空腔之間的相似性。 從以上可知,點云配準可成功地來對齊和比較整個蛋白空腔。那么,它適用于較小的物體(片段-綁定位置)嗎?因此,研究者系統地將同一蛋白結合到類藥物配體或后期配體的亞結構片段中的Frag-Lig組中的空腔對排列起來。將ProCare變換矩陣應用于相應的蛋白質-片段復合物,并計算兩種性質,就可以很容易地推導出全腔對齊的正確子口袋:(i)片段結合蛋白到完整配體結合目標的rmsd;(ii)觀察到的全腔與合并片段或參比全類藥物配體之間相互作用的相似性。
用相應云中的點數來表示的口袋大小,證實了片段結合的子口袋比相應的全配體結合的整個空腔要小得多。在91%的案例中,通過組合延伸(CE)方法對兩個蛋白結構進行結構對齊,當與原始的片段結合蛋白結構相比,在低于2 ?的C-α原子上產生rmsd,說明配體結合后蛋白水平上沒有發生重大構象變化(圖6A)。在這種情況下,ProCare在提出可靠對齊方面(蛋白質主鏈原子2 ?的rmsd)明顯優于Shaper,在42%的情況下優于基于高斯的Shaper方法的34%(圖6A)。對于那些結構對齊良好的口袋,98%的情況下ProCare得分高于之前定義的閾值(0.47分,p-value = 0.05),這表明通過對齊滿腔獲得的分數可以轉化為不同大小口袋的比較。
接下來,研究了ProCare提出的更好的對齊是否與旋轉/平移到全空腔后碎片的更好定位相對應。研究者利用基于分子相互作用指紋圖譜(IFP)計算的Tanimoto系數,估算了片段子口袋與原擬對齊片段或天然藥物樣配體之間相互作用的相似性。

圖6 對片段超囊與滿腔的ProCare排列的評價。
考慮到IFP相似度高于0.6的保守結合模式,CE結構比對表明,53%的情況下片段結合模式保守在完整配體中(圖6B)。在此基礎上,ProCare在35%的案例中成功地將碎片準確定位在全口袋中,而Shaper僅在28%的案例中成功定位(圖6B),因此證實了ProCare提供的更好的腔體排列也可以轉化為更好的碎片姿勢。在許多例子中,通過此處描述的點云配準,確實挽救了Shaper的不對稱(圖6C, D)。
虛擬篩選片段子口袋,以協助基于片段的藥物設計:第一個概念證明。接下來,研究者擴展了片段定位的概念,對不相關的蛋白質,從結合位點比對推斷。在基于片段的藥物設計中,研究者采用了最近首次在蛋白質數據庫中公開的蛋白質配體復合物的高分辨率X射線結構,并檢查是否篩選一組片段子口袋以獲取與新查詢空腔的相似性(表3),幫助重構,甚至部分重構被掩蓋的查詢結合配體。

表3 比較最近在PDB中釋放的三種蛋白配體復合物的結合位點。
通過分割所有sc-PDB結合配體(sc- PDB片段集),同時保持蛋白質結合的三維坐標,獲得了33,953個片段子口袋。然后對片段庫收集進行篩選,確定了與三個新空腔的ProCare相似性。點云配準后,使用最優變換矩陣將對應的片段合并到查詢腔的坐標框架中,并根據兩項條件進行濾波:(i)遵守片段三規則;(ii) ProCare 評分?> 0.47。將α選擇的片段與與目標查詢共結晶的掩蔽配體進行比較時,考慮口袋相似度和交互指紋相似度,將剩余片段命中次數按綜合評分(FragScore)進行排序。
第一個查詢是作為ProCare校準協議和隨后的評分函數的質量控制。因此,三個基于硫托溴銨的片段被排在前33位片段中,相對于真正的M5-束縛的硫托溴銨位姿,它們的形態很好(圖7A,表4)。有趣的是,來自配體與不相關蛋白結合的高級別片段(如血淋巴保幼激素結合蛋白,PDB ID: 3AOS,配體HET: JH2;組蛋白去乙酰樣酰胺水解酶,PDB ID: 1ZZ1,配體HET: SHH;圖7B,表4)很好地與M5-束縛的噻托溴銨重疊,并為片段生長和/或連接提供了合適的起始點。第二個查詢腔(681 ?3)位于不對稱腫瘤壞死α-因子(TNF-α)三聚體的界面。然而,從不相關的蛋白質中選擇的幾個sc-PDB片段(如4KZ0_1UJ, 3R04_UNQ)出現在頂級ProCare評分者中,并且是TNF-α抑制劑的苯并咪唑部分的真實生物電子等排體(圖7C-D,表4)。所選片段的ProCare姿勢很好地與真正的配體重疊,并概括了芳香族相互作用所展示的雙環苯并咪唑環和一個氫鍵到TNF-α腔的Tyr151側鏈。同樣,真正的TNF-α抑制劑的雙取代芳香族取代基也被得分最高的芳香族片段模仿(3N6U_NSU,圖7E,表4)。

表4 為三種新型腔體選擇最頂端的片段。
展望與結論
研究者提出了一種新的疊合和比較蛋白質空腔的計算方法ProCare,空腔被表示為3D點云,由模仿理想配體的藥效學特性進行注釋,并通過點云配準進行排列。重要的是,ProCare利用了一種新的點特征直方圖來編碼腔微環境,從而有利于共享相似幾何和物理化學性質的子口袋的疊加。ProCare仍然可以在速度和完整性方面進行優化。兩兩相似度搜索可以在幾秒鐘內完成,但通過優化最近鄰搜索和排除初始RANSAC對齊過程中的不相關點,可以顯著降低CPU成本。
參考文獻:EGUIDA, M., & Rognan, D. (2020). A computer vision approach to align and compare protein cavities: Application to fragment-based drug design. J. Med. Chem. 2020, 63, 13, 7127–7142. DOI:10.1021/acs.jmedchem.0c00422