
Drug Design Data Resource: D3R
藥物設計數據資源(drug design data resource,簡稱為D3R)旨在通過高質量的蛋白質配體復合物數據庫和標準化的工作流,以及舉辦高質量的競賽,來推進計算機輔助藥物技術的發展。D3R競賽中的基準測試集中包含高質量的結構以及來源于文獻的可靠的結合能數據。這些數據為CADD技術提供了驗證,校準和開發虛擬篩選(VS)模型的絕佳機會。
最近的D3R Grand Challenge 4(GC4)挑戰賽于2018年9月4日至12月4日間舉行。此次競賽涵蓋了兩種不同的蛋白質靶標:組織蛋白酶S(CatS)和β分泌酶1(BACE)。競賽由兩個部分構成,第一部分具有兩個子任務,即階段1a和階段1b。在階段1a中,參與者被要求預測結合模式,對親和力進行排名并估計BACE配體結合自由能。階段1a之后,階段1b給出了蛋白質受體結構,參與者被要求預測20個BACE配體的晶體學結合模式。GC4競賽的第二部分包含BACE和CatS化合物的親和力排名和自由能挑戰,參與者可以利用已經給出的BACE配體復合物結構。
蓬勃發展的生物大數據集,高性能計算集群(HPCC),使得機器學習成為生物大分子數據分析和預測中的新興技術,但是基于機器學習的打分函數的準確性在很大程度上取決于它們是否能夠捕獲蛋白質-配體相互作用中的物理和化學信息。由于3D大分子的自由度數目過多以及原子在不同結構中的變化,在深度學習網絡中直接使用三維(3D)生物分子結構計算量會非常巨大。因此,迫切需要開發生物大分子新型表示形式。?

MathDL比賽結果
本文介紹了深度學習模型- MathDL,并介紹了其在GC4上的測試性能。這項測試涉及了β-分泌酶1(BACE)的結合模式預測,親和力排名和自由能預測,組織蛋白酶(CatS)的親和力排名和自由能估計。作者使用微分幾何,代數圖和/或代數拓撲,開發出了一套先進的數學工具,可以準確地將高維度的物理/化學相互作用編碼為低維度表示形式。
總體而言,MathDL模型在BACE配體的結合模式預測中排名第一。此外,在460種CatS化合物的親和力排名上,MathDL模型的皮爾森相關性系數打分最高;在39個CatS分子的自由能集上獲得了最小的中心均方根誤差。
從GC2競賽起,作者的團隊就參加了相關的競賽。GC4之前,在RMSE方面,作者的結果與其他參與者相比沒有競爭力。在GC2和GC3上,作者的平均RMSD值分別為6.03?和3.78?。對接方法有進步,但其準確性仍落后于GC3上的頂級論文。在GC4中,作者的對接方案不是像以前挑戰中那樣依賴于Autodock Vina 和GLIDE 等對接程序,而是由高級數學表示和復雜的深度學習架構驅動的。因此,MathML在結合模式預測任務上取得了很好的成績。
?GC4中所有結合模式預測僅針對BACE配體,并且分為兩個階段,即階段1a和階段1b。在階段1a中,主辦方提供了20個配體的SMILES字符串,BACE蛋白的FASTA序列以及用于參考的蛋白結構(PDBID:5ygx,鏈A)。在階段1a結束后,階段1b提供了20種配體以用于復合物結構的結合模式預測。結合模式預測任務有兩個評估指標,即在預測的結構和晶體結構之間的所有RMSD值上計算的中值和均值。
?

圖1.?BACE數據集的姿態預測挑戰
圖片來源Journal of Computer-Aided Molecular Design

圖2.?MathGAN?的對接模型
圖片來源Journal of Computer-Aided Molecular Design
在BACE親和力預測中,作者的結果不在前三名中,僅落后于排名前三的兩個團隊BP2是用于CatS和BACE數據集的結合親和力預測的最佳模型。BP2具有出色的預測性能,因為它結合了代數拓撲,微分幾何和圖論特征,涵蓋了物理和生物學特性的最重要的方面。DM4是用于CatS結合模式預測的最佳模型,在CatS姿態預測的階段1B挑戰中,其平均RMSD為1.8?。
?

圖3. CatS 數據集上的測試得分
圖片來源Journal of Computer-Aided Molecular Design
?
MathDL方法
(1)MathDL能量預測模型:
作者將數學特征與卷積神經網絡集成在一起,形成了強大的機器學習預測模型。CNN屬于人工神經網絡,由許多卷積層和幾個全連接層組成,在圖像識別和計算機視覺分析中取得了很大的成功。
作者使用的模型為前饋神經網絡,主要特征為將當前層中的信息進行線性組合,通過激活函數進行非線性處理,然后發送到下一層。CNN模型的預測能力取決于離散卷積算子在空間維度上的局部交互作用的表征。CNN網絡中特征輸入的選擇產生了結合能預測模型的變體。在GC4中,作者使用了兩種不同的模型。第一種,網絡中采用了代數拓撲和微分幾何特征的組合,此模型命名為BP1。第二種,將代數拓撲,微分幾何和代數圖表示綜合在一起,此模型命名為BP2。

圖4. MathDL能量預測模型
圖片來源Journal of Computer-Aided Molecular Design
?
(2)MathDeep對接模型:
作者提出了一種新型的pose生成方案(MGAN),它使用高級數學表示GAN。GAN是一種深度學習模型,它由學習數據分布的生成器G和鑒別器D組成。從D反饋迭代地改進G模型,直到D無法分辨訓練集結構信息和D之間的差異。通過不同數學的不同組合,作者得到了幾種對接模型。具體來說,如果DL網絡中G和D僅使用高等數學中的代數拓撲部分,則將其命名為對接模型DM1;當GAN模型僅包含代數圖時,命名為DM2;僅包含微分幾何時,命名為 DM3對接模型;DM4模型則由代數拓撲,代數圖和微分幾何構造綜合組成。

圖5:MathDeep對接模型
圖片來源Journal of Computer-Aided Molecular Design
總結
本文論述了深度學習模型(MathDL)在GC4競賽上的表現,包括結合模式預測、親和力排名和自由能預測??傮w而言,MathDL模型在1a階段的結合模式預測,組織蛋白酶配體的親和力排名預測和自由能預測中排名第一。與之前的D3R挑戰(即D3R GC2和D3R GC3)相比,作者GC4中進行了兩項改進。第一個改進是結合模式預測方面,第二個改進是親和力排名預測方面。MathDL模型的自動化程度非常高的。如果有足夠的計算機資源,MathDL模型可以在一周左右的時間內完成所有GC4競賽任務。
?
參考文獻
Nguyen, D.D., et al., MathDL: mathematical deep learning for D3R Grand Challenge 4.?J Comput Aided Mol Des, 2019. DOI:?10.1007/s10822-019-00237-5