<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    AI居然無需學習蛋白-配體相互作用就能計算蛋白-配體相互作用能力?

    AI居然無需學習蛋白-配體相互作用就能計算蛋白-配體相互作用能力?

    2020年2月25日,?北京生命科學研究所/清華大學生物醫學交叉研究院黃牛實驗室在《Frontiers in Pharmacology》雜志發表題為“Predicting or Pretending: Artificial Intelligence for Protein-Ligand Interactions Lack of Sufficiently Large and Unbiased Datasets”的文章,?發現AI用于預測蛋白-配體相互作用時,常用的訓練集(PDBbind和DUD-E)對AI模型訓練存在嚴重數據偏向(data?bias),導致AI模型表現虛高,?預測缺乏泛化能力和魯棒性,誤導本領域的方法發展和實際應用,并基于此提出了如何客觀評估AI模型的觀點和建議。

    有一個經典的例子可以說明數據偏向的危害:1957年,美軍支持的一項研究中,研究人員使用神經網絡預測樹林中是否有坦克,訓練集是有坦克或者沒坦克的圖片,準確度驚人。但是后來發現, 有坦克的圖片都是在陰天拍攝的, 而沒坦克的圖片都是在晴天拍攝的, 這個訓練的AI模型不是坦克分類器, 而是天氣分類器!看似復雜的預測坦克存在與否的因果關系學習,被懶惰而又滑頭的AI用最簡單的天氣相關性來替代,把人類糊弄其中。偏嗜大數據的AI是動物兇猛的饕餮,并非任人打扮的小菇涼。馴服AI首先需要有一個好的訓練集,應該在目標屬性(如是否有坦克)上與真實分布相符,而在非目標屬性(如天氣)上無偏向,避免模型學到隱含的數據偏向。

    AI居然無需學習蛋白-配體相互作用就能計算蛋白-配體相互作用能力?

    近年來, 基于神經網絡的AI模型多次被宣稱在PDBbind和/或DUD-E蛋白-配體結合數據集上獲得了“無與倫比” (state-of-the-art)的表現,預測蛋白-配體結合強弱的能力尤為突出。但是本文作者發現,僅基于配體小分子數據訓練AI模型也可以獲得同樣“無與倫比”的表現, 提示AI模型居然完全不需要學到蛋白-配體相互作用就可以”預測”蛋白-配體結合能力,這就和藥還沒到,病就除了差不多。而引起這一悖論的原因是——PDBbind和DUD-E含有數據偏向誤導了AI模型。

    PDBbind和DUD-E并不是為蛋白-配體相互作用預測而專門構建的訓練集,它們的主要角色是獨立的基準測試集,用于評估模型的預測能力。訓練集需要與測試集有區分度,這是基本的常識,也是評估模型可靠性的重要依據。但由于蛋白-配體結合的實驗數據匱乏, 已報道的AI模型無奈只能在PDBbind和DUD-E上進行交叉驗證(將數據分成k分, 分別取每一份為測試集, 其他k-1份為訓練集),評估AI模型預測蛋白-配體相互作用的能力。這種情況下訓練出來的模型可靠性有多大?為了回答這個問題,本文作者針對PDBbind和DUD-E設計了基線模型(baseline)和交叉驗證實驗,分析模型會學到哪些隱含的數據偏向。

    AI居然無需學習蛋白-配體相互作用就能計算蛋白-配體相互作用能力?

    PDBbind收集了PDB蛋白晶體結構數據庫中有實驗測得結合常數的蛋白-配體復合體, 按數據質量(低到高)和數量(大到小)分為general (11987), refined (3706)?和core (195) set。本文作者將復合體拆分成蛋白和配體, 形成3個PDBbind數據集:?原版PDBbind (Binding Complex),只包含配體的PDBbind (Ligand Alone)?和只包含蛋白的 PDBbind (Protein Alone)。使用斯坦福大學Pande實驗室發展的原子卷積神經網絡(ACNN)模型, 在refined set或general set上訓練蛋白-配體相互作用力預測模型, 訓練集中都去除了core set, 然后預測core set中復合物的蛋白-配體相互作用強弱,ACNN的表現見下圖??梢钥吹? 僅使用蛋白或者僅使用配體結構作為輸入來計算蛋白-配體相互作用強弱, 就能獲得與復合體作為輸入相近甚至更好的表現, 可以說是PDBbind v2015 core set上的“state-of-the-art”, 在PDBbind v2018上表現也類似。該結果揭示——AI模型居然無需學到蛋白-配體相互作用模式就可以計算蛋白-配體相互作用?這一違反常理的現象只能反推得到一個合理的解釋——采用PDBbind數據訓練AI模型有嚴重偏向性,簡而言之,對饕餮AI而言,PDBbind數據集吃不飽(數據量不夠大),還嚴重偏食(多樣性不夠高)。

    AI居然無需學習蛋白-配體相互作用就能計算蛋白-配體相互作用能力?

    通過進一步限制訓練集和測試集間的配體小分子骨架(scaffold)或者蛋白序列的相似度, ACNN模型的表現有明顯下降,說明模型可能通過簡單的配體相似度或者蛋白相似度”預測”蛋白-配體相互作用,即類似的配體有類似的結合活性,類似的蛋白也有類似的結合活性,而無需學到復雜的蛋白-配體結合模式。兩點之間,AI永遠會走最短的直線。這體現了神經網絡強大的擬合能力,而且善于發現相關關系。但是,這樣的模型只在與訓練集非常近似的場景中才能準確預測,難以泛化,需要海量且多樣的數據才能構建一個魯棒的AI模型。在蛋白-配體復合物晶體結構和活性測定數據匱乏且昂貴的領域,這個問題顯得更難以克服。因此,當這些模型面對與訓練集天差地別的真實世界復雜的藥物發現和優化的情景時,紙上談兵感呼之欲出。

    既然實驗來源的數據不夠,那是不是可以用計算機生成的數據來訓練模型?DUD/DUD-E作為常用的分子對接基準測試集,不僅包含實驗測定的22886個活性小分子(active), 還包括141萬類藥小分子作為陰性對照(decoy)。Decoy需要和active有相似的理化性質(分子量, 凈電荷等),但不同的拓撲結構(以分子指紋表征)減少假陰性。它克服了之前基準測試集的缺點, 即分子對接軟件僅通過簡單的理化性質就能分辨active和decoy, 在基準測試集中獲得高分。由此可見,傳統的分子對接同樣掉進過陷阱(僅依賴簡單的理化性質打分排名),但通過設置合理的陰性對照爬了出來,有了可靠的測試集用于客觀評估方法的好壞。但AI的難題在于我們知道它的陷阱是什么嗎?數據集的相似性?數據集的大???為了回答這個問題,在數據量更大的DUD-E數據集訓練AI模型,分別以6種理化性質(PROP)和分子指紋(FP)作為輸入特征, 訓練隨機森林(RF)對active和decoy進行分類.?

    AI居然無需學習蛋白-配體相互作用就能計算蛋白-配體相互作用能力?

    當使用6種理化性質為輸入特征,如果隨機分為3組做交叉驗證(CV),隨機森林在DUD-E 102個靶點的平均AUC為0.73,平均前1%活性小分子富集系數(EF1)為22.2,非常接近DUD-E文章中分子對接軟件的表現 (AUC:?0.76, EF1: 19.8)。在去除分子量大于500的小分子(已報道有偏向),并且按蛋白類型(class)進行分組交叉驗證,AUC降為0.66,EF1降為5.14,說明在DUD-E上訓練的模型有可能學到理化性質上的偏向。包括:1) active中含有分子量大于500的小分子,而decoy由于限定為類藥小分子,分子量都小于500;2)?同類靶點的active的理化性質相似,模型可以僅通過理化性質區分active和decoy。

    AI居然無需學習蛋白-配體相互作用就能計算蛋白-配體相互作用能力?

    當使用分子指紋為輸入特征,即使在難以學到理化性質偏向的情況下,隨機森林模型也能很好地區分active和decoy。將分子指紋中高頻且在active和decoy中差異出現的84個特征,以在ZINC數據庫中的出現頻率排序 (見上圖),可以發現DUD-E在拓撲結構(分子指紋)上存在偏向主要有兩個原因:1) DUD-E是從ZINC中挑選與active拓撲結構不相似的小分子作為decoy,所以active和decoy和預期一樣有明顯差異;2) Decoy和ZINC 的分布更接近,說明active和ZINC的拓撲結構分布本就不同。DUD-E在理化特性和拓撲結構上都有偏向,只要模型可以顯式或者隱式地學到這些特征,即使基于對接的復合體訓練模型,也難以避免被偏差誤導。

    綜上,作者認為現階段缺乏充足且無偏的數據用于訓練基于蛋白-配體復合物結構的AI藥物發現和設計模型。由于AI模型強大的總結相關性的能力,為了合理評估AI模型對蛋白-配體結合強弱的預測能力,促進該領域地健康發展,提出以下建議:

    1) PDBbind仍將是目前為止最合適的實驗數據集。但在使用PDBbind訓練模型時,應該設置protein alone和ligand alone模型作為基線對照,以恰當評估模型提升的原因。

    2)?應該系統地控制訓練集和測試集間的蛋白相似度和配體相似度,以恰當評估模型的泛化能力。

    3) DUD-E數據集應該作為獨立的基準測試集,而不是訓練集。

    參考文獻

    Yang J, Shen C and Huang N (2020) Predicting or Pretending: Artificial Intelligence for Protein-Ligand Interactions Lack of Sufficiently Large and Unbiased Datasets. Front. Pharmacol. 11:69. doi: 10.3389/fphar.2020.00069

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放