<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    DDT | 大數據及機器學習加速計算機輔助藥物設計的發展

    DDT | 大數據及機器學習加速計算機輔助藥物設計的發展

    引言

    新藥研發是一個漫長而昂貴的過程。在過去幾十年間,高通量篩選、藥物基因組學等技術不僅加速了藥物開發,而且為候選藥物生成了大量數據,將現代藥物帶入了“大數據時代”。藥物發現領域的大數據具有“十個V”特征:數量(volume)、速度(velocity)、品種(variety)、準確性(veracity)、有效性(validity)、詞匯(vocabulary)、場合(venue)、可視化(visualization)、波動性(volatility)以及價值(value),可用多種分類方法來評估這些數據的當前情況。機器學習(ML)方法是藥物開發早期有效的虛擬篩選手段,考慮到大數據的十v特征,開發系統地預測藥物功效和不良反應的大量、多維和稀疏數據源的新穎方法顯得十分必要。本文重點介紹了藥物開發領域可用的大數據資源及常用機器學習技術。

    藥物發現領域用到的大數據

    基于數據庫在藥物發現不同階段的應用和相關性,將其分為六類:(1)全面化學分子庫,如Enamine、PubChem和ChEMBL;(2)藥物/類藥化合物庫,如DrugBank、AICD和e-Drug3D;(3)收集藥物靶標,包括基因組學和蛋白組學數據的數據庫,如BindingDB、Supertarget和Ligand Expo;(4)存儲通過篩選、代謝和功效研究獲得的生物學數據的數據庫,如HMDB、TTD、WOMBAT和PKPB_DB;(5)藥物毒性數據庫,如DrugMatrix、SIDER和LTKB基準數據集;(6)臨床數據庫,如ClinicalTrials.gov、EORTC和PharmaGKB。

    這些數據庫提供與候選藥物相關的多維數據,例如化學結構,物理化學性質以及體內體外和臨床數據。PubChem包含針對110萬種生物測定法測定的1.024億種化合物,總大小超過5TB。ChEMBL記錄了許多化合物的ADMET數據且包含大量來自文獻的數據,含有1500萬種化合物-靶標對的活性數據。其他幾個數據庫專為藥物和候選藥物而設計,如e-Drug3D包含1930種分子量≤ 2000的小分子藥物,提供了一種探索FDA批準藥物和活性代謝產物的公開工具。BindingDB包含了780,240藥物與7371靶標(數據庫中僅收錄蛋白/酶靶標)的1756,093條結合數據(截至2019.10.29訪問)。HMDB記錄有關人體中發現的114,162個小分子代謝物的詳細信息,包括水溶性和脂溶性代謝物。WOMBAT是用于先導化合物發現的生物活性數據庫,包含331,872條數據,代表1966個帶有生物活性注釋的靶標。相比之下,DrugMatrix專注于約600種藥物的毒性數據。AACT含有有關ClinicalTrials.gov中注冊的每個研究的所有信息。PharmGKB是一個藥物基因組學數據庫,涵蓋藥物分子的臨床信息,并包含733種具有臨床信息的藥物。

    大數據中的多V特征帶來的挑戰

    數據驅動的計算機輔助藥物設計(CADD)研究需要解決多個V的挑戰(圖1),即以最快的速度(veracity)高效地處理從各種來源(variety)生成的數據集,由不同的平臺(venue)以特定的時間長度(volatility)共享,并可用具有特定質量(veracity)和有效性的不同術語(vocabulary)來描述公開數據集。數據種類繁多難以管理且化學結構在不同平臺的編碼及文件格式不一,這些特點凸顯了為數據制定一套通用標準的迫切性。如圖2所示,當從藥物發現的早期階段過渡到臨床試驗時,藥物分子的數據量逐漸減少,將臨床數據庫與收集化學物質一般信息和一般生物學活性的數據庫比較,后者數據量大于前者且始終包含>100萬種化合物。這些數據為早期藥物發現階段提供了有用的信息,但多V特征也帶來了新的挑戰。

    DDT | 大數據及機器學習加速計算機輔助藥物設計的發展

    圖1.藥物研發中大數據的十V特征

    圖片來源:Drug Discovery Today

    ?

    DDT | 大數據及機器學習加速計算機輔助藥物設計的發展

    圖2.藥物研發各階段可用數據庫的大小

    圖片來源:Drug Discovery Today

    數據質量參差不齊是公開數據庫的普遍問題。目前,ChEMBL和PubChem數據之間存在大量重疊。如圖3所示,研究比較從這兩個庫獲得的數據,許多應答顯示為缺失數據,因為這些化合物未用所有測試法進行測試。除了生物測定數據完整度不一,PubChem數據中活性應答率也有偏差。例如阿昔洛韋的測定中有13個活性響應和204個非活性結果,克霉唑卻有163種活性響應和42種無活性結果。除數據準確性外,有效性也決定了數據質量。轉化醫學推進中心NCATS提出了定量HTS(qHTS),使用多重濃度測試來測試藥物分子,并產生了更多數據來測試相同的化合物。這對于管理藥物開發階段的大數據具有重大意義。最后,考慮到速度和多樣性,藥物發現中大數據的可視化也需要新的工具。

    DDT | 大數據及機器學習加速計算機輔助藥物設計的發展

    圖3.比較ChEMBL和PubChem中1930種FDA批準藥物的生物學數據情況

    圖片來源:Drug Discovery Today

    大數據驅動的機器學習技術

    在藥物發現中的應用

    QSAR建模是ML方法在藥物發現中的經典應用之一,該方法自1964年起一直是找尋化學結構與其活性之間相關性的有效方法。QSAR模型早期采用簡單的線性回歸方法,之后發展到運用新的非線性方法完成建模(隨機森林、支持向量機和K最近鄰)。QSAR在藥物發現中的應用通過對候選藥物進行虛擬篩選節省了資源,可在化學合成前優先考慮具有期望的治療活性和較少副作用的候選藥物。

    除了QSAR,在藥物開發過程中還有許多其他ML應用。如通過將統計框架應用于化學模式匹配研究,將生成模型應用于新藥設計,能夠快速決策以及提供無限的虛擬化學空間。ML還被應用于新興組學數據,生成個性化的新型生物標記物。新的ML技術如人工神經網絡(ANN)可以幫助解決藥物發現中大數據帶來的多V挑戰。2012年默克在QSAR ML挑戰賽中強調了深度學習在虛擬篩選中的應用,深度學習網絡(DNN)基于傳統的分子描述符,表現出比其他ML方法更好的性能。2014年NCATS發起TOX21挑戰賽,DeepTox是一種基于深度學習的毒性預測模型,在所有計算方法中表現出最高的性能。深度學習還被用于從頭藥物設計,如使用DNN方法基于分子的連續編碼來探索化學空間;利用循環神經網絡(RNN)生成具有所需生物活性的分子文庫;預測藥物與靶標之間的相互作用;老藥新用等??傮w而言,在使用所有組合描述符進行訓練和交叉驗證的模型中,深度學習在所有指標上都是最有效的。鑒于生物系統的復雜性及多V特征,ML及深度學習方法仍難以具有普遍優于其他方法的資格。

    總結

    在當今的大數據時代,計算工具的發展及公共數據量的快速增長推動了CADD的發展,ML及深度學習已用于藥物開發的各個階段。然而,大數據的多V特征帶來了新的挑戰,需要更好的數據庫管理、Web設計,更好的質量控制和更透明的數據報告。此外,藥物發現中的大數據存在明顯的局限性,如涉及知識產權敏感結構的項目沒有共享權限;很難用新生成的數據和新算法來更新CADD軟件;CADD在工業界的應用仍備受質疑。新的建模算法或將成為解決多V挑戰的關鍵。

    參考文獻:

    Zhao L, Ciallella HL, Aleksunes LM, Zhu H, Advancing computer-aided drug discovery (CADD) by big data and data-driven machine learning modeling, Drug Discovery Today (2020), doi: https://doi.org/10.1016/j.drudis.2020.07.005

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放