<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    推薦 | 首個“生物醫藥+機器學習”資源數據集社區TDC的誕生

    引言

    由美國多所著名大學(哈佛大學,喬治亞理工大學,麻省理工學院,卡耐基梅隆大學,斯坦福大學,伊利諾伊大學厄巴納 – 香檳分校)的研究人員,與醫療數據公司 IQVIA 合作,發布了醫療領域內首個面向療法的統一機器學習開源框架 ——Therapeutics Data Commons (TDC)。

    簡介

    Therapeutics Data Commons (TDC) 是第一個系統地整合和評估生物醫學領域的機器學習框架。目前包含了20多個任務,和70多個高質量數據集。機器學習在生物醫學方面的應用是一個十分令人興奮的領域,前景廣闊。TDC中的數據集、學習任務和基準的收集是領域和機器學習科學家的一個會議點。TDC可以大大加快機器學習模型的開發、驗證以及向臨床轉變。

    推薦 | 首個“生物醫藥+機器學習”資源數據集社區TDC的誕生

    圖1.?TDC的數據集

    圖片來源于TDC官網 (https://tdcommons.ai/start/)

    數據集

    TDC的核心是收集與整理機器學習任務及其相關數據集,這些數據集包含各個領域。任務和數據集具有以下特點:

    (1)?包含領域廣:TDC涵蓋了從濕實驗生物靶點識別到生物醫學產品制造的各種學習任務。

    (2)與時俱進的學習任務和數據集:TDC定期更新,以添加新的數據集和學習任務,例如抗體治療和基因編輯。

    (3)?對機器學習良好的支持:在每個數據集中,TDC都提供了生物實體信息的豐富展示。特征信息是經過精心處理的。

    TDC中的學習任務

    TDC學習任務涵蓋一系列治療產品和管道。它跨越了小分子和生物制劑(抗體、肽、小RNA等)。此外,這些任務對應的藥物研發管道如下:

    (1)?靶點發現管道:旨在確定候選的藥物靶點。

    (2)?活性建模管道:旨在篩選,產生,或者從頭開始設計單獨的或者組合的候選藥物。

    (3)?有效性和安全性管道:旨在優化hits的特性,以便藥物能夠安全地有效地到達作用部位。

    (4)?制造管道:目的在于合成。

    推薦 | 首個“生物醫藥+機器學習”資源數據集社區TDC的誕生

    圖2. TDC中的學習任務

    圖片來源于TDC官網 (https://tdcommons.ai/start/)

    TDC 功能

    TDC實現了生物醫學中機器學習方面常用的功能,可以方便,簡單的進行使用。大體上,可以分為以下四大類:

    (1)?模型評估:TDC包括一系列的度量函數,用于評估生物醫學ML任務中的模型,以便模型可以應用到真實場景中。

    (2)?數據分割:TDC包括各種數據分割?(data splits) 方案,以提高泛化能力。

    (3)?數據處理:由于生物醫學機器學習領域有很多復雜的數據,并包含了許多可以重復使用的函數,所以,TDC提供了方便使用的封裝。

    (4)?預測機?(Molecule Generation Oracles):分子設計任務需要預測函數?(oracle functions) 來度量生成分子的質量。迄今為止,TDC提供了17個預測機,每一個預測機都是為特定的目標制作的。

    推薦 | 首個“生物醫藥+機器學習”資源數據集社區TDC的誕生

    圖3. TDC的功能

    圖片來源于TDC官網 (https://tdcommons.ai/start/)

    安裝以及使用

    安裝

    可以直接使用pip進行安裝

    pip install PyTDC

    使用

    (1)?導入數據集

    • In [12]: from tdc.single_pred import ADME
    • ...: data = ADME(name = 'Caco2_Wang')
    • ...: df = data.get_data()
    • ...: splits = data.get_split()
    • Downloading...
    • 100%|██████████████████████████████████████| 82.5k/82.5k [00:00<00:00, 166kiB/s]
    • Loading...
    • Done!
    • # 數據將會以dataframe形式儲存
    • In [13]: df
    • Out[13]:
    • Drug_ID ... Y
    • 0 (-)-epicatechin ... -6.220000
    • 1 (2E,4Z,8Z)-N-isobutyldodeca-2,4,10-triene-8 -y... ... -3.860000
    • 2? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?codeine? ... -4.090000???
    • 3? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?creatinine ... -5.935409
    • 4? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? danazol ... -4.840000
    • .. ... ... ...
    • 905? ? ? ? ? ? ? ? ? ? ?Capric acid (decanoic acid) ... -4.680000
    • 906? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Apometzgerin (2) ... -4.950000
    • 907? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 3 ... -5.080000
    • 908? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 51d ... -5.300000
    • 909? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Cycloheximide ... -4.840000
    • [910 rows x 3 columns]
    • # 而split則提供分割好的train以及testIn [14]: splits
    • Out[14]:
    • {'train':
    • ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Drug_ID ... Y
    • 0? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(-)-epicatechin ... -6.22
    • 1? ? ? (2E,4Z,8Z)-N-isobutyldodeca-2,4,10-triene-8 -y... ... -3.86
    • 2? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? codeine ... -4.09
    • 3? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? danazol ... -4.84
    • 4? ? ? ? ? ? ? ? ? ? ? dexamethasone b D glucuronide ... -6.12
    • .. ... ... ...
    • 632? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?13h ... -5.36
    • 633? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(Z)-19f ... -5.32
    • 634? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Ac-C8-Enk-NH (3) ... -5.97
    • 635? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Apometzgerin (2) ... -4.95
    • 636? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Cycloheximide ... -4.84
    • [637 rows x 3 columns],
    • 'valid':? ? ? ? ? ? ? ? ? ? ?Drug_ID ...? ? ? ? ? Y
    • 0? ? ? ? ? ? ? Raloxifene HCl ... -5.722754
    • 1? ? ? ? ? ? ? ? ? ? ? ? ? 13 ... -4.699485
    • 2? ? ? ? ? ? ? ? ? ? ? ? ? ?5 ... -5.647924
    • 3? ? ? ? ? ? ? ? ? ? ? ? ? ?- ... -5.190000
    • 4? ? ? ? ? ? ? ? ? ? ? ? ? 4b ... -6.000000
    • ? ? ? ? ? ? ? ? ? ? ? ? ?... ... ... ...
    • 86? ? ? ? ? ? ? ? ? ?atropine ... -4.700000
    • 87? ? ? ? ? ? ? ? ? Guanabenz ... -4.330000
    • 88? ? ? ? ? ? ? ? ? ? ? ? ? 4 ... -4.958607
    • 89? ?20(S)-camptothecin (CPT) ... -4.331849
    • 90? ? ? ? ? ? ?hexapeptide 07 ... -5.820000
    • [91 rows x 3 columns],
    • 'test':? ? ? ? ? ? ? ?Drug_ID ... Y
    • 0? ? ? ? ? ? ? ? ? ? ? ? ? ?D ... -5.489058
    • 1? ? ? ? ? ? ? ? ? ?Angelol-B ... -4.849929
    • 2? ? ? ? ? ? ? ? ? ? ?Flavone ... -3.920108
    • 3? ? ? ? ? ? ? ? ? ?enalapril ... -5.672000
    • 4? ? ? ? ? ? ? ? Furazolidone ... -4.990000
    • ..? ? ? ? ? ? ? ? ? ? ? ? ... ... …
    • 177? ? ? ? ? ? ? ? ? ? ? ? 22 ... -5.229574
    • 178? ? ? ? ? ? ? ? ? ? ? ? 21 ... -5.000000
    • 179? ? ? ? ? ? ? ? ? ? ?PB-27 ... -5.797940
    • 180? ? ? ? ? ? ? ? ?Gefitinib ... -4.480000
    • 181? ? 5-chlorosalicylic acid ... -4.98000
    • [182 rows x 3 columns]}

    (2)?預測機

    例:Synthetic Accessibility (SA) 合成可及性分析

    合成可及性分數代表合成一個分子合成方面的難易程度。TDC中的預測機是通過RDKit計算的。

    In [4]: from tdc import Oracle

    ...: oracle = Oracle(name = 'SA')

    ...: oracle(['CC(C)(C)[C@H]1CCc2c(sc(NC(=O)COc3ccc(Cl)cc3)c2C(N)=O)C1',

    ...: 'CCNC(=O)c1ccc(NC(=O)N2CC[C@H](C)[C@H](O)C2)c(C)c1',

    ...: 'C[C@@H]1CCN(C(=O)CCCc2ccccc2)C[C@@H]1O'])

    ...: # [2.706977149048555, 2.8548373344538067, 2.659973244931228]

    Downloading Oracle...

    100%|█████████████████████████████████████| 9.05M/9.05M [00:05<00:00, 1.55MiB/s]Done!

    Out[4]: [2.706977149048555, 2.8548373344538067, 2.659973244931228]

    總結

    TDC的優勢在與其集中了生物醫學方面的數據集,包含了各個管線,從靶點預測到ADMET分析,其同樣也提供了一些簡單的方便使用的函數用于進行數據處理,模型度量等等。同時,其預測機集成了了一些作者認為比較重要的度量分子的指標,這使的用戶可以簡單的輸入SMILES便可以拿到想要的輸出。

    官方網站

    https://tdcommons.ai/start/

    工具下載

    https://tdcommons.ai/start/

    參考文獻

    Kexin Huang, Tianfan Fu, Wenhao Gao, Yue Zhao, Yusuf Roohani, Jure Leskovec, Connor W. Coley, Cao Xiao, Jimeng Sun, Marinka Zitnik, Therapeutics Data Commons: Machine Learning Datasets and Tasks for Therapeutics, 2021, preprint.

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放