<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    BIB | deepHPI:對宿主-病原體蛋白互作進行預測和可視化的深度學習平臺

    BIB | deepHPI:對宿主-病原體蛋白互作進行預測和可視化的深度學習平臺

    deepHPI基于深度學習,為宿主-病原體蛋白相互作用(HPPIs)預測問題提供了更穩健和準確的解決方案。

    背景介紹

    病原體的爆發,持續威脅著世界各地的公眾健康?;蚪M學、大數據和計算生物學的進展,正在增強人們對病原體及其相關毒性的系統生物學的理解。這類科學正成為開發精準醫療等平臺的關鍵。宿主和病原體是涉及傳染病的生命實體。因此,確定這些蛋白-蛋白相互作用(PPIs)有助于揭示疾病途徑和提高耐藥性的方法,并最終加速藥物和其他治療方法的開發。

    PPIs是由蛋白質的序列決定的,此前人們提出的大多數方法,都基于已知的PPIs,將這些知識外推到新的接口中。這類方法往往以失敗告終,因為它們忽略了蛋白質中對識別PPIs很重要的短而稀疏的特征。

    用機器學習(ML)預測HPIs的一個重要問題,是如何解決訓練和測試都無法獲得非交互數據的這個缺陷。目前,人們還沒有開發出用于物種間PPI預測的類似資源,這促使科學家們提出了經電腦模擬的方法來生成負反饋的HPIs數據集。

    主要內容

    美國猶他州立大學的Rakesh Kaundal等人,為了給用戶提供一個基于ML框架的更穩健的HPI預測服務,開發了deepHPI。這是第一個使用卷積神經網絡(CNN)模型進行HPI預測的服務器。此web服務部署在高性能計算集群中,使用戶能夠在單個請求中提交大量序列。它對生成的宿主病原體網絡進行了豐富的可視化,并通過各種蛋白質注釋資源的外部鏈接進行了增強。deepHPI提供四種宿主-病原體模型類型:植物-病原體、人-細菌、人-病毒和動物-病原體,利用其可操作性進行了廣泛的分析和案例研究。

    在線訪問網址

    http://bioinfo.usu.edu/deepHPI/

    BIB | deepHPI:對宿主-病原體蛋白互作進行預測和可視化的深度學習平臺

    圖1. 數據集集合圖。圖片來自BIB

    真實PPIs的收集和數據預處理

    圖1展示的工作流程圖是不同數據集集合的概述。此外,研究者從文獻中提取經過實驗驗證的PPIs,并將其劃分到不同的數據集,增加了植物-病原體和動物-病原體數據集的真陽性PPIs數量,也增加了人-病毒和人-細菌數據集的PPIs數量。將HPIDB與手動采集的PPIs合并,刪除重復項。通過刪除至少一個蛋白質序列短于30個氨基酸的相互作用,超過5000個氨基酸或具有非傳統的氨基酸編碼(例如X和/或U)。

    預處理后共收集到15811個宿主與6621個病原體蛋白之間的56834個相互作用。然后將數據分為四類:植物病原體、人類細菌、人類病毒和動物病原體。人類病毒收集到11011個宿主蛋白和2930個病原體蛋白的42491個PPIs,人類細菌收集到4353個宿主蛋白和2863個病原體蛋白的10086個相互作用;在動物病原體中獲得了2969個宿主蛋白和657個病原體蛋白的相互作用,在植物病原體中獲得了573個宿主蛋白和382個病原體蛋白的1289個相互作用。?

    BIB | deepHPI:對宿主-病原體蛋白互作進行預測和可視化的深度學習平臺

    圖2. “正向”合成網絡的生成與性質。圖片來自BIB

    CNN架構

    在這項研究中,研究者使用PyTorch來實現CNN架構,之后該架構用于HPI數據集建模。為每個數據集類型和每個特征描述符優化網絡參數,不便于管理。因此,研究者選擇使用最小的植物-病原體數據集來識別網絡參數,然后將這些參數應用到其他數據集。

    圖2中定義的CNN架構實現了最高的性能,它是為其他數據集類型(人類病毒、人類細菌和動物病原體)實現的。

    BIB | deepHPI:對宿主-病原體蛋白互作進行預測和可視化的深度學習平臺

    圖3.各數據類型最佳模型的敏感性、特異性、精密度、準確度、F1評分和MCC的(A)5次交叉驗證和(B)獨立測試評估結果。圖片來自BIB

    負數據集性能比較

    為了確定哪個負數據集和真實的PPIs更適合建模,研究者比較了每個模型類型/數據集的最佳特征性能,并討論了該數據集的優缺點。

    總的來說,可以觀察到Negatome和Neglog是構建HPI模型的最佳數據集(圖3)。以敏感性為主要優化標準的Negatome優于Neglog和InterSPPI,而以特異性為主要優化標準的Neglog優于Negatome和InterSPPI。

    混合模型取得了最好的結果。雜化偽氨基酸組成、共三元和歸一化Moreau-Broto特征(PAAC_CT_NMBroto),雜化偽氨基酸組成和歸一化Moreau-Broto特征(PAAC_NMBroto)。根據交叉驗證結果,PAAC_NMB roto特性表現最佳。同時,雜合偽氨基酸組成、組成和過渡特征(PAAC_CTD C_CTDT)、雜合偽氨基酸組成和并三聯特征(PAAC_CT)、PAAC_NMBroto和PAAC_CT_NMBroto在獨立測試中表現最好。

    以下是研究者的開發模型在幾個案例中的表現:

    1. 植物病原性HPIs模型特征的表現:研究者選擇PAAC_CTDC_CTDT和APAAC作為植物病原菌,在 deepHPI服務器上實現的模型,其中一個模型靈敏度最高,另一個模型速度最快。

    2. 人類-細菌HPIs建模特性的性能:基于數據集的性能評估,研究者選擇了PAAC_CT_NMBroto和CT作為在deepHPI服務器上實現人類-細菌的模型,其中一個是最敏感的選項,另一個是最快的選項。

    3. 人類-病毒HPIs建模特性的性能:研究者將PAAC_CT_NMBroto和CT應用于deepHPI預測人類-病毒HPIs,其中PAAC_CT_NMBroto模型靈敏度最高,CT模型速度最快。

    4. 特征在動物-病原體HPIs建模中的表現:研究者將PAAC_CT_NMBroto應用于deepHPI,作為預測動物-病原體HPIs的敏感模型;同時,CT作為快速模型在deepHPI中實現。

    deepHPI web服務器及實現

    web服務器提供了兩個可預測的選項,敏感和快速。為了實現對植物-病原菌、人類-細菌、人類-病毒和動物-病原菌的敏感性預測,研究者分別采用了PAAC_CTDC_CTDT、PAAC_CT_NMBroto、PAAC_CT_NMBroto、PAAC_CT_NMBroto模型。在快速預測選項APAAC下,分別使用植物病原體、人類細菌、人類病毒和動物病原體的CT模型。

    在可視化頁面中,有蛋白質節點度、基因本體術語的信息,以及到公共數據庫(UniProt、AmiGO和NCBI)的鏈接 (圖4B)。用戶還可以下載SVG或JSON格式的網絡,可以在Gephi、Cytoscape等網絡分析軟件中打開。?

    BIB | deepHPI:對宿主-病原體蛋白互作進行預測和可視化的深度學習平臺

    圖4. deepHPI接口。圖片來自BIB

    與其他現有工具的比較

    為了對模型進行性能評估,研究者將deepHPI與現有工具HVPPI進行了比較。在HVPPI web服務器中,每個查詢有3個序列的限制,而在deepHPI上,每個查詢的限制是10,000個序列。研究者下載了三個人類蛋白(P15822、Q05086和Q6FHJ7)和三個SAR-Cov2蛋白(E、M和N),并在兩個服務器上進行預測。HVPPI預測了三種蛋白質之間的相互作用,而deepHPI預測了九種蛋白質之間的相互作用。由于研究者的模型包含了來自不同數據庫的數據,deepHPI預測了更多的交互,準確率更高。

    總結

    通過這項工作,研究者評估了CNN模型預測宿主病原體PPIs的性能。結果表明,混合特征模型在每種數據類型(植物病原體、人類細菌、人類病毒和動物病原體)中都表現不錯。研究者在deepHPI web服務器上實現了最好的模型,從而能夠預測和可視化產生的宿主病原體網絡。

    參考文獻

    Kaundal, Rakesh, et al. “deepHPI: a comprehensive deep learning platform for accurate prediction and visualization of host–pathogen protein–protein interactions.” Briefings in Bioinformatics 2022, 23(3), 1-11.

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放