<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    Bioinformatics | SPEQ:深度學習方法如何評價多肽光譜質量?

    Bioinformatics | SPEQ:深度學習方法如何評價多肽光譜質量?
    Bioinformatics | SPEQ:深度學習方法如何評價多肽光譜質量?

    光譜質量(SPEQ)評估工具可用于鑒別并消除低質量光譜,同時突出顯示高質量的光譜。本文用深度神經網絡建立的光譜質量判定模型SPEQ與其他預測工具相比,展現出優秀的預測準確性。

    背景介紹

    串聯質譜(MS/MS)將高效液相色譜和MS相結合,可從蛋白質混合物中鑒定出肽鏈,是蛋白質組學中鑒定蛋白質的主要手段。首先用酶將蛋白質消化成更小的肽,然后對肽進行LC-MS/MS分析。實驗中會產生許多肽的譜圖,通常借助數據庫搜索引擎鑒定各個肽的結構。但是由于光譜質量、軟件參數等因素,半數以上的譜圖不能被數據庫搜索引擎正確識別,常被誤判成假陽性或假陰性。這些光譜中可能含有的高質量的光譜需要使用SPEQ識別出來并交由研究人員進一步分析。

    質量評估工具有助于科研人員安全地丟棄低質量光譜,提高數據分析速度。當前工具主要是人工提取特征加傳統的機器學習的方式,比如用一組人工設計的特征和支持向量機建立質量評估模型。后續也出現了決策樹、隨機森林等模型。如今這些工具有的不再維護,有的不適用于當前質譜儀的數據。

    圖 1 介紹了如何對不同質量的光譜進行分類。如果將顯著峰定義為峰相對強度約為 5% 或更高的峰,則高質量光譜中顯著峰的數量比低質量更多更密集。高質量光譜中顯著峰之間的 m/z 差異蘊含了氨基酸殘基質量的信息。這些差異是構建光譜鑒定程序的基礎。

    本文介紹的SPEQ工具使用深度神經網絡 (DNN) 模型來預測光譜質量。模型從訓練數據中學習特征,所提取的特征對于每種類型的數據集都不同。

    Bioinformatics | SPEQ:深度學習方法如何評價多肽光譜質量?

    圖1. 第一行三個樣本為被MS-GF+正確識別的高質量樣本,第二行為未被識別的低質量樣本。圖片來源:Bioinformatics

    主要內容

    SPEQ的建模

    訓練數據來自用不同高分辨率儀器生成的四個數據集:Quadrupole time-of-flight、Orbitrap human、NIST和Orbitrap mouse數據集。

    SPEQ 用MGF格式的頻譜作為輸入,每個光譜的峰列表用元組形式表示。首先將光譜中最豐富的峰強度變換到0 -100 區間,然后對數據分段,各段的最大的峰強度代表該段的數值,如果區間中無峰值則取0,最后將光譜表示成一個向量。

    DNN以向量作為輸入來預測光譜質量,模型架構如圖 2 所示,核心部分由一維卷積層組成,最后連接全連接層。模型以處理后的向量作為輸入,然后歷經三個卷積塊。每個卷積塊都有一個dropout層、卷積層和池化層。它們可以從光譜的向量中提取出特征,此外還有電荷狀態和荷質比,它們與第三個卷積塊的輸出合并,共同輸入到三層全連接神經網絡。最后一層經過sigmoid函數變換,輸出預測概率P,代表的是高質量光譜的概率。

    作者基于伯爾尼的描述重現了Bern模型。其中SVR模型的c經過了參數調優給出了最佳的數值,模型表現優于文獻中的數值。

    Bioinformatics | SPEQ:深度學習方法如何評價多肽光譜質量?

    圖2. 深度學習模型的架構圖。圖片來源:Bioinformatics

    SPEQ模型的評價方式

    模型的表現從三個方面進行評價。

    首先比較SPEQ與其他模型在預測精度上的差異,用5折交叉驗證來衡量預測精度,劃分過程確保具有相同m/z和z的光譜在同一部分。此外,還進行了跨物種驗證,模型在 Orbitrap human 數據集上訓練,用獨立的 Orbitrap mouse數據集測試。

    其次,測試未識別出的光譜能否用其他分析方法解釋。在這個測試中,作者首先使用 MS-GF+ 搜索 Orbitrap human 數據集,用從 MS-GF+ 搜索生成的標簽訓練了 SPEQ 模型,為所有光譜賦予預測的SPEQ 分數。作者使用 Comet 軟件以相同的參數進一步搜索未識別的光譜。前兩次分析無法識別的光譜使用 Novor 軟件從頭測序。包含至少五個具有高置信度分數(> 70)的氨基酸的從頭序列被視為置信的從頭標簽。預計第一次搜索未識別的光譜中較高的 SPEQ 分數與較高百分比的由 Comet 或從頭測序分配的光譜相關。

    第三個測試證明SPEQ分數在“排除”數據分析中的有用性。首先使用 MS-GF+ 搜索 Orbitrap human數據集。研究人員猜測許多未識別的光譜是因為它們搜索參數中未指定 PTM。但是,在整個數據集上使用太多可變 PTM 進行搜索的速度非常慢。作者使用 SPEQ 對未識別的光譜評分,根據 SPEQ 分數排序,將未識別光譜的前 1% 用于其他變量 PTM 搜索。從鑒定的肽中,作者選擇了一些最常見的 PTM進行第三輪搜索,使用所有未識別的光譜和這幾個額外選擇的可變 PTM 來識別更多的肽。

    SPEQ預測具有高精度

    圖3中顯示了每個模型在 Q-TOF、Orbitrap human和 NIST 數據集上做出的預測的 ROC 曲線,SPEQ 的預測準確性優于所有其他工具。NIST 數據集中,所有模型的表現都很差。這可能是因為 NIST 數據集中缺少極低質量的光譜,而且區分高質量和中等質量的光譜比區分高質量和低質量的光譜更難。

    在 Orbitrap mouse數據集上不同方法的 ROC 曲線及其 AUC如圖3所示。Spectrum Quality 工具在此處未能做出任何有效預測,因此未包含在圖中。SPEQ 和 Bern 的方法在同一數據集上訓練并使用 5 折交叉驗證,或者在 Orbitrap human數據集上進行訓練,然后繪制出ROC曲線。兩個模型在同一數據集上的交叉驗證測試比在不同數據集上的訓練預測效果更好。在不同數據集上訓練和測試時,SPEQ 具有良好的預測準確度,而且均優于 Bern 方法和基線方法。

    Bioinformatics | SPEQ:深度學習方法如何評價多肽光譜質量?

    圖3. 左上:Q-Tof數據集上的ROC-AUC曲線圖;右上:Orbitrap human數據集上的ROC-AUC曲線圖;左下:NIST數據集上的ROC-AUC曲線圖;右下:Orbitrap mouse數據集上的ROC-AUC曲線圖。圖片來源:Bioinformatics

    多種質量評估工具聯用提高識別比例

    圖 4 顯示了未知光譜的測試結果。在Orbitrap human數據集中的 52 285 個光譜,20 885 個光譜不能被正確識別。這些未識別的光譜使用 Comet 進行第二次數據庫搜索,并使用 Novor 進行從頭測序。圖 4A 的直方圖顯示了每個 SPEQ 評分區間中的光譜數量,以及四類光譜的分布:在第一次搜索中被 MS-GF+ 識別;在第一次搜索中未識別但在第二次搜索中被 Comet 識別;未由前兩次搜索識別,但被Novor識別的光譜;沒有被任何一種工具識別的光譜。

    圖 4B 與圖 4A 相同,只是 y 軸成為每個 SPEQ 得分區間中的百分比。為了繪制這些數字,取SPEQ 預測的概率的對數被用作 SPEQ 分數??梢钥闯?,隨著 SPEQ 提供的質量分數的增加,由至少一個模型正確識別的光譜百分比增加,第一個模型未識別的高分光譜通??梢栽谄渌治鲋械玫浇忉?。包含有價值信息的光譜通常獲得更高的分數。

    此外,當分數足夠高時,兩個數據庫搜索工具都沒有識別出的大多數光譜都包含從頭測序標簽。這有力地表明這些光譜確實是由肽產生的,但由于數據分析不充分而無法識別。?

    Bioinformatics | SPEQ:深度學習方法如何評價多肽光譜質量?

    圖4. (A)SPEQ不同預測分數區間中識別和未識別的光譜數量統計;(B) SPEQ不同預測分數區間中識別和未識別的光譜比例。圖片來源:Bioinformatics

    SPEQ與檢修錯誤原因

    MS-GF+ 第一次搜索Orbitrap human數據集,使用以下變量 PTM:M 上的氧化,蛋白質 N 端的乙?;?, N 和 Q 上的脫酰胺。

    該數據集的原始文獻僅使用了上述PTM的前兩個變量。添加第三個 PTM 可識別出更多光譜。在 52 285 個光譜中可以識別出 31 400 個。在 20 885 個未識別的光譜中,前 1% 的光譜(根據它們的 SPEQ分數)再次使用新的 PTM 進行搜索,確定了 24 個可靠肽。第三次搜索這三個最常見的 PTM 和 20 885 個未識別的光譜,確定了 829 個光譜。

    結果表明,SPEQ 分數確實可以用于選擇一小部分 (1%) 的未識別光譜分析錯誤原因,調整搜索策略識別更多肽。

    總結

    SPEQ是一種使用深度學習來預測 MS/MS 光譜質量的軟件工具。與其他方法相比,SPEQ具有更高的 AUC,即使在跨物種實驗中依然表現良好。模型自動提取重要特征且適用于不同類型的質譜儀,這大大節省了開發人員的時間,有助于篩選出高質量的光譜。

    參考文獻

    Soroosh Gholamizoj and Bin Ma. SPEQ: quality assessment of peptide tandem mass?spectra with deep learning, Bioinformatics, 38(6), 2022, 1568–1574.

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放