<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    Nat. Commun. | 利用可解釋深度學習繪制糖基轉移酶折疊圖景

    Nat. Commun. | 利用可解釋深度學習繪制糖基轉移酶折疊圖景
    Nat. Commun. | 利用可解釋深度學習繪制糖基轉移酶折疊圖景

    一種基于注意力的卷積神經網絡深度學習模型,該模型可利用初級序列生成的簡單二級結構來提供高度準確的糖基轉移酶折疊預測。

    背景介紹

    糖基轉移酶(GTs)是一大類酶,其任務是合成復雜的碳水化合物,制造了細胞中的大部分生物質。CAZy數據庫根據總體序列相似性,將50多萬條GT序列劃分為114個科。雖然家族內的序列具有可檢測到的相似性,但家族間的序列卻很少或沒有相似性。GT序列的廣泛多樣性成為研究連接序列、結構、折疊和功能關系的主要瓶頸。

    與其他大型蛋白家族一樣,GTs在三維結構折疊中也表現出比初級序列更高的保守性。在所有114個家族中,只有3個主要的折疊(GT-A,-B和-C折疊)能被確定。目前,GT家族被劃分為GT- A(34個),GT-B(32個)和GT-C(10個)。雖然,此前眾多基于多序列比對的方法,為GT- A折疊結構和演化提供了見解,但這些方法無法處理其他結構數據或結構同源性有限的GT折疊的情況。

    最近,深度學習方法特別是多層神經網絡為大型復雜數據集中通過特征提取和模式識別進行的序列分類和折疊預測提供了新的機會。預測的準確性在很大程度上依賴于輸入的多序列比對的質量且模型不能直接擴展到不同蛋白家族。因此,生成準確的多序列比對是一個挑戰。此外,現有的深度學習模型的黑盒子性質,阻礙了對有助于結構或折疊預測的進化特征以及序列的直接生物學解釋。

    主要內容

    來自美國喬治亞大學的Natarajan Kannan等研究者報告了一種基于注意力(CNN-注意力)的卷積神經網絡模型,該模型將二級結構注釋作為輸入,用于預測GT-折疊類型。這些粗粒度輸入特征是基于蛋白質二級和三級結構遠比一級序列保守的這一前提。該模型沒有使用氨基酸的物理化學性質,也不依賴于產生進化或基于對齊的信息,但是折疊預測的平均準確率達到了96%,家族分類的平均準確率為77%。研究者進一步利用開放集識別的最新進展,并使用一個特殊修改的重構誤差損失項來確定GT之間的相似性,從而將該模型擴展到已知的GT折疊之外。該模型主要有三個方面的優點:(1)研究者提出了一種利用二級結構預測作為輸入數據來探索蛋白質折疊的無比對方法;(2)關注模型的可解釋性,能挖掘模型學習到的特征并進行有意義的生物推理;(3)訓練后的模型可擴展到未知折疊的GT家族中,并預測出最可能采用新折疊類型的GT家族以指導新糖基轉移發現的進一步研究。相關的研究成果以“Mapping the glycosyltransferase fold landscape using interpretable deep learning”為題發布在國際著名期刊Nature Communications上。

    用于識別、分類和預測糖基轉移酶折疊的深度學習框架

    研究者從CAZy數據庫中收集了50多萬條GT序列,并根據序列相似性、長度等標準對其進行篩選,生成了44,620條GT序列用做訓練數據,涵蓋所有的折疊和家族。同時,研究者使用NetSurfP2.024識別的二級結構模式,并將其作為唯一輸入,訓練六層CNN模型進行多任務折疊和家族分類(圖1)。

    Nat. Commun. | 利用可解釋深度學習繪制糖基轉移酶折疊圖景

    圖 1. 所使用的深度學習模型的總體示意圖。圖片來源于Nat. Commun.

    CNN模型的前三層(第1塊, 圖1),在類標簽引導下學習保守的二級結構特征中不同層次的模式。這些特性被存儲為特定于層的權重以及它們的空間分辨率,從而可以使用grade -CAM(CAM)的特定于類的激活映射等方法將它們投射回線性序列和3D結構中。CAM值可以用來識別模型所給定GT折疊的特征。最后三層(第2塊, 圖1)進一步優化關聯特征權重值,然后將其送入全連接多任務分類器中,生成高精度的分類。研究者提取這些優化的特征嵌入,并使用統一流形近似和投影(UMAP)進行降維分析,以將分類做可視化處理。

    為了對未知結構或折疊的GT族進行分類,研究者將一個自動編碼器框架集成到現有的模型中,其中從Block 1中優化的權重被凍結,并用作編碼器的通用特征提取器。然后將Block 3(圖1)設計為具有CNN模型鏡像結構的解碼器,進行反卷積操作。

    所有GT折疊的繪景揭示了主要折疊類型內的不同簇

    UMAP算法可將Block 2的三層特征圖可視化(圖2a)。正如預期的那樣,研究發現了所有主要GT折疊之間的分離,突出了模型的區分能力。

    此外,研究者還發現了GT-A、-B和-C折疊類型的不同子結構。為了進一步分析這些子結構,研究者首先對三種折疊類型中的每一種進行單獨的UMAP分析,并使用高斯混合模型(GMM)算法對產生的投影進行聚類,以識別主要GT折疊類型中的聚類。這獲得了兩個GT-A簇和三個GT-B和GT-C簇。

    Nat. Commun. | 利用可解釋深度學習繪制糖基轉移酶折疊圖景

    圖2. UMAP投影顯示了主要GT折疊類型的分離。圖片來源于Nat. Commun.

    ????兩個不同的GT-A簇占了大部分的家族,34個家族中的17個組成了一個更大的GT-A0簇。10個家族被歸為GT-A1簇,而其余7個家族沒有被歸為簇,分散在兩個中心簇之外(圖2b)。同樣,GT-C序列也分散在三個主要的簇中(圖2d),十個家族中只有兩個(GT59和細菌GT85家族的Alg10糖基轉移酶)沒有被歸為其中任何一個簇。

    GT-A簇的CAM映射突出了共享結構特征的差異

    為了解主要GT折疊及其各自簇的結構特征,研究者將CNN模型前三層的每一層得到的CAM值映射回它們各自的序列。研究者首先將CAM值映射回GT-A公共核心對齊(圖3a, b)。

    研究發現GT-A核中最保守的區域(如DXD motif、G-loop和特征Rossmann折疊的前兩個beta片)對應著CAM值最高的區域,表明該模型是利用這些保守區域來區分GT-A型折疊與其他GT型折疊類型的。

    Nat. Commun. | 利用可解釋深度學習繪制糖基轉移酶折疊圖景

    圖3. CAM突出GT-A折疊核心。圖片來源于Nat. Commun.

    第2層生成的CAM圖譜信息量最大,與GT-A折疊的核心特征匹配良好。第1層的CAM值對應于分散在整個域內的微小區域,可能表明了模型學習到的局部特征,而第3層的CAM值延伸到更長的連續區域(圖3c),可能捕獲了遠程相關性。

    GT-B和GT-C簇的多重保守核心

    Nat. Commun. | 利用可解釋深度學習繪制糖基轉移酶折疊圖景

    圖4. 不同GT-B和GT-C折疊簇的CAM圖突出了它們各自的保守核心。圖片來源于Nat. Commun.

    由于缺乏序列守恒,生成GT-B折疊寬序列比對尤其具有挑戰性,為了理解從CNN模型中獲得的模式,研究者為每個GT-B家族生成了家族水平的比對。而后研究者計算了每個家族的共識二級結構和平均2層CAM圖(圖4a)。這些家族都反映了GT-B折疊的典型的兩個β/α/β Rossmann-折疊結構域。CNN-注意模型中最一致的模式是C端Rossmann折疊。CAM值圖表明,與6個beta片相關的特征在區分GT-B族方面有重要地位,而且這個C端區域的保守性也從GT-B0擴展到GT-B1、GT-B2和其他未分組的GT-B族。

    此外,將CAM值與代表性結構進行映射顯示,在GT-B家族中,C端Rossmann-fold的取向和結構是很保守的,偶爾會在環區插入家族特異性的片段(圖4b)。因此,該研究支持C端Rossmann域是GT-B折疊家族的共同結構特征。

    在C端Rossmann折疊上游,N端Rossmann折疊區二級結構的CAM值也較高,這可能表明它對于區分有2個Rossmann折疊的GT-B折疊和只有一個Rossmann折疊域的GT-A折疊具有重要意義。然而,這些CAM值模式在不同的家族中并不一致。

    相反,GT-B2簇內的所有家族都被發現在N端Rossmann折疊中保留了至少6個beta片和5個alpha螺旋,如CAM值所示(圖4a,b中的洋紅色框), GT-B2核心的擴展包括N和C端Rossmann折疊域。

    Nat. Commun. | 利用可解釋深度學習繪制糖基轉移酶折疊圖景

    圖5. GT-u族的折疊預測。圖片來源于Nat. Commun.

    利用卷積自動編碼器模型識別具有新型GT折疊的族

    圖5a顯示了已知序列(GT-A、-B、-C和-lyso為灰色)和未知折疊序列(紅色)的RE分布。

    為了從統計上評估哪些GT-u族具有顯著高于已知折疊的正則表達式,研究者首先對訓練數據擬合了一個極端值分布以計算95%和99%的置信區間(CI)。然后,將每個GT-u家族的中位RE值(mRE)與這些CI進行比較,以做出折疊預測。作者注意到未知的RE分布的峰值落在95% CI范圍內(低于0.107,圖5a),這表明大多數GT-u序列采用了一個已知的折疊。

    研究者進一步為兩個GT-A、三個GT-B、三個GT-C和一個GT-lyso聚類建立了9個自動編碼器模型并計算了RE。如果GT-u家族的mRE小于0.127,但FAS評分無陽性,則被認定為變異折疊型。最后,將mRE大于0.127的科定義為新型折疊類型。

    研究表明,有5個家族的mRE非常高(大于0.127),預測將采用新型GT折疊(圖5c)。研究者預測了其中三個家族,真菌β-1,2-甘露糖基轉移酶Bmt/Wry (GT91),植物肽基絲氨酸α-半乳糖基轉移酶Sgt (GT96)和細菌α-2,6-唾液酸基轉移酶(GT97),它們可能采用新的GT折疊。

    研究者還確定了四個最有可能采用GT-B折疊的GT-u家族(圖5c),包括:細菌α-1,3- l -鼠李糖基轉移酶(GT102),細菌O-抗原多糖β-1,4-N-乙酰氨基葡萄糖轉移酶(GT103),植物鼠李糖半乳糖醛酸I 4-α-鼠李糖基轉移酶的GT106家族,以及KDO轉移酶的GT107家族。

    結論總結

    本文用一個簡單的訓練數據集構建了一種用于預測GT折疊類型的卷積神經網絡模型。該模型學習的特征可以成功地區分蛋白激酶折疊序列和非蛋白激酶折疊序列,準確率約為96%。與GTs相似,該模型也分離了主要的激酶基團,準確率為77%。

    與大多數“黑盒”深度學習模型相反,該工作流的輸出是一種高度可解釋的深度學習模型,可以產生精確的折疊預測和定量輸出并提供有意義的生物學見解,而不需要主要序列或結構對齊。因此,該方法為大型蛋白質家族的計算和進化分析增加了一個強大的工具。

    參考文獻

    Taujale, R., Zhou, Z., Yeung, W.?et al.?Mapping the glycosyltransferase fold landscape using interpretable deep learning.?Nat Commun?12,?5656 (2021). https://doi.org/10.1038/s41467-021-25975-9

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放