<em id="lbmtt"></em>
  • <th id="lbmtt"><track id="lbmtt"></track></th>
    <li id="lbmtt"></li>
    <progress id="lbmtt"><big id="lbmtt"></big></progress>

    Nat.Chem. | 基于深度學習的核靶向非生物微蛋白設計

    Nat.Chem. | 基于深度學習的核靶向非生物微蛋白設計
    Nat.Chem. | 基于深度學習的核靶向非生物微蛋白設計

    高通量實驗與定向進化啟發的深度學習方法碰撞,展示了機器學習使核靶向非生物微蛋白的從頭設計將反義寡聚體輸送到細胞核的過程。模型還可破譯和可視化序列-活性預測。

    背景介紹

    已有文獻使用二元分類器來優化活性細胞穿透肽 (CPP)活性,美國麻省理工學院的Bradley L. Pentelute團隊則采用了新的方法,他們通過使用大型標準化數據集與深度學習來設計新的功能性微蛋白并預測活性。這種基于深度學習的設計策略,包括了序列的生成器、預測序列活性的預測器和提高序列活性的優化器三個部分。作者構建了一個包含 600 個獨特反義-微蛋白偶聯物的文庫(圖 1a),根據綠色熒光蛋白 (EGFP) 熒光讀數來測試序列活性(圖 1b、c)。殘基被編碼為指紋,用于訓練預測神經網絡(圖 1d)。生成器神經網絡可以生成新序列并用作優化的種子,在預測器-優化器中優化這些新序列,從而輸出數百個高預測活性的新序列(圖 1e)。

    Nat.Chem. | 基于深度學習的核靶向非生物微蛋白設計

    圖1. 基于定向進化的機器學習模型預測用于大分子傳遞的高活性非生物微蛋白。圖片來源:Nat.Chem.

    主要內容

    數據集的構建

    合成策略采用四個模塊:一個用于 PMO,三個用于包含不同結構和功能的不同肽序列庫。作者在具有化學選擇性和不可逆性的生物偶聯反應中合成構建體,產生足夠純度的產物,用于體外直接測試。

    建立深度學習模型

    作者關注每個殘基的分子結構,使用了基于沿序列堆疊每個殘基的傳統化學信息學指紋的拓撲表示。肽序列可以表示為殘基指紋的矩陣,用零填充直到每個序列矩陣的長度相同。單個殘基指紋是基于整個單體分子圖的位向量(圖 2a),向量中的每一位對應于一個子結構,這種方式簡化了殘基的表征,并度量了殘基之間的相似性。最后將指紋編譯成行矩陣以編碼肽序列的酰胺骨架。

    隨機選擇20% 的數據集作為驗證集來檢驗預測器對于卷積神經網絡的效果。驗證集上的均方根誤差是訓練數據標準偏差的 0.4。只要預測值落在訓練值的范圍內(歸一化活性為 0.32-19.5),預測相對誤差為 11%(圖 2c)。在回歸和分類任務中,使用指紋和單熱編碼對其他模型架構進行了測試。結果表明,大多數模型都受到訓練數據范圍的限制,只有 CNN-FP模型能夠外推并生成預測的活性,然而外推預測的偏差顯著增加。由于異常值的存在,基于拓撲表示的模型在驗證數據集上的效果并未優于單編碼模型的預測效果,并且在 Mach 數據集上的表現更差。使用 one-hot 編碼的 CNN 模型盡管其總體平均誤差最低,但幾乎沒有外推能力。當研究異常值對模型性能的影響時,作者發現模型集成的 CNN one-hot 模型對驗證數據集更優,而集成的 CNN-FP 模型則對 Mach 數據集更優。

    作者開發了一個基于循環神經網絡的生成器,它根據 CPP 生成“類似 CPP”的啟動序列。使用可用序列的數據集作為輸入訓練模型,最后使用模型生成種子序列。結果發現生成器方法生成的序列能更好地滿足預設的三個標準(高預測活性、低相似性和低 Arg 含量)。

    優化器基于定向進化完成循環。生成器生成的序列被隨機突變并使用目標函數評估序列的活性,從而進一步改進序列。在保持水溶性的同時最小化長度、Arg 含量以及與庫的相似性,估計序列的凈電荷。在對每個序列進行 1000 次迭代后,該模型提供了數百個具有廣泛預測活性值的獨特序列。除了高活性序列,作者還預測了非活性序列作為陰性對照。通過在相反方向引導優化器的進化,但保持其他約束相同,模型能夠生成在氨基酸組成上與活性預測相似的非活性序列 (Mach11)。合成后,Mach11結合物顯示出較低的實驗活性,這證明了模型在預測獨特序列活性方面的穩健性(圖2c)。

    Nat.Chem. | 基于深度學習的核靶向非生物微蛋白設計

    圖2. 基于機器學習的生成器-預測器-優化器循環預測核靶向非生物微蛋白。圖片來源:Nat.Chem.

    預測模型的可視化和解釋性

    作者通過可視化關鍵的殘基子結構來解釋預測器CNN,開發了一種工具來解釋序列與活性的相關性。該過程為序列中的每個化學子結構生成正和負激活值。具有較高激活的位表示對最終活性預測影響最大的特征。例如,對于預測的 Mach3 序列,兩個 C 端氨基己酸 (Ahx) 殘基的活性最高(圖 3a),其次是Arg。使用這種可視化方法可以更好地了解訓練模型如何設計序列。接著作者選擇了五個不同長度的隨機序列,將它們放入預測器-優化器循環中,以最大化其他設計約束條件下的活性,并可視化最佳預測的激活情況,可以看到 C 端殘基更高的活化(圖 3c),這很可能是由于 PMO 連接到了 N 端。另外研究人員還觀察到帶電殘基和疏水殘基的一般組成在不同的序列長度上保持不變(圖 3d),無論序列長度如何,特定的殘基指紋都被激活,例如 Lys、Ser 和 Asp 的側鏈(圖 3e,f)。

    Nat.Chem. | 基于深度學習的核靶向非生物微蛋白設計

    圖3. 預測器 CNN 的解釋揭示了激活的子結構。圖片來源:Nat.Chem.

    Mach微蛋白靶向PMO 轉運

    作者從模型預測的數百個微蛋白中合成并表征了 12 個候選物。選擇 Mach1、2 和 6 是因為它們在 50 聚體序列中具有高預測活性。Mach3 被選為中等長度的肽(39 個殘基),Mach4 被選為只有兩個 Arg 殘基的較短序列(33 個殘基),選擇 Mach5 是因為預測它具有中等活性和最低凈電荷 (10.5)。Mach7 最初被設計為陰性對照——其中 Mach1 的序列被重新排列,直到模型預測最低活性。Mach8 和 9 是從更長的小蛋白(大約 80 個殘基)列表中選擇的,而 Mach12 和 13 是從包含 Cys 連接的大環的序列中選擇的。最后,Mach11 是從活性在負方向上優化的序列列表中選出的,以表明該算法可以預測具有相似長度、電荷和氨基酸組成的肽,但沒有 PMO 傳遞活性。

    除了 Mach5 之外,幾乎所有預計活性超過 20 倍的序列確實都超過了性能最高的模塊化文庫結構。由于模型在訓練數據范圍外外推,PMO-Mach 構造的預測和實驗活性顯示出比測試數據集更大的百分比誤差(圖 2c)。

    經驗證的預測的理化性質與 PMO 活性幾乎沒有相關性。作者將 Mach 構建體的活性與訓練庫中與各種理化特性相關的活性進行了比較(圖 2d、e)。盡管文庫構建體清楚地顯示活性隨 Arg 含量相對于長度的增加以及凈電荷相對于長度的增加,但 Mach 構建體的活性與這些相同特性之間沒有明顯的相關性。

    幾種 PMO-Mach 構建體比以前表征的 PMO-CPP 具有更大的效力且無毒。作者進行了劑量反應實驗以表征 EGFP 測定和乳酸脫氫酶 (LDH) 釋放試驗中的毒性。PMO-Mach2、3、4 和 7 的 EC50(半最大有效劑量)值均接近 1μM,并且在測試濃度下是無毒的(圖 4a-c )。

    Mash微蛋白轉運其他生物大分子

    肽核酸(PNA)是一類結構高度靈活的合成反義寡核苷酸, 測試的四種 Mach 微蛋白中的每一種都能夠顯著增強 PNA 遞送(圖 4d)。除了反義寡核苷酸,馬赫肽還可以傳遞帶電蛋白質,例如白喉毒素 A (DTA)。作者發現 Mach-DTA 構建體能夠比單獨的蛋白質更有效地遞送到細胞胞質溶膠中,并且遞送需要共價鍵(圖 4e)。與馬赫微蛋白的結合也改善了 EGFP 的傳遞, HeLa 細胞的共聚焦顯微照片在與 Mach-EGFP 孵育后在細胞質中顯示出彌散的綠色熒光,并在細胞核中顯示出強烈的熒光(圖 4f)。

    最后,作者證明了 PMO-Mach 構建體在動物中安全正確地合成了蛋白質。含有與細胞測定中使用的相同的 EGFP IVS2-654 基因的轉基因小鼠被單次靜脈注射不同劑量的 PMO-Mach3 或 PMO-Mach4,并在 7 天后進行評估。兩種構建體在股四頭肌、膈肌和心臟中都表現出 EGFP 表達的劑量依賴性增加(圖 4g-i)。

    Nat.Chem. | 基于深度學習的核靶向非生物微蛋白設計

    圖4. Mach 微蛋白在體外和體內都具有高度活性,可將其他生物大分子傳遞到細胞質中。圖片來源:Nat.Chem.

    總結

    本文構建的模型的核心優勢在于:(1) 標準化的定量活性數據,(2) 模型在訓練集之外進行外推的能力,以及 (3) 解釋模型決策過程的視覺歸因工具。該模型展示了如何將深度學習應用于功能性非生物微蛋白的從頭設計。Mach 微蛋白是迄今為止開發的最有效的 PMO 遞送構建體。機器學習框架可能會重新被用于發現具有其他所需活性的序列優化肽,只需要標準化的高質量輸入數據集。這一策略將在未來幫助科學家快速設計對化學、生物和材料科學產生影響的去功能肽。

    參考文獻

    Carly K. Schissel1, Somesh Mohapatra?, Justin M. Wolfe, Colin M. Fadzen, Kamela Bellovoda,

    Chia-Ling Wu, Jenna A. Wood, Annika B. Malmberg, Andrei Loas, Rafael Gómez-Bombarelli? and Bradley L. Pentelute. Deep learning to design nuclear-targeting abiotic miniproteins. Nature Chemistry, 2021, 13, 992-1000.

    X
    亚洲网络在线,五月亚洲色图,亚洲 色 图 小 说,亚洲一级a毛片免费视频在线播放