
引言
蛋白質工程(Protein Engineer)具有巨大的學術和工業潛力。然而,在浩瀚的蛋白質序列空間中進行搜索的能力限制了我們的設計,但是蛋白質功能序列空間卻非常有限。在尋找功能序列時,工程師們必須警惕“你得到你篩選的”這一普遍存在的格言,這一格言告誡人們不要使用可能與最終設計目標不完全一致的功能分析來過度優化蛋白質序列。并且通過早期高通量(>104個變異體)實驗確定的最佳候選者,在較高保真度的后期分析的驗證中往往會失敗。此外,許多種類的蛋白質根本不存在高通量分析,因此無法進行篩選和定向進化?;诖?,蛋白質工程受到嚴重的限制。本文介紹了一個機器學習的范例,可以使用24個突變功能性分析突變體來構建一個精準的虛擬度適應空間,以便通過虛擬定向進化來篩選千萬級別的序列。通過來自于自然蛋白序列空間中的信息,作者的模型可以學習一個潛在的‘非自然’展示空間,減少搜索非功能性序列空間。隨后的low-N監督學習可以幫助提高活性??傊?,此模型可以在不犧牲高通量的前提下,高效利用資源進行高保真性分析,并有助于蛋白工程加速進入發酵罐等階段。
結果
1. Low-N?蛋白工程的一個范例
為了滿足有監督的深度學習(通常數量級應該大于106)的巨大數據需求,機器學習指導蛋白質設計方法必須收集高通量的實驗數據或完全放棄深度學習。作者利用UniRep中對功能蛋白序列的現有知識,來減少數據需求,實現 low-N設計。作者使用了UniRep,一個在大型未標記蛋白質序列數據集上訓練的深度學習模型。UniRep僅從序列開始,就學會了提取蛋白質的基本特征,包括生物物理、結構和進化信息,形成一個完整的統計摘要。
2. 步驟
對于給定靶點的low-N工程化設計,作者的步驟包含以下幾步:
(1) UniRep在超過2000萬個原始氨基酸序列上進行全局無監督預訓練,以提取功能蛋白的一般特征;
(2) UniRep對目標蛋白相關序列的無監督微調(evotining)以了解目標家族的不同特征;
(3)?野生型(WT)靶蛋白的Low-N個隨機突變體的功能表征,以訓練使用eUniRep表示作為輸入的簡單監督模型;
(4)?基于蒙特卡羅得馬爾可夫鏈來進行虛擬定向進化;
(5)?預測改進之后的功能序列的實驗表征。

圖1.?給定靶點的low-N工程化設計步驟
圖片來源于Nature Methods
作者首先嘗試對原始avGFP的熒光強度進行Low-N優化。設計過程包括了從易錯PCR中隨機取樣的N = 24或N = 96的突變體,代表序列空間,訓練出了一個頂層模型,然后對其進行虛擬定向進化來產生300個優化設計,信任半徑為15個突變??偣伯a生12000個序列設計。
4. TEM-1 β-lactamase的Low-N工程化設計
接下來作者將其推廣到 TEM-1 β-lactamase,用其來優化蛋白功能,使用單個突變體作為訓練數據。作者設計了一個81個氨基酸,四個螺旋(但是不包括催化絲氨酸S70的中心螺旋),并設計提出了七個突變信任半徑。在GFP中,作者為每個Ntrain和表示模型生成了300個設計,并將這個過程復制了5次。Low-N工程對于酶生物催化劑的設計幫助巨大。

圖2. TEM-1 β-lactamase的Low-N工程化設計
圖片來源于Nature Methods
?
討論
本研究為 low-N 蛋白工程提供了一個可推廣的范例。通過從全局和局部序列空間中提取信息,隨后重復地利用N = 24來訓練突變體和進行虛擬篩選,形成1000多個新的設計(大于WT)。這是迄今為止機器學習引導蛋白質功能優化中最好的案例。作者僅以24個avGFP的隨機突變體作為訓練數據,設計了新的熒光蛋白(FPs),可以與高通量、高保真蛋白質工程的產物sfGFP相媲美。
代碼下載
UniRep:?https://github.com/churchlab/UniRep
參考文獻
Biswas, S., Khimulya, G., Alley, E. C., Esvelt, K. M., & Church, G. M., Low-N protein engineering with data-efficient deep learning. Nature Methods, 2021, 18, 389–396. DOI: 10.1038/s41592-021-01100-y.