
內容簡介
在過去的十年里,冷凍電子顯微鏡, 簡稱冷凍電鏡(cryo-EM)已經成為結構生物學中一項非常有價值的技術(圖1)。由于儀器、樣品制備和圖像處理軟件的最新發展,cryo-EM現在已經達到原子級別的分辨率(當分辨率足夠高,便可以對蛋白質中大多數原子的獨特位置進行結構建模)。目前的發展進程很快,在EMDB數據庫,2019年期間1818張分辨率高于15?的單粒子電鏡圖中,61%和86%在分辨率上分別優于4?和6?,到目前為止,過去幾年的單粒子電鏡圖中有45%的分辨率超過5?,冷凍電鏡結構解析的最高分辨率是1.54?的載脂蛋白(EMD9865)。隨著可用cryo-EM數據集的數量迅速增加,大家可能會想到計算模擬是否會帶來什么?本文的重要觀點便是計算模擬方法可以補充cryo-EM數據提供的大量信息。傳統上,模擬方法是被用來獲得與密度圖匹配的結構。在這里,作者強調了一些新的應用,以擴展這一方向。

圖1. cryo-EM技術解析蛋白結構
圖片來源于:Curr Opin Struct Biol
Cryo-EM除了是一種測定PDB結構的強大技術外,還有其他用途。由于實驗只能獲得單分子性質,而生物大分子通常具有內稟的柔性,其動態結構變化一直是結構生物學的研究重點之一。冷凍電鏡的優勢在于可以捕捉生物分子在溶液中的形態,并記錄下不同構象下的投影。這些特征可以直接從原始數據中獲得,即從冷凍在一層薄冰中的生物大分子電鏡圖像中提取結構信息。目前最常見的做法是在不同的構象狀態下得到多個三維(3D)密度圖,進一步根據這些圖建立不同的原子模型,并且從重建后的粒子數量中可以獲得有關它們相對種群的一些信息。
?“構象圖像”和“單一結構”之間的差距可采用集成建模(ensemble modeling)的手段彌補,計算的進步將在這一新方向上發揮關鍵作用。雖然圖像分類技術通常能夠在二維類平均圖上區分不同的構象狀態,但體系的高動態部分有時甚至很難用集中分類方法來識別。因此,cryo-EM的低分辨率區域可能隱藏多個不同但可建模的構象,其密度在處理原始數據時已取平均值。這些區域呈現連續動態的情況尤其具有挑戰性,生物體結構中高柔性部分往往對特定的生物功能至關重要,如短環或其他無序區域,單靠cryo-EM很難解決。在這些情況下,將單個結構或多個獨立精化模型生成密度圖的傳統建模方法可能沒有幫助,因為它們可能無法真實地表示體系的結構如何變化。
近年來,人們提出了幾種不同的計算方法來確定與實驗數據的統計平均值相一致的構象集合體。這些方法通常與溶液實驗結合使用,例如核磁共振(NMR)譜或小角度X射線散射,在分子動力學(MD)模擬過程中提高力場的質量,或者在實驗中優化先前使用MD或其他建模技術生成的集成。這些方法現在可以擴展到從cryo-EM密度圖中生成結構集。
Metainference是一種基于貝葉斯概率框架確定結構集的方法,用于將噪聲、集合平均、實驗數據集成到MD模擬中。這是一個很好的方法來描述圖譜中的構象異質性,這種構象異質性阻礙了進一步的3D分類,最近ClpP蛋白酶的門控區域動力學(圖2)和乙?;瘜Ζ?微管蛋白影響的研究表明了這一點。在MD模擬中的分子力學力場精確地描述了不同的生物環境及其與大分子的相互作用,當大分子和其他更小的組分(脂類、離子、溶劑、配體等)在原子密度圖中可見時,將cryo-EM數據與MD結合的一體化方法,提供了一個新的機會,其可以更準確地描述它們之間的相互作用。盡管這些方法比基于Real-space refinement構建原子模型技術付出更高的計算成本,但它們可以提供蛋白質與其環境相互作用的重要信息。

圖2. ClpP蛋白酶的門控區域構象變化
圖片來源于PNAS
隨著冷凍電鏡分辨率的提高,體系中越來越多之前未報道的微小組分趨于明顯,如有序水分子、脂質和離子。用于單結構優化的軟件通常不提供或是簡化生物體系周圍環境的物理化學模型,例如,可溶性蛋白質通常在三維密度圖中使用能量函數進行模型精修,能量函數只描述基本的立體化學性質,而不描述周圍環境,既不使用隱式水模型,也不使用顯式水模型。即使對于使用更精確的分子力學力場(如metainference)的集成建模方法,對有序水和脂質密度的建模仍然具有挑戰性,需要進一步的方法學發展。
集成建模方法面臨的主要挑戰之一是如何區分數據中的構象異質性和噪聲,這兩個原因都可能導致低分辨率區域的存在。為了克服這阻礙,需要一種能夠同時考慮結構異質性和噪聲的建模方法,以及能夠(單獨)很好地描述體系動力學的結構先驗和對實驗誤差的精確估計。
新的方法不再依賴于3D密度圖,而是使用原始的2D粒子堆棧,這些粒子堆??梢栽贓MPIAR公共數據庫中找到。值得注意的例子是流形嵌入、BioEM、和變分自編碼器,這些方法的主要優點在任何聚類或平均過程之前使用原始數據,因此充分體現了cryo-EM實驗的單分子性質。目前,這一領域的方法發展受限于EMPIAR數據庫中原始數據存入的間斷進行。這些方法大多受到單個粒子低信噪比的限制,隨著探測器的不斷發展,信噪比將得到及時緩解。
計算模擬還可以提供cryo-EM實驗的幾個方面的信息,這些方面需要將結果與溶液、室溫綜合聯系起來。例如,多尺度方法可以研究顆粒如何與空氣-水界面相互作用,也可用來確定玻璃化過程對產生的分子集的有效“溫度”。
在數據收集之前,樣品在室溫下的溶液中制備,然后迅速冷卻至低溫。凍結的時間尺度還不完全清楚,可能需要數百微秒到幾毫秒。在這個時間尺度上,數量稀少的“激發”態相對于穩定態更容易受到影響。在更局部的尺度上,卷曲和環結構(rotamers、loops)通常在微秒尺度上具有高度的靈活性,因此它們在冷凍期間可能有時間進行結構重組。因此,cryo-EM單顆粒圖像所代表的構象可能與室溫下的生物大分子結構有所差異。
研究這些效應的一個潛在方法是非平衡態MD,通過模擬從溶液中提取的一組初始構象的凍結過程,可以用平衡態MD在300k的室溫下模擬到低溫下模擬到低溫集成,這樣的模擬可以突出冷凍電鏡圖和室溫集合體之間的潛在差異。最近的實驗已經開始通過在冷凍和玻璃化過程之前,將樣品在不同溫度下孵育來解決這些問題,將為分子模擬提供有用的比較點。
盡管EMDB數據庫中冷凍電鏡圖的數量正在迅速增加,但大部分可用數據仍處于中低分辨率。旨在結合不同類型實驗的綜合建模方法,提供了一種很好的方法補充這種分辨率范圍內cryo-EM電磁數據的缺少的信息,從而確定更準確和精確的結構模型。cryo-EM與NMR數據結合的一個最新例子,從4.1?分辨率電鏡圖開始,將468kDa氨基肽酶TET2的結構測定到<1?的精度,在該分辨率下,僅使用cryo-EM數據很難追蹤主鏈并分配序列,但通過結合以NMR數據模建的二級結構,就有可能確定精確的模型。使用一體化的集成建模方法(圖3),將cryo-EM數據與其他實驗相結合,以獲得更精確的蛋白質構象集成。例如,可以結合NMR的數據來改進生物體系中高度靈活部分的特征,而這些部分通常在cryo-EM聚類和重構過程中取平均。?

圖3.擬合和優化cryo-EM密度圖中的原子模型
圖片來源于:Curr Opin Struct Biol
如何平衡不同類型實驗數據所提供的信息,是單結構集成方法面臨的主要挑戰。在這些方面,貝葉斯統計是一個有效的框架,可以用來結合體系所有可用的信息來源,即實驗數據或物理化學知識,基于準確性和信息內容對它們進行加權。
總之,雖然我們正處于爆炸性的cryo-EM數據中,但計算建模和分子模擬在未來仍然可以發揮重要作用。這些方法必將為結構生物學的許多領域提供重要的貢獻,從改進蛋白質構象集成的描述到闡明冷凍對生物體系行為的影響,準確地描述復雜的物理化學環境,以及將cryo-EM與其他類型的實驗數據結合起來。
參考文獻:
Fraser J S, Lindorff-Larsen K, Bonomi M. What Will Computational Modeling Approaches Have to Say in the Era of Atomistic Cryo-EM Data? J. Chem. Inf. Model.?(2020)?DOI: 10.1021/acs. jcim.0c00123