(示意圖/取自pixabay)
蛋白質是生物體中非常重要的功能性分子,它們的形成過程經過了數十億年的自然選擇和進化。在這一過程中,蛋白質的序列和結構經過無數次隨機突變,並通過生物系統的選擇機制進行篩選,最終形成那些具有特定生物學功能的蛋白質。
近年來,隨著深度學習和語言模型(LM)的發展,科學家們開始嘗試將這些工具應用於理解生物系統,尤其是蛋白質。
Science 雜誌發表了一項重要研究成果,展示了如何利用語言模型來生成和推理蛋白質序列、結構和功能,並提出了一個名為 ESM3 的多模態生成式模型。
該模型不僅能夠生成功能性蛋白質,還能夠模擬超過 5 億年的進化過程,生成與自然界已知蛋白序列不同的全新蛋白質。
ESM3 模型由人工智慧新創公司 Evolutionary Scale 研發,旨在幫助科學家理解、構思和創造蛋白質。在這項工作中,研究人員通過 ESM3 設計了一個新的綠色螢光蛋白(GFP),其基因序列與已知螢光蛋白的差異巨大,如果通過天然螢光蛋白的生物進化,則需要超過 5 億年左右的時間。
這意味著,語言模型不僅可以解讀自然進化中累積的生物數據,還能通過分析進而生成新型生物分子,開闢蛋白質設計和藥物開發的新路徑。
AI 解碼生物語言
生物體本質上是可編程的。
這是因為自然界的每個生物體都共享相同的遺傳密碼,構成生命物質基礎的蛋白質就是僅由 20 種氨基酸組成,也因此,有人將其比作生命的「字母表」。
生物體中複雜的蛋白質信息蘊含著深層的生物學規律和演化歷史。近年來,科學家們通過對基因組序列和蛋白質結構的測序,累積了大量的蛋白質數據,包括數十億條序列和數億個結構資訊。
隨著 AI 技術的發展,科學家們開始嘗試利用深度學習模型,如大語言模型(LLM),將這些遺傳資訊「解碼」,以揭示蛋白質序列中隱藏的深層模式和邏輯,並通過這些模式推斷、設計全新的蛋白質結構和功能。
當前,已有多個語言模型(如 ProtBERT、ProtGPT)證明了蛋白質序列中的模式能夠被語言模型「解碼」,從而可以幫助理解其功能。這一領域的研究還表明,隨著模型規模的擴大,語言模型的能力和準確性也隨之提升。
為此,研究人員使用了超過 31.5 億條蛋白質序列、2.36 億個蛋白質結構,以及 5.39 億個帶有功能注釋的蛋白質數據來訓練 ESM3 模型。該模型總共有三種不同的規模,分別為 14 億、70 億和 980 億參數。
實驗表明,隨著模型參數規模的增加,ESM3 在生成能力和表示學習上的性能有顯著提升,特別是在生成蛋白質結構時,980 億參數的模型表現出超越現有模型的強大能力。
作為該領域的前沿成果,ESM3 不僅僅是一個傳統的序列生成模型,而是一個多模態生成模型,能夠同時處理蛋白質的序列、3D結構和功能。
ESM3 還展示了其在多種生成任務上的卓越性能,ESM3 使用了一種名為「生成掩碼語言模型」的方法,在輸入中對蛋白質的序列、結構和功能進行隨機掩碼,然後通過模型推理生成缺失的部分。
研究人員通過隨機掩碼並生成序列和結構,對比生成結果與真實蛋白質的匹配情況,發現模型能夠生成高質量的蛋白質序列和結構,其與真實結構的平均差異僅為 0.5Å。
此外,研究表明,ESM3 能夠通過不同的提示生成具有目標功能的蛋白質,這為蛋白質設計帶來了高度靈活性。與傳統的三維空間中的複雜建模方法不同,ESM3 將三維結構離散化為 token,這使得它能夠與序列和功能信息一同被輸入模型進行處理。
這種方法避免了複雜的3D空間擴散架構,使得生成過程更加高效、可控。
生成需 5 億年進化的螢光蛋白
為了展示了 ESM3 模型在生成全新蛋白質方面的巨大潛力,研究人員嘗試選擇綠色螢光蛋白進行挑戰。
綠色螢光蛋白在生物學研究中是非常重要的工具,用於標記和追蹤細胞內的分子與結構。
然而,現有的螢光蛋白大多數來自自然界,且其突變通常限制在已有序列周圍,很難大幅度改變其序列。
在少數情況下,利⽤⾼通量實驗和機器學習,科學家僅能夠引⼊至多 40-50 個突變(即 80% 的序列同源性),同時保留蛋白的螢光功能。
為了突破這一瓶頸,研究人員通過對 ESM3 模型進行特定的功能提示,嘗試生成生成一個全新的綠色螢光蛋白,要求該蛋白的序列與已知的綠色螢光蛋白序列相似性較低,但仍要保持其螢光特性。
首先,研究人員定義了一個 229 個氨基酸長的蛋白質序列,其中包含了與綠色螢光蛋白螢光活性相關的關鍵氨基酸,研究人員還提供了綠色螢光蛋白的3D資訊,尤其是與形成螢光色素的活性位點相關的氨基酸殘基。
ESM3 模型在接收到這些提示後,會生成一個蛋白質的3D結構,尤其是確保活性位點的氨基酸位置協調良好。然後,基於生成的結構,模型進一步推理生成合適的氨基酸序列,並嘗試保持活性位點的正確結構。
在這個過程中,ESM3 不僅僅是根據已有的綠色螢光蛋白結構生成新的序列,還能夠在「已知」結構的基礎上進行創新,生成具有低序列相似性的新型蛋白質。
經過一系列的生成和優化步驟,研究人員獲得了多個新的綠色螢光蛋白,其中一個特別的設計被命名為 esmGFP。這個全新的蛋白質與現有的螢光蛋白(如 tagRFP)之間的序列相似性為 58%,與最接近的天然蛋白(eqFP578)之間的序列差異為 107 個氨基酸,序列相似性為 53%。
研究人員還進一步驗證了生成的綠色螢光蛋白是否具有實際的螢光功能。結果表明,儘管 esmGFP 發光特性有所延遲,成熟時間較長,但最終的螢光亮度與已知的綠色螢光蛋白相似,且具有穩定的螢光特性。
研究人員還提供了時間校准系統發育分析,指出如果通過現有蛋白的自然界進化過程得到 esmGFP,則需要超過 5 億年的等效時間。
ESM3 的未來潛力與應用
ESM3 的另一個顯著亮點是其在多模態條件下的生成和控制能力,也就是說,研究人員能夠通過提示特定的蛋白質結構、功能或特定的關鍵氨基酸,生成滿足這些條件的新型蛋白質。例如,模型能夠生成具有特定功能位點的蛋白質,同時保持整體結構的完整性。
此外,通過組合不同的提示,模型也能夠生成符合複雜要求的蛋白質。例如,研究人員提示蛋白質的二級結構和功能關鍵詞,並生成了與這些提示高度一致的蛋白質。
ESM3 模型的這種提示響應能力和可控特性,使得它在蛋白質設計領域具有高度實用價值,尤其是在生成與現有已知蛋白質具有顯著差異的新型蛋白質方面。
在 ESM3 模型的幫助下,研究人員不僅能夠設計出新型的綠色螢光蛋白,還能在設計中創新,突破自然進化的侷限。這為未來蛋白質工程、合成生物學和藥物開發等領域提供了新的可能性,也為蛋白質的設計和功能驗證提供了更加高效的工具。
例如,與自然進化相比,ESM3 能夠大大加速蛋白質設計的速度,並生成在自然界中無法輕易獲得的新蛋白質,而這對於基礎研究和應用研究來說都是巨大的突破。
另外,在藥物設計領域中,生成具有特定功能的蛋白質是一個重要的研究方向,而通過 ESM3,研究人員能夠設計出符合特定靶點的蛋白質,減少實驗驗證的時間和成本。
而在合成生物學領域中,ESM3 能夠為開發新的合成途徑提供幫助,生成具備新功能的酶或代謝途徑。
研究人員還指出,隨著模型規模和數據量的進一步增加,ESM3 有潛力生成更加複雜和創新的蛋白質。未來,ESM3 的應用可能涵蓋從基礎研究到藥物設計等更多領域,為蛋白質工程開闢全新的可能性。
目前,ESM3 已通過 API 推出公開測試版,使科學家能夠通過編程或基於瀏覽器的交互式 app 來設計蛋白質。科學家們可以通過免費學術訪問層使用 EvolutionaryScale Forge API,也可以使用開放模型的程式碼和權重。
本文為AI新智界授權刊登,原文標題為「Science:AI模擬5億年生物進化,創造了一種「前所未有」的蛋白質」