Science:利用合成協同進化和機器學習來設計蛋白-蛋白間相互作用


一、【導讀】

蛋白-蛋白間相互作用(protein-protein interactions,PPI)在幾乎所有的生物學過程中都發揮著重要作用,包括信號轉導、細胞生長和免疫防御等,其介導對細胞生理學重要的生物學功能。相互作用的蛋白質通過對突變的采樣(主要是在蛋白-蛋白界面)共同進化了數千年,以實現所需功能的“最佳匹配”,這一過程很難在實驗室中重現。蛋白質工程方法可以在蛋白質結合位點產生大量氨基酸庫,用于篩選固定序列的其他蛋白質,反映了一半的進化過程。然而,通過使用“庫中庫”方法來回收匹配的共進化蛋白質對,開發兩種蛋白質相互對抗的體外系統一直是一項挑戰。一個有效的雙向、同時進行蛋白-蛋白協同進化的合成系統可以作為模擬自然協同進化的平臺。這也可能是一種為生物技術應用設計大量具有不同識別特性的蛋白-蛋白復合物的方法。

?二、【成果掠影】

最近,斯坦福大學K. Christopher Garcia教授團隊描述了一個合成蛋白-蛋白協同進化的平臺,可以從復雜庫中分離出相互作用的匹配對的突變蛋白。這個共同進化復合物的大型數據集推動了對Z結構域-粘附體對之間的分子識別的系統級分析,涵蓋了廣泛的結構、親和性、交叉反應性和正交性,并捕獲了廣泛的共同進化網絡。此外,作者利用預訓練的蛋白質語言模型在計算機中擴展了協同進化篩選的氨基酸多樣性,預測超出實驗庫范圍的重塑界面。這些方法的整合為生物技術和合成生物學提供了一種模擬蛋白質協同進化和產生具有多種分子識別特性的蛋白質復合物的手段。相關研究成果以“Deploying synthetic coevolution and machine learning to engineer protein-protein interactions”為題發表在國際知名期刊Science上。

三、【核心創新點】

利用蛋白質復合物模型,生成了在疏水界面內六個位置氨基酸變化的合成蛋白質庫。隨后在在一個共同進化網絡中繪制了這些序列,并確定了10對提供特異性細節的結構。最后使用預訓練的蛋白質語言模型來擴展氨基酸對的范圍,證明了這種混合實驗-計算方法對該系統中蛋白-蛋白相互作用的預測能力。

四、【數據概覽】

?

1? 蛋白-蛋白協同進化策略的設計和驗證 ? 2023 AAAS

(a)蛋白質-蛋白質協同進化工作流程示意圖。

(b)Z結構域(綠色)和親和體ZpA963(藍色)(PDB:2M5A)疏水腔中關鍵殘基的特寫視圖。

(c)相互作用對(Z+ZpA963)和非作用對(6×Ala)的酵母裂解捕獲實驗。

(d)酵母裂解捕獲分析與表面等離子體共振技術(SPR)測量的Z結構域-親和體二聚體突變體的結合親和力之間的相關性分析。

(e)流式細胞儀分析的直方圖。

(f)下一代測序(NGS)數據在本地庫和熒光激活細胞分選(FACS)最后一輪之后的序列頻率標志。

(g)從HL1和HL2 NGS數據中對六種最常見的突變體進行酵母裂解捕獲分析。

 

2 ?通過共同進化工程重塑的二聚體界面 ? 2023 AAAS

(a)(上)來自Z結構域(綠色,A鏈)和ZSPA-1(藍色,B鏈)的絡合物(PDB: 1LP1)的界面上庫的位置。(下)用于制作兩個獨立文庫LL1和LL2的編碼氨基酸。

(b)(左)流式細胞術分析顯示第6輪至第8輪后庫中HA標簽熒光的富集。(右)直方圖顯示在選擇期間HA標簽熒光的升高,從第6輪到第7輪和第8輪。

(c)本地庫中NGS數據的序列頻率標志,第6輪、第7輪和第8輪揭示了LL1和LL2庫中選擇過程中一致序列的出現。

(d)LL1(左)和LL2(右)庫的突變體的酵母裂解捕獲分析。

?

?

3 ?協同進化網絡的可視化和映射 ? 2023 AAAS

(a)統計富集的NGS數據的Z-B序列與每個Z-A序列配對的序列標志,以及通過酵母裂解捕獲測定測量的實際結合特異性,標準化為每個Z-A序列的最高親和力。

(b)來自LL2庫的所有篩選輪(左)和第7輪(右)的串聯的8個氨基酸Z-A+Z-B庫位置序列的SSN。

(c)LL1和LL2的100個樣品對的Circos交叉反應性圖。

(d)LL2庫突變體的單一突變途徑,連接原始序列(QFLI+LVIF)和顯著的LL2庫突變株。

(e)三種途徑的突變體與原始序列相比的 G, H和– T S變化。

(f)顯示來自該途徑的Z-A變體的結合特異性變化的矩陣。

 

4 ?共同進化變體的耦合分析和結構適應 ? 2023 AAAS

(a)直接耦合分析(DCA)矩陣來預測LL2庫序列的殘基間共變。

(b)(左)殘基間連接和(右)DCA與殘基間距離的關系。

(c-e)庫位置的特寫視圖,以顯示局部側鏈重排。

?

5 ?正交高親和力突變體的特異性決定簇 ? 2023 AAAS

(a)與原始氨基酸相比,改變的位置用紅色表示,突變體之間的變化位置用綠色方框突出顯示。

(b)用SPR測定的Z-A和Z-B單體親合力表。

(c)(左)LL1.c1,LL1.c2和LL1.c6結構的疊加。(右上)32B位置附近LL1.c2和LL1.c6結構的對比顯示了單個突變M32BF如何通過Trp35B的側鏈旋轉和其周圍疏水相互作用的增加來誘導大的構象變化。(右下)每個突變體的特寫顯示以trp35為中心的疏水相互作用與周圍殘基。

(d)顯示三個正交LL2突變體LL2.c17(VFLV+IVVY)、LL2.c7(LVLF+FIVK)和LL2.c22(IVFF+FILV)的庫位置中的氨基酸的表,以比較它們的親和力和結構的差異。

(e)三個突變體的Z-A和Z-B突變體各組合的結合親和力。

(f)LL2.c17與其他兩個突變體在界面上存在的顯著結構差異。

?

6 ?利用蛋白質語言模型進行序列空間擴展 ? 2023 AAAS

(a)通過蛋白質語言模型進行序列空間擴展的示意圖。

(b)LL2測序數據中LL1型序列的部分,以及LL1測序數據中LL2型序列的部分。

(c)通過基于外產物的卷積神經網絡(CNN)預測二聚體與擴展的氨基酸相互作用的方法圖示。

(d)LL1訓練模型在LL2測試集上的分類效率。

(e)每輪篩選LL2測序數據的預測結合分數用小提琴圖表示。

(f)LL2測序數據的預測結合評分與蛋白酶切割后HA-tag MFI實際百分比的相關性。

(g)圖3D中突變途徑中預測的結合分數和配對的相對親和力之間的相關性。

(h)根據LL2 NGS數據預測結合評分排名前11位的序列。

(i)通過蛋白質語言模型和遷移學習,描述了從實驗LL1數據到預測LL2序列空間的序列空間擴展。

五、【成果啟示】

本研究開發了一種簡單的蛋白質協同進化方法,以解決大規模庫選擇中連接表型與基因型的問題。生成的相互作用的Z結構域-粘附體對的大量集合使該模型系統中的分子識別的系統級結構-功能分析成為可能。在DCA和高分辨率晶體結構的基礎上,可以成功地推斷出Z結構域-粘附體二聚體界面之間的上位相互作用。本研究的共同進化策略產生的實驗數據可以用作機器學習算法的訓練數據,以擴展比實驗獲得的序列空間更寬的序列空間,并預測蛋白質-蛋白質的相互作用。

原文詳情Deploying synthetic coevolution and machine learning to engineer protein-protein interactions (Science 2023, 381, eadh1720)

本文由賽恩斯供稿。

分享到