麻省理工 Nat. Chem.:機器學習又一佳作!深度學習設計靶向核的非生物微蛋白


【背景介紹】

深度學習是機器學習研究中的一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據。深度學習的概念由Hinton等人于2006年提出。基于深信度網(DBN)提出非監督貪心逐層訓練算法,為解決深層結構相關的優化難題帶來希望,隨后提出多層自動編碼器深層結構。在廣闊的化學搜索空間里,僅單憑經驗方法設計功能性大分子還面臨巨大挑戰。機器學習可以通過彌合實驗訓練數據點之間的差距,在高維搜索空間中實現插值。最近的研究表明,使用各種輸入表征和定量活性預測設計新的抗菌肽和抗體CDR3環是有前景的。對于細胞穿透肽(CPPs),涉及二元分類器的類似策略已用于優化活性。通過使用大型標準化數據集和高級輸入表示法結合深度學習來進一步解決這一挑戰,同時設計新的功能性微蛋白并定量預測它們的活性。成功設計功能性聚合物對醫學具有重大意義。例如,CPPs是短(5-20個殘基)序列,可以增強生物分子(如寡核苷酸和蛋白質)的細胞內傳遞,否則無法有效穿過細胞膜。但是,實驗設計的變化導致了不一致的數據集,有時甚至是相互矛盾的數據集,從而妨礙了序列-活動關系的發展,并使得利用機器學習模型從頭設計類似物變得復雜。雖然通過全新設計的非生物微蛋白克服了這些挑戰,該蛋白將活性物質反義磷酸二酰胺嗎啉寡聚物(PMO)輸送到細胞核,但是主要的挑戰仍然是細胞通透性差。

【成果簡介】

近日,美國麻省理工學院Bradley L. Pentelute和Rafael Gómez-Bombarelli(共同通訊作者)等人報道了機器學習如何使非生物核靶向微蛋白的從頭設計能夠將反義寡聚體輸送到細胞核。作者將高通量實驗與定向進化啟發的深度學習方法相結合,其中自然和非自然殘基的分子結構表示為拓撲指紋。該模型能夠預測訓練數據集之外的活動,同時破譯和可視化序列活動預測。預測的小蛋白,稱為Mach,平均質量達到10 kDa,比細胞中任何已知的變體都更有效,并且還可以將蛋白質輸送到細胞質中。Mach微蛋白無毒,能在小鼠體內有效地傳遞反義物質。這些結果表明,深度學習可以破譯設計原理,產生高度活躍的生物分子,而這些分子不太可能被經驗方法發現。研究成果以題為“Deep learning to design nuclear-targeting abiotic miniproteins”發布在國際著名期刊Nature Chemistry上。

【圖文解讀】

圖一、基于定向進化的機器學習模型預測用于大分子傳遞的高活性非生物微蛋白
(a)使用非生物肽模塊的線性組合合成了一個600-membered的PMO-小蛋白偶聯物模塊化文庫;

(b)使用定量熒光讀數用于核遞送的標準化體外定量活性測定測試;

(c)模塊化文庫的Members展示了廣譜的活性;

(d)序列被編碼成指紋矩陣,用實驗活動標記,并用于訓練機器學習模型;

(e)比較文中設計的肽的歸一化活性(Mach)與模塊化文庫中的肽和使用相同測定測試的已知CPPs的活性。

圖二、基于機器學習的生成器-預測器-優化器循環預測核靶向非生物微蛋白
(a)每個氨基酸殘基為一個獨特的指紋,構建為位向量,編碼殘基中191個可能存在或不存在的亞結構;

(b)序列表示為堆疊在行矩陣中的殘留指紋;

(c)比較保持測試集和新馬赫序列的預測和實驗活動值,展示機器學習模型的性能;

(d-e)在預測的馬赫肽中,有12個合成并在相同的活性測定中進行測試,并與相對電荷和Arg含量相關的模塊庫進行比較。

圖三、預測器CNN的解釋揭示了激活的子結構
(a)Mach3的輸入序列表示計算CNN正激活梯度圖;

(b)Ahx在Mach3中的激活梯度圖表明該殘基的激活亞結構;

(c)長度為35、40、45和50的預測序列的梯度圖顯示為相對于殘基位置;

(d)顯示了每種類型的殘基相對于長度為35、40、45和50的預測序列的百分比組成;

(e)長度為35、40、45和50的預測序列的梯度圖相對于子結構指紋顯示;

(f)在所有序列長度上始終被激活的幾個殘基和亞結構,其中包括Lys的胺側鏈、Ser的極性側鏈和Asp的羧酸側鏈。

圖四、Mach小蛋白在體內外都具有高度活性,并將其他生物大分子傳遞到細胞質中
(a-c)顯示的是對應于EGFP測定中的活性和PMO-Mach3、4和7的LDH測定中的毒性的劑量-反應曲線;

(d)對于EGFP分析,n=3個不同的樣本,而LDH分析的平均值,n=2個不同的樣本;

(e)比較野生型和無活性突變體DTA和DTA(E148S)單獨或與Mach3或7偶聯的毒性;

(f)共聚焦顯微照片顯示了HeLa細胞中EGFP、Mach3-EGFP或Mach7-EGFP在10 μM孵育3 h后產生的綠色熒光;

(g-i)用PMO-Mach治療后,EGFP轉基因小鼠中的EGFP合成:股四頭肌、膈肌和心臟中的劑量反應EGFP蛋白水平。

【小結】

綜上所述,該策略說明了如何將深度學習應用于功能性非生物微蛋白的從頭設計。Mach微蛋白是迄今為止開發的最有效的PMO傳遞結構,并且在動物中有效。本文中的機器學習框架可能被重新調整用途,以發現具有其他所需活動的序列優化肽,只需要一個標準化的高質量輸入數據集。作者設想,這一戰略將使未來快速設計新功能肽,對化學、生物和材料科學產生影響。

文獻鏈接:Deep learning to design nuclear-targeting abiotic miniproteins. Nature Chemistry, 2021, DOI: 10.1038/s41557-021-00766-3.

本文由CQR編譯。

歡迎大家到材料人宣傳科技成果并對文獻進行深入解讀,投稿郵箱:tougao@cailiaoren.com.

投稿以及內容合作可加編輯微信:cailiaokefu.

分享到