Nature:大數據下,不對稱催化中對映選擇性的預測
作者介紹:
Matthew S. Sigman是美國有機化學家,師承E. N. Jacobsen,現為猶他大學教授。
經歷:
1992索諾馬州立大學(California)B. S.(Michael E. Wright教授),1996 華盛頓州立大學 Ph. D(Bruce E. Eaton教授),1996-1999 哈佛大學 博士研究員 (E. N. Jacobsen教授),1999-2004 猶他大學 助教,2004-2008 猶他大學 副教授,2008-現在猶他大學 教授,2009-2010 猶他大學 Huntsman Cancer Institute 客座教授。
研究概要:
1. Pd催化烯烴不對稱官能團化[1]
2. 多維模擬優化對映選擇性的催化劑和配體設計(物理有機化學)[2]
3. 電催化與氧化還原液流電池(Redox Flow Batteries)[3]
如果感興趣,大家可以去看一下,鏈接已在文后附上。
接下來,我們就介紹今天的重頭戲,大數據對于不對稱合成的幫助!!!
眾所周知,我們生活在一個被大數據包圍的時代,貌似很多事情都可以通過大數據來分析和指導,那么,在非對稱合成中,大數據是否也能對我們的合成有一定的指導作用呢?
選擇性是化學合成的關鍵。如果合成反應不是選擇性的,它便不能提供所需產物的良好產率,并且還需要繁瑣的純化過程。因此,化學家們一直在尋找預測化學反應選擇性的方法。可以構建計算模型,但是它們的開發是費力的,并且它們通常特定于特定的反應類型。近期,Reid和Sigman表明,選擇性模型可以半自動方式構建,并在一系列反應中進行推廣。
催化過程的效果取決于可能的過渡態,其核心的特征在于非共價相互作用決定了它們的幾何形狀和能量。 這種相互作用通常難以識別和定義,因為它們在能量上很弱并且對每種反應組分(催化劑,底物,試劑,溶劑等)的分子性質都很敏感。然而,很多反應機理中的異常值可能隱藏在較大的數據集中,因為當反應情況發生變化時,我們的模式識別技能不會感知關鍵的一般性。
在這里,我們開發了一個工作流程,對350多種不同反應組合的所有反應變量進行參數化,從而可以開發全面的統計模型,進而能夠預測完全不同結構基序的反應性能。
所以我們提出了幾個問題:
(1)是否一個機理可以應用到同一個子系列的反應中?
(2)如何將數據采集和數學描述相結合的數據驅動工作流程用于建立多種多重反應譜的統計模型?
(3)可以觀察一個或多個反應條件來預測另一個反應的表現嗎?
為了解決這種相關性挑戰,我們設想了一種對映選擇性催化的策略,包括應用現代數據分析方法和先進的參數集。 在這種方法中,結合了描述集-定量結構-活動關系(QSAR),分子機理(MM)和密度泛函理論(DFT)。通過結合適當的數據組織和趨勢分析技術,可以建立反應之間的一般關系。 統計模型預測新反應類型性能的能力被用作機理可轉移性的驗證。
反應平臺的選擇
圖1.?機理可轉移性的流程圖
a. ?機理可轉移性。基于BINOL的磷酸催化亞胺的親核加成作為工作流程開發的一般反應。
b. ?預測工作流程。通過采用將所有反應變量與對映選擇性相關聯,實現機理轉移性策略來簡化反應性能預測。可以建立一般相關性以揭示相關過渡態中的任何反應組分與對映選擇性之間的相互作用。導致統計模型捕獲的對映選擇性催化的機理原理可以轉移到訓練數據集中未包含的真正不同的結構基序。Σ表示所考慮的描述符類別的總和。
對于特定分子子集缺乏結構共性會在識別每個成分的,理解和廣泛的參數集方面產生挑戰。為了解決這個限制,我們探索了兩種方法:
(1)我們收集了來自DFT計算的參數,這些參數令人滿意地描述了包含常見結構特征的分子,包括Sterimol參數,鍵長,角度測量,分子振動和強度,自然鍵軌道(NBO)電荷,極化率,最高占據分子軌道(HOMO) 最低的未占分子軌道(LUMO)能量。 我們收集了反應配偶體和催化劑的這些參數。
(2)我們使用二維描述符(例如拓撲和連接性,例如分子形狀,大小和雜原子數),因為這是評估結構上不同分子(如溶劑)的傳統方法。 其他反應變量,例如試劑或催化劑的濃度和分子篩的包含物也包括在分類描述符中。
綜合模型開發
然后將線性回歸算法應用于整個數據集(367個反應),以確定由工作流程的前一步驟中收集的參數定義的每個反應變量的分子結構與實驗確定的對映選擇性之間的相關性。
圖 2.?綜合模型開發
a. ?通過每個反應變量的參數化促進包含367個數據條目的綜合回歸模型。'sol'是溶劑,'NBON'和'NBOC'是亞胺天然鍵軌道參數,Ls是最小亞胺取代基的立體描述符,'H-X-CNu'是親核角度測量,Lcat是催化劑2-取代基的長度。正電性百分比對映體過量(%e。)值表示E-亞胺過渡態,負電性百分比對映體過量值表示Z-亞胺過渡態。 該線是擬合的,y = 0.88x + 0.05。 留一法(LOO)交叉驗證得分為0.87; 平均k倍(此處為4倍)交叉驗證得分為0.87; 適合度R2的優劣為0.88; 預測的R2為0.87。
b. ?通過留一反應(LORO)分析測試數據集中的機理可轉移性。 不同的反應(由各個出版物確定)被定義為驗證集。該線是擬合的,y = 0.84x + 0.12。R2是84; 使用LORO預測的R2(這里省略了七個反應)是0.85。
耦合到模型和驗證策略的描述符定義確實證明了模式可以匹配。這與一組確定的關鍵非共價相互作用在一般反應類型中賦予不對稱誘導的假設是一致的。從本質上講,這個工作流程提供的證據表明,一種反應可用于定量地預測另一種反應的結果。
趨勢分析
雖然圖2中的綜合模型展現了所選參數來描述該系統的一般性的能力,但我們工作流程的最終目標是識別微妙的潛在機制現象。
圖 3. 重點關聯性的開發
a. ?回歸E-imine模型包含來自9個文獻資料的數據挖掘的204個條目。 'CI'和'PEOE5'是溶劑描述符,'B5PG'和Ll是亞胺空間描述符,LUMO是描述親核試劑的最低未占分子軌道能量,Lcat是催化劑2-取代基的長度,'iPOas'是 P-O不對稱拉伸強度和'AREA'是一個偏遠的環境角度。該線是擬合的,y = 0.80x + 0.35。LOO交叉驗證得分為76; 平均k倍(此處為4倍)交叉驗證得分為0.74; R2是0.80; 預測的R2為0.73。
b. ?解讀E-imine模型術語。該模型強調了空間和電子因素的重要性。合理的大催化劑和亞胺取代基導致高水平的對映選擇性; 如果這兩個組分匹配,任何親核試劑應該是相容的。
c. ?回歸Z-亞胺模型包含來自八個文獻資料的數據挖掘的147個條目。'NBOH'和'NBOPG'是亞胺天然鍵軌道參數; Ls是最小亞胺取代基的立體描述符; 'B5Nu'是親核體空間描述符,'B1cat'是Sterimol B1術語。 該線是擬合的,y = 0.83x - 0.24。LOO交叉驗證得分為80; 平均k倍(此處為4倍)交叉驗證得分為0.79; R2是0.83; 預測的R2為0.80。
d. ?解釋Z-亞胺模型術語。描述催化劑和亞胺的重疊空間術語強化了兩種幾何亞胺立體異構體內保持類似相互作用的觀點。然而,該模型強調了主要來自親核試劑的空間貢獻對于高對映選擇性的重要性。
評估預測能力
作為工作流程的最后一步,我們評估了將統計模型捕獲的對映選擇性催化的機理轉移到訓練數據集中未包含的真正不同的結構基序的能力。
圖 4. 使用雙層預測工作流程進行樣本外預測。
綜合模型首先確定E或Z過渡狀態,然后使用配置特定模型來細化預測。如果反應通過E或Z過渡態進行并且由(R)-CPA催化,則通用胺產物表示預測的立體化學結果。如果使用(S)-CPA,則產物立體化學反轉。
a. ?樣本外預測。在烯酰基亞胺中加入氨基甲酸酯和轉移炔基酮亞胺的加氫反應的應用。 DCM,二氯甲烷;,室溫(25°C)。
b. ?樣本外預測和外推。在芳環的2,4,6位具有環己基的TCYP的預測是用于將硫醇加成到苯甲酰亞胺的高選擇性催化劑。
總的來說,通過結果從樣本外預測平臺生成的結果,我們可以得出結論,E和Z聚焦的相關性產生更準確的預測,但綜合模型是有價值的,因為它確定應該使用哪個方程。
結論:?
該作者介紹了一種工作流程,用于模擬各種催化體系中的對映選擇性。該方法的價值在于可以考慮復雜的反應條件并成功評估多種不同的反應。使用涵蓋許多反應的單一模型來關聯和預測對映選擇性的能力表明,一般過渡態特征在整個反應范圍內基本相似,允許將觀察到的反應條件從一個反應轉移到另一個反應。該發現表明在不對稱催化中可能的一般現象,由此可以發現當暴露于類似的反應條件時,各種轉化以相同的方式進行。通過機制特定相關性的發展,可以揭示這種反應相似性和反應特定機制原理。
推薦理由:
?預測反應選擇性的計算模型通常僅對特定反應類型和較窄范圍的反應組分是準確的。選擇性是化學合成的關鍵。如果合成反應不是選擇性的,它不能提供所需產物的良好產率,并且需要繁瑣的純化過程。 因此,化學家們一直在尋找預測化學反應選擇性的方法。構建計算模型是可行的,但是它們的開發是費力的,并且它們通常僅限定于特定的反應類型。而Matthew S. Sigman教授課題組報道了一種更加通用的計算模型,這對未來合成反應選擇性的預測做出了非常重要的貢獻。
參考文獻:
1. DeLuca, R. J.; Stokes, B. J.; Sigman, M. S.?Pure Appl. Chem.?2014,?86, 395.?
2. Sigman, M. S.; Harper, K. C.; Bess, E. N.; Milo,? Chem. Res.2016,?49, 1292.
3. Hickey, D. P.; Minteer, S. D.; Sigman, M. S. Am. Chem. Soc. 2015,?137, 16179.
文獻鏈接:https://www.nature.com/articles/s41586-019-1384-z
本文由Lion供稿。
歡迎大家到材料人宣傳科技成果并對文獻進行深入解讀,投稿郵箱: tougao@cailiaoren.com.
投稿以及內容合作可加編輯微信:cailiaorenVIP.
文章評論(0)