最新Science:機器學習預測pd催化C-N偶聯的底物自適應條件


一、【導讀】

碳氮(C-N) 偶聯的戰略價值使其成為化工企業許多領域的重要變革。特別是,Buchwald-Hartwig (B-H)偶聯是最重要的C-N成鍵反應之一,并徹底改變了現代合成有機化學的實踐。在反應過程中,鈀配合物催化(雜)芳基親電試劑與各種氮親核試劑的交叉偶聯。實驗人員通常需要確定新的B-H偶聯的基材特定條件,而參與這一轉變的親電試劑和親核試劑范圍廣泛,需要開發許多催化劑和條件,才能使不同的反應分子成功偶聯。選擇合適的鈀配體尤為重要,因為B-H偶聯對配體結構的變化異常敏感。機器學習方法在加速識別化學轉化的反應條件方面具有很大的潛力,通過機器學習構建碳氮偶聯實驗數據集可實現pd催化C-N偶聯的底物自適應條件的預測。

二、【成果掠影】

近期,美國伊利諾伊大學厄巴納-香檳分校的Scott E. Denmark教授以及瑞士巴塞爾合成分子技術開發過程化學和催化制藥部的Raphael?Bigler和Serena?Fantasia等人提出了一種工具,給出了鈀(Pd)催化碳氮(C-N)偶聯的底物自適應條件預測。該工具的設計和構建需要生成一個實驗數據集,該數據集可以在一系列反應條件下探索不同的反應物配對網絡。通過系統的實驗設計過程,利用神經網絡模型主動學習大范圍的碳氮偶聯。模型在實驗驗證中表現出良好的性能:從一系列與樣品外反應物的偶聯中分離出10個產品,產率超過85%。重要的是,隨著數據量的增長,所開發的工作流程不斷提高工具的預測能力。相關研究成果以“A machine-learning tool to predict substrate-adaptive conditions for Pd-catalyzed C–N couplings”為題發表在國際著名期刊Science上。

三、【核心創新點】

設計的機器學習模型可以使用隨機分割的數據以9%的平均絕對誤差實現pd催化C-N偶聯反應的產率預測。隨著數據量的增長,機器學習工具的預測能力越強。

四、【數據概覽】

圖1該項工作的目標是確定在沒有實驗活動的情況下為新偶聯反應提供有用的產率。?2023 Science

圖2定義基質自適應模型,并將其與機器學習輔助優化模型進行比較。?2023 Science

圖3本研究中使用的B-H偶聯反應中氮親核試劑的代表性范圍,并與其他已驗證的B-H偶聯的機器學習研究進行比較。選擇過程:(a)策劃一個具有代表性的范圍, (b)使用本工作中開發的新化學描述符的算法對它們進行聚類。所示的結構是已確定的八個集群中的一些示例。?2023 Science

圖4新的、實驗驅動的、主動學習的工作流程用于探索反應空間。?2023 Science

圖5 B-H反應空間反應物組分的可視化。(A)分布在二維網格中的反應物簇的數據集。(B)結構圖,顯示了數據集中采樣的反應物對的網絡連通性。每個集群顯示一個示例。?2023 Science

圖6底物自適應模型作為條件推薦的實驗驗證。所有產品的樣品外(紅色)和樣品內(藍色)反應物片段都有標示。圓形圖標表示測試的預測命中次數;綠色表示成功,紅色表示失敗。最高分離產率在圓形圖標下面表示。預測熱圖共享化合物m的圖例。刻度表示每種偶聯(中間數字)和顏色刻度的最高產率預測。?2023 Science

五、【成果啟示】

本文描述的數據集包括大于120對的反應物,系統地探索了B-H偶聯空間的微觀世界。在這些數據上訓練的模型同時學習了許多不同種類的反應物的非線性反應性趨勢。這些模型可以使用隨機分割的數據以9%的平均絕對誤差預測反應的產率,并且在反應物泛化方面表現出色,正如樣品外底物驗證所證明的那樣。實現這一目標的關鍵是一種信息學指導的策略,該策略將探索45萬分子反應空間的實驗不可能性降低到獲取僅包含3300個實驗的數據集的實驗可處理的問題。本文提出了這個經過驗證的pd催化C-N偶聯工具,以及一個主動學習工作流程,與之前的工作不同,它被用來為化學社區建立一個擴展的數據集。化學界可以在四個不同的層面上參與這項工作。對機器學習不感興趣的實驗人員可以在沒有機器學習或編程專業知識的情況下使用本工作中提供的工具快照,并期望性能與實驗驗證相符。該項工作邀請任何對機器學習感興趣的從業者使用該工具并恢復圖4中的工作流程,將該工具磨練到新反應物領域或穩步提高現有數據集領域的預測精度。此外,該項工作也邀請任何具有機器學習專業知識的從業者將新的主動學習框架用于具有擴展多反應物空間的其他重要反應。

 

原文鏈接:https://www.science.org/doi/full/10.1126/science.adg2114

本文由小藝撰稿

分享到