Nature綜述:機器學習(ML)—研究分子和材料科學的新型利器
【引言】
薛定諤方程為分子和材料之間提供了強大的結構-性能關系。對于給定的化學元素的空間分布,可以用來描述電子的分布以及廣泛的物理反應。其中,量子力學的發展為化學鍵提供了嚴謹的理論基礎,從而衍生出新的學科——量子化學。計算化學領域在二十一世紀變得越來越具有預測性,其具有廣泛的應用,如用于溫室氣體轉化的催化劑開發、用于捕能和儲能的材料研發以及計算機輔助藥物設計等。現代化學模擬工具包可以在實驗室合成化合物之前就預測出其性質(具有合理的準確度);高通量計算機篩選已經變成一種常態,使科學家有能力去計算成千上萬種化合物的性質,而這只是作為單項研究的一部分;作為一種可以計算固體結構和行為的成熟技術——密度泛函理論(DFT),也已經能夠開發廣泛的數據庫,其可以涵蓋已知和假設系統的計算屬性,包括有機和無機晶體、單分子和金屬合金等。
當代人工智能方法的出現有可能大大改變和提高計算機在科學與工程領域的作用,大數據與人工智能地完美結合已經被稱為是“科學的第四范式”和“第四次工業革命”,其在化學領域的應用正以驚人的速度增長。近幾年已經得到迅速發展的人工智能子領域當屬機器學習,機器學習的核心在于統計算法,其運行過程與研究人員相似,隨著訓練次數的增多而提高自身能力。這種技術適合解決一些涉及到大型組合空間和非線性過程等復雜問題,而這些問題使用傳統技術有的不能解決,有的需要消耗很高的計算成本才能解決。
綜述總覽圖
【成果簡介】
近日,北卡羅來納大學教堂山分校Olexandr Isayev教授和倫敦帝國理工學院Aron Walsh(共同通訊作者)在國際著名期刊Nature上發表題為“Machine learning for molecular and materials science”的綜述文章,文章總結了機器學習用于化學與材料領域的最新進展。文中概述了適用于解決該領域研究問題的機器學習技術,以及在該領域的未來發展方向。同時也設想了一個可以通過人工智能來加速分子和材料的設計、合成、表征和應用的前景。在這篇文章中,研究人員回顧了機器學習的基礎知識,確定了現有方法有望加速研究進程的領域,并且考慮了實現更廣泛的影響所需要的發展方向。
1 機器學習的知識與方法
通過被給定足夠數據和規則發現算法的機器學習,計算機能夠在無人為輸入的條件下識別所有已知的物理定律(有可能是當前還未知的定律)。與傳統計算相比,機器學習方法可以通過評估一部分數據集以及建立一個模型來進行預測,從而學習構成數據集基礎的規則。
1.1 數據收集
機器學習包括從現有(訓練)數據中學習的模型。數據可能需要初始化預處理,在此期間識別和處理丟失或者偽造的元素。識別和移除所出現的錯誤對于避免機器學習算法被誤導至關重要。
1.2 數據表示
即使原始的科學數據是數字類型的,但有的數據所呈現的形式常常會影響學習。例如,在很多光譜中,其信號是在時域內獲取的,但對于解釋其現象時,則需要使用傅里葉變換將其轉換為頻域。這種將原始數據轉換某些更適合于算法的過程被稱為特征化或者特征工程。
1.3 學習者的選擇
當數據集已經被合適地收集或展示時,是時候選擇一個模型去學習它。目前,存在著廣泛的模型類型(學習者)用于模型的建立和預測。監督式的學習模型可以預測離散集(如將材料分為金屬和絕緣體)或連續集(如極化率)內的輸出值。通常,為離散集建立一個模型需要分類,而為連續集建立模型則需要回歸。
2 加速科學方法
不論是通過實驗數據的列舉或分析,還是化學直覺上的編纂,信息學在指導實驗化學家方面的應用正在快速推進。這部分主要介紹機器學習如何有助于減少化學和材料設計、合成、表征和建模等方面的障礙,也介紹了一些人工智能領域的重要進展而對現有文獻進行數據挖掘。
2.1 指導化學合成
有機化學家是最早認識到計算方法有望用于實驗室中的科學家之一。在合成化學路徑中,每一步反應的轉化次數一般都在80到數千之間,相比之下,國際象棋中每個游戲的位置僅有幾十種可能地移動。在化學合成中,需要人類專家來指定特定的條件和上下步的規則,這些規則在給定的步驟中排除了大量可能用到的試劑,限制了可供選擇的算法數量。如果依賴于傳統算法的機器要與專家競爭,那么上下步規則(通常是數千個)就顯得至關重要。
深度學習方法對預測化學合成路徑表現出特殊的應用前景,其通過將基于規則的專家系統和神經網絡相結合的方案來實現這一目的,而該神經網絡是對候選合成路徑的排序或者是通過應用規則對預測產物的可能性進行組合而生成的。此外,也已經提出了一種基于規則合成預測的替代方案——序列-序列法,其基于有機化學家和語言學之間的聯系。
除了目標分子的合成,機器學習模型可以用于評估產物結晶的可能性。通過應用特征選擇技術,已經證明了一個雙參數模型能夠預測所給定的分子是否能夠結晶,其準確度高達80%。關鍵的是,該模型可以獲得超過2000種晶體和非晶體化合物的訓練集。
2.2 輔助多維表征
分子和材料的結構通常是通過各種實驗方法的組合所推斷出來的,例如X射線中子衍射、磁自旋共振和振動光譜等。每種方法都有其特定的靈敏度,而且每種方法的信息都是互補的。不幸的是,很少將所得的數據完全同化為原子結構的統一化描述符。一種解決方案是將實時數據合并到模型中,再將其結果返回到實驗中,形成反饋回路。而機器學習正是代表了一種可以實現合成、成像、理論和模擬等方面協同作用的統一框架。
2.3 加強理論化學
目前,對于成功的研究項目來說,模型通常被認為是與合成和表征同等重要的。使用原子模擬,原則上可以計算出任何化學組成和原子結構的分子和材料的性質。基于DFT方法已經成功的用于預測多種化合物的性質,在合理的成本下可以實現很高的準確度,雖然在其他方面存在不足,但研究人員也在不斷的優化這種方法。
2.4 新型化合物的發現
機器學習可以揭示發現化合物的新方法。將系統描述符與理想性能相結合的模型已經用于揭示以前未知的結構-性能關系。迄今為止,分子和材料化學領域在設計新型化合物方面經歷了不同程度的機器學習方法,其部分原因在于晶體結構和形態等方面仍然有很多挑戰。即使這樣,機器學習仍然已經在預測晶體材料、分子科學等領域得到廣泛的發展。
2.5 回收文獻
機器學習最新進展的最后一個應用領域是利用已經存在的大量知識。盡管科學文獻為研究者提供了豐富的信息,但由于期刊、文章和數據庫的激增也使得導航變得越來越困難。文本挖掘已經成為從非結構化文本源中識別并提取信息的一種非常受歡迎的方法。而由于書面資源的異構性,使得相關信息的自動提取絕非易事。為了解決這一問題,文本挖掘已經發展成為一個將文本處理和機器學習技術相結合的專業領域。
3 機器學習前沿進展
機器學習的進一步突破可以在分子和材料的自動化設計方面取得更大的進步。具體有以下幾個方面:從更小的數據庫中獲得更多的知識、高效的化學表征、量子學習以及建立新原則等。
【圖文導讀】
圖一 計算化學研究工作流程的演化圖
圖二 機器學習方法中出現的錯誤
在訓練新模型(藍線)和構建模型(紅線)的過程中都會出現錯誤,一個簡單的模型可能遭受到高偏差(低度擬合),而一個復雜的模型可能遭受到高方差(過度擬合),這就導致偏差-方差的均衡
圖三 生成對抗網絡(GAN)的分子發現法
兩個模型(一個生成器、一個鑒別器)發揮著持續的“游戲”
【小結】
隨著科學家們在其研究項目中采用統計學所驅動設計的機器學習,應用機器學習的報道數量正在以驚人的速度增加。這種由開源工具和數據分享平臺所支持的新一代計算科學有望革新分子和材料的開發。
文獻連接:Machine learning for molecular and materials science(Nature, 2018, DOI: 10.1038/s41586-018-0337-2)
本文由材料人編輯部計算材料組杜成江編譯供稿,材料牛整理編輯。
歡迎大家到材料人宣傳科技成果并對文獻進行深入解讀,投稿郵箱tougao@cailiaoren.com.
投稿以及內容合作可加編輯微信:cailiaokefu.
文章評論(0)