告別無用的實驗 —— 機器學習又提供了哪些經典思想?
隨著計算機技術的發展,數字建模和機器學習為材料科學研究開辟了新的道路。在過去,傳統研究材料性質的方法通常通過表征儀器對材料的結構組成或者反應過程進行分析,再通過數學運算建立模型。隨著大數據和機器學習方法的引入,科學家們不僅可以通過大量已有的實驗數據自動生成數學模型,發現很多被忽略的或者潛在的聯系,還可以對未知反應和材料表現加以預測,從而大大減小了實驗成本。不僅如此,科學家們還能夠通過計算機技術對材料進行定向修飾以滿足特殊的運用環境,制造出新型特種材料。在這篇推文中,我會介紹一些機器學習和大數據對一些材料及其性質的研究成果,為廣大有興趣做交叉學科研究的同學提供新思路。
1.利用大數據建模預測離子溶液黏度
近年來,隨著機器學習技術的發展和越來越多的數據庫的建立,科學家們在利用計算機模擬和設計新材料方面取得了很多可喜的成果。在材料科學領域,液體材料被廣泛的運用。其中離子溶液作為新興溶劑更為重要。例如,在氧化還原液流電池中,溶劑的粘稠度通過影響總能量密度對電池的效率直接相關。但是有趣的是能量密度和黏度又呈負相關。因此,利用機器學習對黏度進行精確預測和計算有很高的運用價值。與晶體材料相比,因為液體材料的性質很容易受到其熱力學狀態的影響,現階段對于液體材料數字模型的建立還不成熟。
來自美國華盛頓大學的Jim?Pfaendtner教授和他的團隊使用ILThermo數據庫和PyChem,SciKit-Learn與RDKit工具包對離子溶液進行了建模和模擬,并發表了題為“Statistical models are able to predict ionic liquid viscosity across a wide range of chemical functionalities and experimental conditions”的研究成果。該研究中,他們使用了來自美國國家標準與技術研究院的約700個數據點并利用RDKit提取了近1200個生化特征訓練類人類神經網絡(ANN),通過在一系列不同的溫度(273.15-373.15K)和壓強(60-160 kPa)狀況下對黏度進行測試以得到通用性的模型。從近1200個特征空間開始,小組成員們使用參數化最小絕對收縮選擇算子(LASSO)和Bootstrap建立了置信區間,并最終輸出了包含11個特征的神經網絡模型(具體11個特征可參考圖1,具體細節可參考原文,本文不詳述)。實驗成果表示包含該11個特征的神經網絡模型在較寬范圍的溫度,壓強和粘稠度條件下可以準確的運行。這一成果大大提高了離子液體的檢索效率。在未來,使用者可以使用訓練完成的神經模型來搜索具有所需要屬性的離子液體。
值得一提的是,即使預先對離子液體數據加以分類再訓練輸出神經網絡模型,該模型依然具有較高的準確性。除此之外,由于模型特征不包含離子間相互作用參數,因此實驗模型不需要重新訓練和對新的陰陽離子對進行評估。而重新訓練和重新評估新的陰陽離子對是其他黏度模型中典型的設計缺陷。
圖1?通過LASSO模型訓練并選擇出來的11個最重要的影響因素及它們的置信區間?[1]
??
2.利用機器學習預測多肽自組裝,設計定制水凝膠
多肽是一種通過肽鍵將氨基酸連接在一起的化合物。通過利用氫鍵,π-π鍵堆積等非共價鍵作用,又可以自組裝形成結構特異性的多肽分子聚集體。多肽分子具有良好的生物兼容性和降解性,因此自組裝多肽在生物工程和藥物釋放方面有巨大的運用潛力。多肽分子的一個重要作用在于合成多肽分子水凝膠。其可用于藥物釋放,傷口愈合和細胞培養領域。自組裝的多肽水凝膠不僅能夠構建三維多孔納米支架結構,模仿天然細胞外基質結構,為細胞生長提供支持,而且自組裝多肽水凝膠由于通過氨基酸序列組成,特定序列排布使得分子具有更多的特異性和功能性。然而,擺在科學家面前的一個重要挑戰是如何理解水凝膠的結構與其性能表現從而合理設計不同功能的水凝膠。機器學習和人工智能為科學家們提供了一個很有效的解決方案。
機器學習或深度學習通常被運用在能源和無機材料領域。即使是在醫學領域,其更多的運用場景是病理學。瑞典卡羅林斯卡醫學院的李林鮮教授和他的團隊利用機器學習整合了有機生物材料的化學性質和自組裝行為,預測了水凝膠的形成可行性及其二維化學結構,并發表了題為“Design of self-assembly dipeptide hydrogels and machine learning via their chemical features”的研究成果 [2]. 該小組搭建了化學特征數據庫并利用機器學習探究其對水凝膠形成的影響。在這項研究中,小組使用了2304種多肽結構以及總計約7,100,000影響參數訓練模型。在實驗中,他們分別使用了線性邏輯算法(如邏輯回歸)和非線性邏輯算法(如神經網絡)建立模型。實驗結果表示,random forest, gradient boosting 和?logistic regression有最好的預測結果。利用三種機器學習方法,他們選擇出了20個影響效果最大的描述符。而其中,Fmoc-amino acid,SpMax1_Bhi和SpMin1_Bhi對水凝膠的合成影響最大。
除了水凝膠的設計與合成,其由多種官能團表現出的機械性能也至關重要。水凝膠的機械性能直接影響其受控藥物釋放行為。李教授小組利用機器學習方法,研究了水凝膠材料的流變性質。研究過程中發現,不同的化學結構表現出不同的流變性質。通過比較不同水凝膠材料的振蕩剪切模量的儲值和損失,他們證實了具有多種官能團的肽分子會導致流變行為的差異。研究成果還表明,利用組合的方式,我們可以獲得具有不同流變行為的水凝膠材料,這在干細胞研究中具有潛在的運用。除此之外,由于水凝膠對培養中的細胞增殖的支持作用,其證明了水凝膠的生物兼容性。李教授小組開發出來的利用機器學習將化學結構與其自組裝行為聯系起來的研究策略,大大加速了生物醫學用途的多肽結構設計與合成。
圖2?機器學習數據建模設計?[2]
3.利用機器學習選擇實用型高壓儲氫合金材料
隨著材料科學和統計科學的迅猛發展,大數據挖掘工作已經表明科學家們可以利用計算和實驗數據集合訓練機器學習模型并利用模型創造符合預期要求的特殊材料,即實現所謂的“逆向設計”。例如,有研究小組成果通過對建立的大型數據集進行有限元分析模擬從而設計出具有良好微觀結構和彈性模量的合金材料 [3]。再例如,Ward及其團隊展示了他們的名為Magpie的機器學習平臺。它可以將材料各成分實驗或理論數據集映射到多維空間,對材料性能進行預測?[4]。雖然這些模型的預測結果有效地為科學家們節省了實驗驗證材料性能的時間成本和經濟成本,但是它依然存在一些問題。例如,通過機器學習我們可以推出預算結果,但是無法驗證材料是否是(亞)穩定的晶體結構。除此之外,材料在實際運用方面還需要考慮其生產成本,現有技術的兼容性以及安全問題。這些因素都是決定材料工程研究的關鍵。
Claudio教授和他的團隊運用了一種分層學習法,通過在材料性能預測之前和之后添加一系列技術和經濟約束標準,檢索和選擇符合要求的材料類型。值得一提的是添加經濟和技術約束條件這一舉措有望在科研成果和工程運用之間搭建橋梁。過去的預測手段大多對材料的性能加以預測,而該小組的方法則增加了實用價值。他們研究的材料是高壓儲氫合金材料。氫氣作為未來取代化石能源的潛在備選方案,一個重要的挑戰是如何安全有效將氣體運往加氣站。現階段提出的技術方案都需要將氫氣壓縮到超過500 Bar的壓強從而實現有效的運輸,這對壓縮技術提出了要求和挑戰。考慮到經濟效益和成本,目前市面上所有的機械壓縮機都無法滿足上述要求。因此,擁有更低成本和更高的可靠性的儲氫合金成為了重點研究對象。Claudio團隊使用回歸模型準確的預測了一組來自美國能源部燃料電池技術辦公室的開源材料數據集的焓值并使用機器學習模型選取了一批有潛力運用于儲氫技術的合金材料。該小組采用了Ward等人開發的Magpie代碼搭建機器學習模型。該模型將化合物數據庫轉換成含145個獨立屬性的數據庫(包括電子結構,化學計量數等)。接下來,小組將數據用于訓練常見的機器學習模型,如random tree和類人類神經網絡(ANN),對材料性能進行預測。預測完成后,一共提出了6110種不同的合金。為了進一步縮小合金選擇范圍,小組采用了一系列基于生產技術,經濟因素和預測準確性等限制條件的后期過濾篩選手段,將備選材料數量減少到533種。其實驗篩選結果顯示幾乎所有符合條件的預測化合物都是使用Fe-Mn作為基礎合金的三元或四元合金。研究的最后一步則是驗證材料可以形成穩定的單相合金,固液體或Laves相,并具有吸收氫的能力。據分析,小組選擇Ti-Mn-Fe作為基礎合金,選擇含有Mg,Si和Al的四元合金作為潛在添加劑。隨后,通過對選出的10種材料使用遺傳算法進行結構和相位預測后,Claudio驗證了Ti-Mn-Fe合金系統的穩定性。
通過開創性地引入材料穩定性參數和經濟限制條件,該團隊成功將6000多種候選材料選擇范圍縮小到小于400個。最后,他們使用啟發式新型機器學習方法選擇出Fe-Mn-Ti-X型合金材料作為未來儲氫合金材料的實驗研究方向。
圖3?分層機器學習法示意圖?[5]
4.利用仿人工神經網絡算法(ANN)預測金屬材料氫脆和機械性能衰減現象
由于金屬材料中氫的存在,材料失去了延展性導致機械性能衰退。這一現象我們稱為氫脆。氫可以在制備和生產過程中或使用條件下進入金屬材料,并降低材料的機械性能。氫對金屬材料的機械性能影響還取決于金屬材料中的元素組成。在眾多金屬材料中,鋁合金因為其較低的密度和卓越的性能,被廣泛適用于航天航空,汽車工業和軍事工業中。在一些運用環境下,例如宇宙環境,材料的表現不易于觀察和實驗。盡管很多實驗已經證明鋁合金是氫氣免疫型材料,但是很多研究也證明鋁合金暴露在氣體環境下很容易造成開裂等故障。由于氫擴散導致材料脆化已經成為工業運用的一個主要問題,因此,理解氫脆失能機理并對其進行準確預測避免故障發生尤為重要。目前的研究思路是利用機器學習探究金屬材料及其元素組成和降解的機械性能之間的聯系。
盡管使用人工神經網絡模型對金屬材料性能進行研究和預測已經不是一個很新的課題,但鮮有對加氫領域的研究。Jothi教授和他的團隊使用機器學習模型探究了氫氣的存在對金屬材料機械性能的影響,研究了氫氣充填后不同化學成分的鋁合金拉伸性能的變化。他們從各種相關研究文獻中收集來鋁合金在加氫前后對不同溫度,應變速率和電流密度的拉伸性能數據,利用單層和多層前饋反向傳播算法預測含氫金屬的機械性能,利用多層前饋反向傳播模型用于預測材料的拉伸強度。在這項研究中,輸入參數包含12個節點,其中不同合金元素的化學成分占8個節點,材料處理加工參數(溫度,時間,應變速率和電流密度)占4個節點。對輸入參數(鋁合金化學成分及加工參數)和目標參數(拉伸強度和應變)建立神經網絡(ANN)模型,從而預測帶氫鋁合金的機械強度。
Jothi教授團隊實驗結果表明其團隊成功構建了ANN模型并在輸入和目標參數之間建立牢固的關系。該模型可以準確預測含氫鋁合金的機械性能和衰減情況。其R值證明該模型已做好用于實際運用(如鋁合金的充氫運用)的準備。
圖4?對輸入參數(合金化學成分和加工參數)和目標參數(伸長比例)建模過程圖解 [6]
隨著計算機技術的發展和計算機人才涌現,傳統的研究材料科學的方法和技能已經不足以支撐和適應越來越高的要求和越來越精準的標準。交叉學科的產生和發展將成為材料科學研究發展的必然趨勢。但是相較于其他的科學學科和工程領域,材料科學規模并不是很大。這也就意味著材料科學領域很難吸引很多計算機人才愿意投入努力和時間在材料科學研究領域。但是作為國家安全和國家長期經濟戰略的基礎學科領域,材料科學依舊會保持著常青和活力,利用機器學習研究材料性質也充滿了無限的潛能。可以預見的是在不久的將來,材料科學研究會迎來越來越多的計算機人才和越來越豐富的數據資源以供開發和學習。
參考文獻
[1] Beckner, W.; Mao, C.; Pfaendtner, J. Statistical Models Are Able To Predict Ionic Liquid Viscosity Across A Wide Range Of Chemical Functionalities And Experimental Conditions. Molecular Systems Design & Engineering 2018, 3, 253-263.
[2] Li, F.; Han, J.; Cao, T.; Lam, W.; Fan, B.; Tang, W.; Chen, S.; Fok, K.; Li, L. Design Of Self-Assembly Dipeptide Hydrogels And Machine Learning Via Their Chemical Features. Proceedings of the National Academy of Sciences 2019, 116, 11259-11264.
[3] . C. Yan, D. J. Pochan, Rheological properties of peptide-based hydrogels for biomedical and other applications. Chem. Soc. Rev. 39, 3528–3540 (2010).
[4] P. W. Frederix et al., Exploring the sequence space for (tri-)peptide self-assembly to design and discover new hydrogels. Nat. Chem. 7, 30–37 (2015).
[5] Hattrick-Simpers, J.; Choudhary, K.; Corgnale, C. A Simple Constrained Machine Learning Model For Predicting High-Pressure-Hydrogen-Compressor Materials.?Molecular Systems Design & Engineering?2018,?3, 509-517.
[6] Thankachan, T.; Prakash, K.; David Pleass, C.; Rammasamy, D.; Prabakaran, B.; Jothi, S. Artificial Neural Network To Predict The Degraded Mechanical Properties Of Metallic Materials Due To The Presence Of Hydrogen. International Journal of Hydrogen Energy 2017, 42, 28612-28621.
本文由元同學供稿。
歡迎大家到材料人宣傳科技成果并對文獻進行深入解讀,投稿郵箱: tougao@cailiaoren.com.
投稿以及內容合作可加編輯微信:cailiaorenVIP.
文章評論(0)