失敗的科研數據無用?人工智能并不覺得!


0EABDF32-8133-4A8A-A611936E813E202D

相比于失敗,人們更傾向于強調成功。所謂失敗是成功之母,那也是人們在成功之后,才向人提起那一次次失敗,佐證成功的來之不易。

在材料研究領域,也不喜歡談及失敗,盡管大多數實驗都是失敗的。在大大小小的期刊上、專利中以及各式各樣的行業會議,人們發表和討論的是成功的實驗數據和研究結果。因此,那些失敗的實驗數據,要么被刪除,要么被遺忘在實驗記錄本上,最終被丟棄,成為一種垃圾。但賓夕法尼亞的Haverford(哈弗福德)學院研究團隊利用機器學習,或許可以讓失敗的科研數據變廢為寶,從而讓新材料研究成功率更高。

實驗化學家亞歷山大Norquist介紹,“我們要做的是盡可能地從大量失敗的、沒有被報道的化學反應中獲取信息。”為實現這一目標,研究團隊收集這些失敗或“沒有前景的”反應,創建了機器學習模型。相對人類而言,這個模型能更精確地預測成功的新化學反應。

首先,他們構建了一個數據庫。這個數據庫包括Norquist的實驗室過去十年所做的近4000個化學反應(其中許多已經失敗,并沒有被數字化保存下來)。這些信息主要是一種由釩、硒、氧和有機成份組成的名為模板化釩亞硒酸的新材料的合成。然后,他們創建了一個機器學習算法,這種算法可以從那些數據中推導,確定實驗的成敗因素。如Norquist那樣的科學家多年來已經形成了的關于決定晶體合成成敗的條件-溫度、數量和反應物比例、酸堿性以及許多其他因素的直覺。“但我們的直覺永遠是不完整的,”Norquist說,“反應之間的差別不會顯而易見。”

既而,他們開始嘗試機器學習:設置給每一個反應300種狀態,然后使用一個可以分析高維度數據的輔助向量機,預測哪些是反應物新組合的必要條件,然后再在實驗室中進行測試。與研究人員78%的預測成功率相比,該算法預測形成晶體的條件的成功率為89%。

因為決定算法的原因并不總是很清楚,在考慮了大量的數據之后,研究人員又回到模型本身,生成類似于流程圖的結構。這種結構列出了一系列選擇之后的結果。這種更容易用于解釋說明的方法,可以讓科學家獲得新的見解,進而提出新的假設。

例如,基于自己的實驗室經驗,他們不會預料到極化率在某種程度上對于實驗是很重要的。他們最終提出反應物的三個不同假設。一類反應包含需要在一個特定的氧化釩的存在狀態的特定有機物。當極化率較低時,研究人員意識到他們不得不把注意力轉向其他反應物的行為上,即鈉。而對于特別大的有機成分,電荷密度發揮了至關重要的作用。計算機科學家、另一位主要的研究工作者Sorelle fiedl說,“真正的新奇在于這是一種點對點的傳遞途徑。綜合考慮以往被視為失敗、不重要的反應及的信息,并將它們與機器學習相連,然后測試機器學習的結果以生成新假設”。

這個發現正當在材料的研究變得越來越重要的時機。為了加快新材料的發現與投放市場,白宮在2011年成立了材料基因組計劃。

通過優化已知材料和新材料的合成過程,Haverford團隊的機器學習方法可幫助科學家們讓這個搜索更加有針對性。圣芭芭拉的加州大學的材料研究員Ram瑟哈德里說,“材料是我們能想到的每一個科技進步的核心,我現在正在用的手機里的鋰電池就有先進材料,這種材料就由這篇文章中所說的化學合成精確制得。”

手機并不是這樣的材料唯一的潛在應用。這項研究還可用于指導很多材料的制備過程,如更好的洗發水和防曬乳液,新的藥物和更高效的太陽能電池板。

此外,研究人員希望他們的機器學習方法可應用在其他領域,不僅是化學。這個團隊已經在網上公布了其反應數據庫,以便其他科學家可以貢獻自己的數據。Friedler說:“我們非常希望與其他實驗室合作。”這些數據的獲得,尤其是失敗的實驗數據,將促使他們做出新的發現并改進算法。另外,哈佛大學化學與化學生物學教授Alan Aspuru-Guzik說,“大數據時代下,我們需要從失敗的實驗中汲取成功的元素。”

“通常促進科學進步的不是數據,而是需求。這項工作表明,有時候你必須跳出需求的思維,用數據來促進發展”瑟哈德里補充道,“令人意想不到的是,數據驅動發展的方法能指導對實驗偶然性的更好的理解。所以,這個團隊所使用的辦法,我們將在以后不可避免地使用到。”

論文下載地址:Machine-learning-assisted materials discovery using failed experiments

材料人組建了材料人材料計算交流QQ群,歡迎從事材料計算的材料人們加入!QQ群號:562663183。

實習生周歡、材料牛編輯整理。

分享到