無需人類經驗的機器學習 會不會帶來材料科研新方法?


2016年李世石對戰Alphago,是當時機器學習最吸引眼球的大事件。開賽前,很多人認為alphago不可能贏。因為圍棋超過10的170次方種變化,只有人類這么聰明的大腦才能駕馭。結果李世石和柯潔的兩次挑戰紛紛敗北,世上再無人敢說能戰勝AlphaGo。

勝負不是關鍵,文章在背后。跟李世石、柯潔下棋的AlphaGo主要是采用監督學習。AlphaGo首先是拜人類為師,學習了3000萬步人類棋譜,對六段以上職業棋手走棋規律進行模仿。但是,人的經驗畢竟是有局限的。如果讓機器人不受先入為主的經驗影響,會怎么樣呢?

所以全新的AlphaGo則采用了無監督學習。讓兩臺機器在遵守規則的前提下隨機走棋,日夜切磋,總結經驗,不斷批評和自我批評。結果,機器不但自己摸索出開局、收官、定式等以前人類已知的圍棋知識,也摸索出了新的定勢。

據介紹,全新的 AlphaGo zero 3天超過打敗李世石的AlphaGO Lee,21天超過打敗柯潔的AlphaGo Master,自學 40天之后就超過了所有其他的AlphaGo版本。僅憑兩臺機器自我對弈中學習和進化,進化速度遠超人類,實現對人類的碾壓,發展出一套截然不同的下棋方法,并且更加接近完美的狀態。

而就在最近,馬斯克和Sam Altman所創立的人工智能非營利組織OpenAI宣布:其開發的AI能夠組隊在5V5對戰中戰勝Dota2頂尖業余玩家。跟圍棋不一樣的地方在于,Dota2需要大量的實時決策以及隊友之間的團隊默契。5位AI玩家之間的勝利,證明了人工智之間能夠相互配合。

同樣的,此次的OpenAI 5vs5 和之前的1vs1版本全部從隨機參數開始,并不從人類玩家的歷史策略方法中進行搜索或者自舉。據介紹,這些AI機器人經過大量的訓練之后,每天積累的經驗是一個人一生積累經驗的100倍。

如果讓機器也從零開始,自主摸索、學習,在材料&化學領域又會是什么樣子?斯坦福張首晟團隊開發的人工智能程序Atom2Vec就用幾小時重構了人類用了上百年才發現的元素周期表。

Atom2Vec首先通過分析在線數據庫的化合物名稱列表,學會區分不同的原子。然后,借用自然語言處理中的簡單概念:一個詞語的特性是可以從它周圍出現的其他單詞來得出的;把化學元素根據它們所處的化學環境聚類。

同前述兩個例子一樣,Atom2Vec采用的也是無監督學習。也就是說,Atom2Vec沒有借鑒人類經驗,獨立重新發現了元素周期表。

元素周期表已經發現了,Atom2Vec重新發現又有什么用呢?它的意義在于AI是可以獨立重復人類已經完成的一些偉大發現。進一步,如果將來AI獨立發現了人類所沒有發現的規模或者新材料,大家也不會感到奇怪。

當前,材料科學研究被自嘲為“炒菜”,味道淡了加鹽,咸了加水,通過不斷的試錯來發現新材料。而通過機器學習、高通量計算,材料科學家們可以加快試錯的效率,節省人工,進而猜測合成新材料的方式。 不過,這都是基于材料科學家以往的各種數據、理論。假如,人工智能通過無監督學習,自我探索,自己摸索出一些新材料,會不會是另一番新天地?

本文由雨桐供稿,材料人編輯整理。

分享到