【據(jù)美國能源部勞倫斯伯克利國家實驗室網(wǎng)站2019年7月3日報道】眾所周知,機器學習算法訓練的電腦可以進行大師級的國際象棋對弈,但它是否可以拿來做科學發(fā)現(xiàn)嗎?美國能源部勞倫斯伯克利國家實驗室的研究人員通過驗證證實,沒有經(jīng)過材料科研訓練的算法可以僅通過瀏覽數(shù)百萬篇論文的文字即可發(fā)現(xiàn)材料學中的新知識。
由勞倫斯伯克利實驗室能源存儲及分布式資源研究部的科學家Anubhav Jain領導的團隊收集了330萬份已發(fā)表的材料科學專業(yè)論文的摘要,并將其輸入一個名為Word2vec的算法中。通過分析單詞之間的關系,該算法能夠提前若干年預測發(fā)現(xiàn)新的熱電材料,并能夠提出建議將尚未被人們熟知的材料作為熱電材料的候選。
Jain表示,在沒有告知任何有關材料科學專業(yè)知識的前提下,該算法就學會了元素周期表和金屬晶體結(jié)構等相關概念。這顯示出了該技術擁有的潛力。研究人員認為,這項技術所帶來的最有前景的應用是,人們可以使用這種算法在材料研究中嘗試填補尚未解決的缺陷或空白,這是科研工作理應做到但到目前為止尚未開展研究的東西。”
這項研究成果發(fā)表在7月3日刊發(fā)的《自然》雜志上,論文題目為《無指導詞匯捕獲算法嵌入材料科學文獻中獲取未知知識》,該研究的主要作者為勞倫斯伯克利實驗室博士后研究員Vahe Tshitoyan,現(xiàn)為谷歌公司工作。伯克利實驗室的科學家Anubhav Jain,Kristin Persson和Gerbrand Ceder也共同領導參與了這項研究。
聯(lián)合作者之一、加州大學伯克利分校材料科學與工程系教授Ceder表示,這項研究表明,通過對科學文獻的文本挖掘可以發(fā)現(xiàn)隱藏的新知識,純文本學習和提取可以建立基本的科學知識。
勞倫斯伯克利實驗室的研究人員發(fā)現(xiàn),通過挖掘材料科學文獻的摘要,可能會發(fā)現(xiàn)新型熱電材料。
此項研究的主要作者Tshitoyan表示,開展這項研究的主要動機是因為目前的科研工作者難以有效率的、大面積的閱讀和理解如此數(shù)量龐大的文獻資料。幾乎每個研究領域都有超過百年研究歷史的文獻資料,同時每周又會產(chǎn)生數(shù)十項新的研究成果,但大部分研究人員只會閱讀和獲取其中的一小部分。機器學習是否可以做一些事情,在不需要科研人員輔助指導的情況下,匯集這些信息并挖掘其中有用的知識。
“王-女王+男人=?”
為了完成這項研究,該團隊檢索了1922年至2018年間在1000多種專業(yè)期刊上發(fā)表的相關論文,并收集了約330萬篇摘要。Word2vec算法在這些摘要中共采集了約50萬個不同的單詞,并將每個單詞轉(zhuǎn)換為200維向量,或200個數(shù)字陣列。
Jain表示,這項工作中最重要不是每個數(shù)字,而是通過數(shù)字發(fā)掘單詞之間的相互關聯(lián)性。他領導一個小組,致力于利用混合理論、計算和數(shù)據(jù)挖掘等方式,發(fā)現(xiàn)和設計能源應用方面的新材料。“例如,可以使用數(shù)學中標準向量的計算規(guī)則進行向量減法運算。很多研究工作已經(jīng)證明,如果利用非科學文獻資源訓練一種算法,并以“王減女王”這種關系產(chǎn)生向量,你會得到一類與“男人減去女人”相同的運算結(jié)果。算法會在你沒有告訴任何事情的情況下自動找出這種關系。”
與之類似,當你利用材料科學文獻訓練算法時,它能夠理解一些專業(yè)術語和概念,比如簡單的根據(jù)單詞在摘要中的位置理解什么是金屬晶體結(jié)構以及與之相關的知識。舉個例子,就像算法可以解決“王-女王+男人”這種向量運算一樣,它也可以解決“鐵磁體-NiFe+IrMn”的問題,其答案將會是“反鐵磁體”。
當每個化學元素代表的向量以二維坐標的形式在二維坐標圖中標出時,Word2vec甚至能夠?qū)W習元素周期表中各元素之間的關系。
算法研究成功可能讓科研成果提前幾年被預測發(fā)現(xiàn)
因此,如果Word2vec算法如此智能,它能預測出新型熱電材料嗎?良好的熱電材料可以有效地將熱量轉(zhuǎn)換為電能,并且可以由安全、豐富且易于生產(chǎn)的材料制成。
該算法根據(jù)科技文獻中單詞向量與“熱電”一詞的相似性和相關聯(lián)性,針對每種不同化合物進行了排序。隨后,勞倫斯伯克利實驗室研究人員利用了該算法建議的首選熱電候補化合物,進行計算來驗證算法的預測。
在算法給出的排名前10位的預測中,研究人員發(fā)現(xiàn)這10種材料計算得出的功率因數(shù)均略高于目前已知熱電材料的平均值;其中排名前三位候選材料功率因數(shù)比已知的熱電材料高95%。
接下來,他們測試了算法是否可以根據(jù)過去的文獻結(jié)果預測得到目前發(fā)現(xiàn)的熱電材料,研究人員只給算法學習了2000年文獻的摘要。同樣,在排位最高的預測中,目前已知的研究數(shù)據(jù)和結(jié)果大量的出現(xiàn)——比此前剛剛隨機選中的材料數(shù)量的四倍。在使用截至2008年之前的文獻資料數(shù)據(jù)訓練算法得到排名前五的預測中,目前由3種材料已經(jīng)被發(fā)現(xiàn),其余的2種材料則包含稀有或有毒元素。
這一測試結(jié)果時令人驚訝。Jain表示,研究團隊并沒有想到這種算法能夠如此預測未來。“我原本以為這個算法可能描述了人們以前做過的事情,但無法提出與之不同的聯(lián)系。但當我不僅看到預測而且看到預測背后的推理時,我感到非常驚訝,例如半赫斯勒結(jié)構,這是一種非常有前景的電熱晶體結(jié)構。”
他補充說:“這項研究表明,如果我們能更早的使用這種算法,可以想象,一些新材料可以提前多年被人們發(fā)現(xiàn)。”隨著研究的深入,研究人員正在整理并發(fā)布利用該算法預測的排名前50的熱電材料。如果科研人員想要探索更好的拓撲絕緣體材料,研究團隊還將后續(xù)發(fā)布用戶針對自己的研究領域所需的嵌入單詞模型。
接下來,Jain表示,該團隊正在開發(fā)一個更智能、更強大的搜索引擎,允許研究人員以更效的方式檢索文獻摘要。
這項研究工作由豐田研究所資助。其他從事本項研究的合著者分別是伯克利實驗室研究人員John Dagdelen,Leigh Weston,Alexander Dunn和Ziqin Rong,以及加州大學伯克利分校研究員Olga Kononova。