Nature封面刊文:人工智能將要重塑材料科學
最近火到不行不行的人工智能,引起了全球人類的關注。其中,有人期待人工智能帶來更大的便利,同時也有人擔憂人工智能會不會搶走自己的飯碗,甚至于未來《終結者》中的情形將發生。
那么現在,擔憂自己的飯碗的可能又要加入一部分材料科研工作者了。5月4日,Nature封面刊登題為《人工智能將創造更優秀的材料?》(《Can artificial intelligence create the next wonder material?》)的文章。一部分科研人員認為人工智能將給材料科學帶來革命性的改變。
該文章認為,通過計算機建模和機器學習技術,可以很快地根據人們所需要的性能預測出相應候選材料。因此,科學家們將不再需要瞎貓撞死耗子般地制作新材料,而是按照計算機計算結果的指導,制作出相應候選材料并測試,從而加快了新材料的研發的速度和效率。
不過,人工智能變革材料科學研究方法尚存在不少問題:一是受制于材料數據、材料性能控制因素、計算能力,目前僅對少部分材料奏效。二是要計算機預測的材料,并不一定能夠在實驗室成功合成乃至規模量產,這個過程可能會很長。
以下是該文章的內容:
這是一個堪比最極客的畫面:當游客駐足Nicola Marzari的辦公室,他會迫不及待地展示一臺屏幕上不間斷地滾動著數字和符號的智能手機,“從2010年開始,我的手機正在實時地計算硅的電子結構。”
Marzari是供職于洛桑聯邦理工學院的物理學家,他的手機僅需40秒就可以完成超級計算機花費數小時的量子力學計算。此舉展示了理論計算在過去數十年的飛躍,同時也展示了未來改變材料科學的潛能。
目前材料科研的方法是靠運氣碰到一種新材料,然后在實驗室精心測量它的性能。Marzari和他的同行正在用計算機建模和機器學習技術生成一個數以萬計的候選材料庫。即使是失敗實驗所得到的數據也可以提供有效參考。雖然大量候選材料是完全假想的,但是工程師們可以通過搜索預期性能篩選出值得合成和測試的材料。例如他們可以限定材料作為導體或絕緣體的性能,是否有磁性,可抗多高的溫度和壓力等等。
行業先鋒、加州大學伯克利分校材料科學家Gerbrand Ceder認為它將是對發現材料的速度和效率的一個極大飛躍。他指出我們僅僅知道現有材料1%的性能,并以磷酸鐵鋰為例。該材料合成是在20世紀30年代,但直到1996年才發現它是現有鋰離子電池絕佳的替代材料,“因為沒有人測它的電壓”。
世界上目前至少有三大材料數據庫,保存有數萬或者數十萬材料的數據。Marzari的材料云項目在今年下半年運行,由此吸引了更廣泛的關注。倫敦帝國學院副院長、材料科學家Neil Alford給以評價道“我們正在目睹一個實驗者想要的理論者傳遞的東西的聚集。”他目前尚未隸屬于任何材料數據庫項目。
但支持者迅速地指出,從計算機預測到現實世界技術這個過程并不容易。現存的材料數據庫遠遠稱不上收錄所有已知材料,罔論所有可能材料。由此,靠數據庫驅動工作或許將對某些材料有用,另外一些則不然。即使是計算機標出了一種可能材料,但是實驗室要做出來又有好幾年。Ceder認為“相比于能做什么,我們更了解想要什么。”
盡管如此,研究者們仍然相信這是一個有待發掘的財寶,并在電子、能源、機器人、醫療和交通方面連帶創新。芝加哥材料計算科學家Giulia Galli介紹“我們是在將謎題的不同部分拼湊在一起,當所有部分湊對位置,材料的預測就會成真。”
基因組計劃的激勵
Ceder關于利用大量數據驅動材料研究的設想大約成熟于21世紀初,那時他供職于Massachusetts Institute of Technology (MIT),他的想法很大程度上受到人類基因組計劃的啟發。
Ceder解釋道:“人類基因組本身并不能用于材料研究,不過他卻為材料研究提供了一種新的方法。”材料學者能否借鑒基因學者們的經驗,建立材料基因組即解碼材料的不同組成成分和性能的對應關系——就像解碼生物性狀和DNA堿基配對的對應關系一樣。
Ceder認為:想要實現上述過程,解碼必須關注于給定材料的構成原子,電子以及空間排布規律(晶體結構)。在2003年,Ceder和他的團隊首次展示了如何利用量子力學計算的基礎數據庫預測一種合金最有可能的晶體結構,這是在商業中探索一種新材料的關鍵數據。
過去,這些計算非常復雜,即使使用超級計算機也很難實現。這種計算機制必須透過一系列復雜的試驗點以及謬誤點直指物質的基礎狀態即是物質能量最低,受力平衡的晶體結構和電子排布。但是在Ceder2003的文章,研究人員描述了一種捷徑。研究人員首先計算了相同晶體結構的二元合金,而后設計了一種“學習機制”算法,通過該算法新的計算可以從二元合金中調取模板,計算出新材料最可能的基礎狀態。這種算法運行良好,它大幅縮短了計算時間。
“那篇文章介紹了一種建立公共數據庫探究材料性質的新方法,我們所需要做的是填補數據庫的空白”Stefano Curtarolo解釋道。他于論文發表的同一年離開Ceder課題組,在Duke大學組建了自己的實驗室。這一想法直接催生了兩項獨立計劃的產生。在2006年,Ceder在MIT成立了材料基因組計劃,他們使用優化后的算法預測鋰基材料在電動車電池上應用的相關性能。截止到2010年,這項計劃已經預測了20000種化合物。“我們從現有材料入手,調整了他們的晶體結構,把一種成分從一處挪到另一處并計算可能發生的現象”,Kristin Persson解釋道,她在Ceder課題組工作到了2008年。
與此同時,在Duke,Curtarolo 成立了材料基因組中心,他們著重于探究合金。通過與 Brigham Young大學Israel's Negev Nuclear Research Center的合作,他于2003年成功為材料基因組引入了,AFLOW系統,該系統可自動根據已有的晶體結構技術新的結構。
無論是原課題組成員還是外界研究人員,大家都對這種大數據計算產生了極大的興趣。化學家Jens N rskov曾使用該方法探究能夠使水分解成氫氣和氧氣的催化劑。后來,他的研究擴大成為了SUNCAT Center的原型。
Marzari同樣對該技術很感興趣。他曾是Quantum Espresso計劃的一員,該計劃成立于2009致力于量子力學計算。
材料基因組
但是,直到2011年6月計算材料學仍然沒有成為主流,此時白宮剛宣布材料基因組計劃(MGI)。James Warren是美國國家標準與技術局的一名材料科學家,也是MGI的執行秘書,他說“當白宮的人逐漸熟悉Ceder的工作,他們就變得興奮起來”。人們已經普遍認識到電腦模擬能夠對創新和制造業產生積極作用”。
從2011年開始,這項計劃已經投資了超過2.5億美元用于軟件工具、收集和報道實驗數據的標準化技術、主要大學建立計算材料學中心、對特定應用建立大學與企業部門之間的合作。但是,目前并不清楚如此巨大的投資對這門學科推動作用有多大。Ceder說,“MGI帶來的好處很多,而且還產生了一點品牌效應,一些團隊把他們的研究稱作基因X或基因XXX,雖然他們的工作幾乎與此并不相關”
然而,MGI真真切切做到了一件事,那就是在幫助Ceder 和其他人實現了他們建立材料性能在線數據庫的愿景。在2011年年末,Ceder 和 Persson將材料基因組計劃作為Materials Project重新啟動,此項目曾經被白宮要求放棄“基因”標簽以防止與國家的努力混淆。來年,Curtarolo發布了用自己開發的軟件而做的數據庫,叫做Curtarolo。2013年,西北大學的材料研究員Chris Wolverton推出了開放量子材料數據庫(OQMD),他表示自己的idea來自于Materials Project和AFLOWlib項目,但軟件和數據是自己開發的。
這三個數據庫都分享了5萬余種已知材料的核心數據,這些材料來自于人們廣泛使用的實驗資料庫,即無機晶體結構數據庫。這些材料被實驗室制作出來過至少一次或者有文獻對其進行報道,但是其中的電性能或磁性能可能從來沒有被仔細研究;這些材料可能是我們獲得新材料起點。
三個數據庫的不同之處在于其中所包含的的假設性材料。Materials Project包含的相對較少,其中包含15000種Ceder和Persson根據鋰電池研究而得到的計算結構。Persson說,如果我們自信計算結果正確并且有機會將其做出來,才會將其假如數據庫。另外,還有13萬左右的結構由明尼蘇達大學的納米多孔材料基因中心預測,這個數據庫主要包含沸石和MOF。
AFLOWlib 是最大的數據庫,其特點是擁有超過一百萬種不同的材料和大約1億的計算得到的性能。這是因為它包含成千上萬的假設材料,其中許多在實際中僅能存極短的時間。Curtarolo 說,當你想預測某種材料可以如何制備時,這些數據就很有價值。例如,他使用AFLOWlib 的數據庫數據來研究為什么一些合金可以形成金屬玻璃——一種具有無序顯微結構的獨特金屬。事實證明,一種材料能否形成金屬玻璃取決于不穩定晶體結構的數量和能量,這些不穩定結構在合金冷卻時與基態原子相競爭。
Wolverton的 OQMD 數據庫包含約40萬種假設性材料,這些材料由自然界中常見的晶體結構以及用元素周期表各部分的元素修飾計算而來。其中鈣鈦礦的相關數據非常多,其晶體結構通常表現出諸如超導等吸引人的特性,而且還應用于太陽能電池中。與名字所暗示的一樣,這個項目是三個中是最開放的:用戶可以下載整個數據庫而不僅僅是單個搜索結果。
所有這些數據庫還在發展,它們的創建者認為其還不夠完美,所以花費大量時間來添加更多的化合物并且完善計算結果。這些數據越來越善于預測某種晶體是否穩定,但是在預測光吸收性能以及導電性等方面并不是很好。Marzari 指出,即使是在計算材料學最有成功經驗的電池材料領域,標準計算仍然有平均半伏的誤差,導致性能方面存在許多差異。“事實是,理論本身存在一些錯誤:我們可能永遠無法改正”,Curtarolo 說。
每個團隊都正在開發自己的技術來調整計算并彌補這些系統誤差。但是,與此同時他們已經在使用這些數據來進行科學研究,來自其他團隊的用戶也在做同樣的事。Marerials Project 確定了幾個極有前景的正極材料,其性能可能超過已經存在的鋰電池材料。同時確定了幾種金屬氧化物,可以提高太陽能電池陽的光吸收效率和能量轉化效率。今年早些時候,來自Dublin?的Trinity?學院的研究人員使用 AFLOWlib 數據庫預測20種Heusler合金,其可以用于傳感器或電腦記憶體的磁鐵,他們還成功地合成了兩種該類合金,結果表明其磁特性非常接近預測結果。
進擊的歐洲
材料基因組同樣在歐盟得以開展,盡管可能用的是其他名字。例如,瑞士建設了MARVEL,一個計算材料科學研究網絡,以洛桑聯邦理工學院為首,Marzari是主管。他通過使用全新的計算平臺,創建了一個名為“材料云”的數據庫,以用于檢索二維材料,例如石墨烯。這些材料可以應用于納米層級的電子產品到生物醫藥設備。為了找到優秀的候選材料。Marzari提交了超過15萬種已知材料到他所謂的“計算剝離”:計算出將原晶體表面剝離一個單原子層需要多少能量。今年下半年他的數據庫就將向公眾開放,預計將可以讓1500種可能的二維結構測試。
而計算化學家Berend Smit興建了另一個中心,以發展預測數以萬計的納米沸石分子篩和金屬有機框架的算法,以及其他算法。他的工作同樣得到了材料基因組可以帶來壞消息。很多研究人員期望使用納米沸石材料以打造一種再更少的空間可以儲存更多的甲醇的汽車油箱。但搜尋了超過650000種計算材料之后,Smit的團隊得到的結果顯示,現有的材料已經是較優解。新材料的改進效果會非常小,因此目前美國機構設置的重大技術改進甲烷存儲目標可能是不切實際的。
正是這樣那樣的結果顯示,材料基因組要達到預期效果還有很多難題。其中一個問題是計算結果只能對實驗室合成新材料提供一些線索,更別提實現產業化了。Ceder介紹,“要做出計算所得的材料,我們有時候要花2周,有時候是半年甚至更長。而且我們也搞不清到底是沒有用正確的方法合成,還是壓根就做不到。”
Ceder和Curtarolo都在嘗試用機器學習算法從現有的制造工藝中提取規律以指導材料合成。
另一個限制是,目前材料基因組一直被應用于工程師所謂的功能材料--即可以實現某種功能的化合物。但該技術不被用于研究結構材料,因為材料的彈性和硬度這樣的機械性能依賴于加工工藝。
即使是在功能材料領域,目前的計算機程序也只能很好地對材料結構中很小的一部分——完美晶體結構進行分析。Galli介紹,“未來最有趣的材料可能會以創造性的在微觀層面進行組裝。它們可能是納米顆粒和晶體結構中特地布入缺陷的組合物,或者是纏結了不同化合物和相的異質材料。為了預測這種材料,需要一次性計算許多性能,以及計算在特定溫度和時間下系統如何變化。如此計算成本將非常高昂。
在短期內,更多的實驗數據交換可以對計算進行現實檢查,并有助于完善。為此,Ceder正在與MIT從事軟件研究的團隊進行合作,使用一種軟件可以讀取實驗類材料科學的論文,并自動以標準格式提取晶體結構的信息。他們計劃開始在幾個月內將這些數據傳送到材料項目上。
從長遠來看,摩爾定律或許可以幫上忙:隨著計算能力的不斷提高,一些超出目前計算的技術可能很快變得可用。
Marzari說“我們已經從計算材料科學的手工時代發展到了工業時代,我們現在可以創建模擬裝配鏈進行工作,還可以用全新的方法探究問題。雖然現在市場上還沒有通過計算預測得到的材料,但十年之后或許會很多。”
Nature原文地址:Can artificial intelligence create the next wonder material?
材料牛編輯整理。
概念還是不錯的,實現前還有很多事情需解決。