拋棄試錯法,讓機器學習教你設計新材料
【引語】
干貨專欄
材料人現在已經推出了很多優質的專欄文章,所涉及領域也正在慢慢完善。有很多小伙伴已經加入了我們,但是還滿足不了我們的需求,期待更多的優秀作者加入,有意向的可直接微信聯系 cailiaorenVIP。我在材料人等你喲,期待您的加入!
1前言
材料的革新對技術進步和產業發展具有非常重要的作用,但是傳統開發新材料的過程,都采用的試錯法,實驗步驟繁瑣,研發周期長,浪費資源。實驗過程中,研究人員往往達不到自己的實驗預期,而產生了很多不理想的數據。雖然這些實驗過程給我們提供了試錯經驗,但是失敗的實驗數據擺放在那里彷佛變得并無用處;此外,目前材料表征技術手段越來越多,對應的圖形數據以及維度也越來越復雜,依靠人力的實驗分析有時往往無法挖掘出材料性能之間的深層聯系;再者,隨著計算機的發展,許多諸如第一性原理計算、相場模擬、有限元分析等手段隨之出現,用以進行材料的結構以及性能方面的計算,但是往往計算量大,費用大。這些都是限制材料發展與變革的重大因素。
為了解決上述出現的問題,結合目前人工智能的發展潮流,科學家發現,我們可以將所有的實驗數據,計算模擬數據,整合起來,無論好壞,便能形成具有一定數量的數據庫;在數據庫中,根據材料的某些屬性可以建立機器學習模型,便可快速對材料的性能進行預測,甚至是設計新材料,解決了周期長、成本高的問題。近年來,這種利用機器學習預測新材料的方法越來越受到研究者的青睞。2018年,在nature正刊上發表了一篇題為“機器學習在分子以及材料科學中的應用”的綜述性文章[1]。文章詳細介紹了機器學習在指導化學合成、輔助多維材料表征、獲取新材料設計方法等方面的重要作用,并表示新一代的計算機科學,會對材料科學產生變革性的作用。
基于此,本文對機器學習進行簡單的介紹,并對機器學習在材料領域的應用的研究進展進行詳盡的論述,根據前人的觀點,總結機器學習在材料設計領域的新的發展趨勢,以期待更多的研究者在這個方向加以更多的關注。
2機器學習簡介
所謂的機器學習就是賦予計算機人類的獲得知識或技能的能力,然后利用這些知識和技能解決我們所需要解決的問題的過程。
利用機器學習解決問題的過程為定義問題-數據收集-建立模型-評估-結果分析。如圖2-1所示[2]。就是針對于某一特定問題,建立合適的數據庫,將計算機和統計學等學科結合在一起,建立數學模型并不斷的進行評估修正,最后獲得能夠準確預測的模型。
圖2-1?機器學習的學習過程流程圖
為了通俗的理解機器學習這一概念,舉個簡單的例子:
當我們是小朋友的時候,對性別的概念并不是很清楚,這就屬于步驟1:問題定義的過程。這個人是男人還是女人?
隨著我們慢慢的長大,接觸的人群越來越多,了解的男人女人的特征越來越多,如音色、穿衣、相貌特征、發型、行為舉止等。這就是步驟二:數據收集
跟據這些特征,我們的大腦自動建立識別性別的模型。這樣當我們遇見一個陌生人時。我們便能馬上辨別他的性別。屬于步驟三:模型建立
然而,剛剛有性別特征概念的人,往往會在識別性別的時候有錯誤,例如錯誤的認為養著長頭發的男人是女人,養短頭發的女人是男人。對錯誤的判斷進行糾正,我們的大腦便記住這一特征,并將大腦的模型進行重建,這樣就能更準確的有性別的區別。這屬于步驟四:評估。
最后我們擁有了識別性別的能力,并能準確的判斷對方性別。這就是最后的結果分析過程。
當然,機器學習的學習過程并非如此簡單。根據機器學習訓練集是否有對應的標識可以分為監督學習、無監督學習、半監督學習以及強化學習。機器學習分類及對應部分算法如圖2-2所示。需要注意的是,機器學習的范圍非常龐大,有些算法很難明確歸類到某一類。而對于有些分類來說,同一分類的算法可以針對不同類型的問題(引自https://blog.csdn.net/sinat_27554409/article/details/72823
984),在解決實際問題時要做具體的分析。此外,隨著機器學習的不斷發展,深度學習的概念也時常出現在我們身邊。深度學習是機器學習中神經網絡算法的擴展,它是機器學習的第二個階段--深層學習,深度學習中的多層感知機可以彌補淺層學習的不足。深度學習算法包括循環神經網絡(RNN)、卷積神經網絡(CNN)等[3]。本文對機器學習和深度學習的算法不做過多介紹,詳細內容課參照機器學習相關書籍進行了解。
圖2-2?機器學習分類及算法
3 機器學習算法在材料設計中的應用
“使用計算模型和機器學習進行材料預測與設計”這一理念最早是由加州大學伯克利分校的材料科學家Gerbrand Ceder教授提出。Ceder教授指出,可以借鑒遺傳科學的方法,就像 DNA 堿基對編碼蛋白質等各種生物材料一樣,用“材料基因組”編碼各種化合物,而實現這一“編碼”的工具便是計算機的數據挖掘及機器學習算法等。這一理念受到了廣泛的關注。隨后,2011年夏天,奧巴馬政府宣布了“材料基因組計劃”(Materials Genome Initiative,簡稱MGI),該計劃在材料科學中掀起了一場革命。目前,機器學習在材料科學中已經得到了一些進展,如進行材料結構、相變及缺陷的分析[4-6]、輔助材料測試的表征[7-9]等。
3.1 材料結構、相變及缺陷的分析
2017年6月,Isayev[4]等人將AFLOW庫和結構-性能描述符聯系起來建立數據庫,利用機器學習算法對成千上萬種無機材料進行預測。首先,構建帶有屬性標注的材料片段模型(PLMF):將材料的晶體結構分解為相互關聯的拓撲片段,表示結構的連通性;為PLMF圖中的頂點賦予各個原子獨有的物理和化學性能(如原子在元素周期表中的位置、電負性、摩爾體積等),以此將不同的材料區分開。然后,采用梯度提升決策樹算法,建立了8個預測模型(圖3-1),其中之一為二分類模型,用于預測該材料是金屬還是絕緣體;另外7個模型為回歸模型,預測絕緣體材料的帶隙能(EBG),體積模量(BVRH),剪切模量(GVRH),徳拜溫度(θD),定壓熱容(CP),定容熱容(Cv)以及熱擴散系數(αv)。經過計算并驗證發現,在數據庫中的26674種材料中,金屬/絕緣體分類的準確度為86%,僅僅有2414種材料被誤分類(圖3-2)。發現極性無機材料有更大的帶隙能(圖3-3),所預測的熱機械性能與實驗和計算的數據基本吻合(圖3-4)。
圖3-1機器學習流程圖
圖3-2?數據集分類圖圖3-3?????????????????????
??圖3-3?帶隙能與電離勢關系圖
圖3-4?模型預測數據與計算數據的對比曲線
2018年Zong[5]等人采用隨機森林算法以及回歸模型,來研究超導體的臨界溫度。首先,根據SuperCon數據庫中信息,對超過12,000種已知超導體和候選材料的超導轉變溫度(Tc)進行建模。根據Tc是高于還是低于10K,將材料分為兩類,構建非參數隨機森林分類模型預測超導體的類別。隨機森林模型以及超導材料Tc散點圖如圖3-5、3-6所示。隨后開發了回歸模型來預測銅基、鐵基和低溫轉變化合物等各種材料的Tc 值,同樣取得了較好結果,利用AFLOW在線存儲庫中的材料數據,他們進一步提高了這些模型的準確性。最后,將分類和回歸模型組合成一個集成管道,應用其搜索了整個無機晶體結構數據庫并預測出30多種新的潛在超導體。因此,復雜的ML算法的應用大大加速對候選高溫超導體的搜索。
圖3-5?隨機森林算法流程圖
圖3-6超導材料的Tc散點圖
3.2 輔助材料測試的表征
近年來,由于原位探針的出現,使研究人員研究鐵電疇結構在外部刺激下的翻轉機制成為可能。然而,實驗產生的數據量、種類、準確性和速度成階梯式增長,使傳統的分析方法變得困難。因此,2018年1月,美國加州大學伯克利分校的J. C. Agar[7]等人設計了機器學習工作流程,幫助我們理解和設計鐵電材料。首先,利用主成分分析法(PCA)對鐵電磁滯回線進行降噪處理,降噪后的磁滯曲線由(圖3-7)黑線所示,能夠很好的擬合磁滯回線所有結構特征,解決了傳統15參數函數擬合精度不夠的問題(圖3-7)紅色。然后,為了定量的分析壓電滯回線的凹陷特征,構建圖3-8所示的凸結構曲線。利用k-均值聚類算法,根據凹陷中心與紅線的距離,對磁滯回線的轉變過程進行分類。當我們進行PFM圖譜分析時,僅僅能表征a1/a2/a1/a2與c/a/c/a之間的轉變,而不能發現a1/a2/a1/a2內的反轉,因此將上述降噪處理的數據、凸殼曲線以及k-均值聚類的方法結合在一起進行分析,發現了a1/a2/a1/a2內的結構的轉變機制。并利用交叉驗證的方法,解釋了分類模型的準確性,精確度為92±0.01%(圖3-9)。此外,作者利用高斯擬合定量化磁滯轉變曲線的幅度,結合機器學習確定了“峰”/“谷”c/a/c/a?-?a1/a2/a1/a2域邊界上的鐵彈性增加的特征(圖3-10),而這一特征是人為無法發掘的。一旦建立了該特征,該工作流程就可以量化具有統計顯著性和納米級分辨率的效應。
圖3-7?單個像素處壓電響應的磁滯回線:原始數據(藍色圓圈),傳統擬合曲線(紅線)和降噪處理后的曲線(黑線)。
圖3-8壓電響應磁滯回線的凸殼結構示例(紅色)。 標記表示凸多邊形上的點。 陰影區域表示用于創建凹度曲線的區域
圖3-9分類模型精確度圖
圖3-10
(a~d)由高斯擬合鐵電體計算的凹面積圖;(e)分層域結構的橫截面的示意圖;(f, g)靠近表面顯示切換過程的特寫鏡頭;(h)a1 / a2 / a1 / a2頻段壓電響應磁滯回線;(i)表示材料的能量吸收特性的懸臂共振品質因數圖像
在掃描透射電子顯微鏡(STEM)的數據分析中,由于數據的數量和維度的增大,使得手動非原位分析存在局限性。為了解決這個問題,2019年2月,Maksov等人[9]建立了機器學習模型來自動分析圖像。首先,構建深度神經網絡模型(圖3-11),識別在STEM數據中出現的破壞晶格周期性的缺陷,利用模型的泛化能力在其余的實驗中找到各種類型的原子缺陷。然后,使用高斯混合模型對檢測到的缺陷結構進行無監督分類(圖3-12),并顯示分類結果可以與特定的物理結構相關聯。作者進一步擴展了其框架,以提取硫空位的擴散參數,并分析了與由Mo摻雜劑和硫空位組成的不同配置的缺陷配合物之間切換相關的轉換概率,從而深入了解點缺陷動力學和反應(圖3-13)。
圖3-11識別破壞晶格周期性的缺陷的深度卷積神經網絡
圖3-12由深度卷積神經網絡確定的無監督的缺陷分類
圖3-13不同缺陷態之間轉移概率的分析
4 機器學習在材料領域的研究展望
與其他領域,如金融、互聯網用戶分析、天氣預測等相比,材料科學利用機器學習算法進行預測的缺點就是材料中的數據量相對較少。那么在保證模型質量的前提下,建立一個精確的小數據分析模型是目前研究者應該關注的問題,目前已有部分研究人員建立了小數據模型[10, 11],但精度以及普適性仍需進一步優化驗證;此外,Butler等人在綜述[1]中提到,量子計算在檢測和糾正數據時可能會產生錯誤,那么量子機器學習便開拓了機器學習在解決量子問題上的應用領域。
以上,便是本人對機器學習對材料領域的發展作用的理解,如果不足,請指正。
參考文獻
[1] K.T. Butler, D.W. Davies, H. Cartwright, O. Isayev, A. Walsh, Nature, 559 (2018) 547.
[2] D.-H. Kim, T.J. Kim, X. Wang, M. Kim, Y.-J. Quan, J.W. Oh, S.-H. Min, H. Kim, B. Bhandari, I. Yang, International Journal of Precision Engineering and Manufacturing-Green Technology, 5 (2018) 555-568.
[3] 周子揚, 電子世界, (2017) 72-73.
[4] O. Isayev, C. Oses, C. Toher, E. Gossett, S. Curtarolo, A. Tropsha, Nature communications, 8 (2017) 15679.
[5] V. Stanev, C. Oses, A.G. Kusne, E. Rodriguez, J. Paglione, S. Curtarolo, I. Takeuchi, npj Computational Materials, 4 (2018) 29.
[6] A. Rovinelli, M.D. Sangid, H. Proudhon, W. Ludwig, npj Computational Materials, 4 (2018) 35.
[7] J.C. Agar, Y. Cao, B. Naul, S. Pandya, S. van der Walt, A.I. Luo, J.T. Maher, N. Balke, S. Jesse, S.V. Kalinin, Advanced Materials, 30 (2018) 1800701.
[8] R.K. Vasudevan, N. Laanait, E.M. Ferragut, K. Wang, D.B. Geohegan, K. Xiao, M. Ziatdinov, S. Jesse, O. Dyck, S.V. Kalinin, npj Computational Materials, 4 (2018) 30.
[9] A. Maksov, O. Dyck, K. Wang, K. Xiao, D.B. Geohegan, B.G. Sumpter, R.K. Vasudevan, S. Jesse, S.V. Kalinin, M. Ziatdinov, npj Computational Materials, 5 (2019) 12.
[10] Y. Zhang, C. Ling, Npj Computational Materials, 4 (2018) 25.
[11] H. Trivedi, V.V. Shvartsman, M.S. Medeiros, R.C. Pullar, D.C. Lupascu, npj Computational Materials, 4 (2018) 28.
往期回顧:
本文由材料人專欄科技顧問溪蓓供稿,材料人編輯部Alisa編輯。
歡迎大家到材料人宣傳科技成果并對文獻進行深入解讀,投稿郵箱: tougao@cailiaoren.com.
投稿以及內容合作可加編輯微信:cailiaorenVIP.
思路清晰