研究背景
尖晶石是一種重要的功能材料,是指化學式為AB2X4的化合物,其中A位代表配位數(CN)為4的金屬陽離子,如Zn、Cu、Mg等;B位代表CN = 6的金屬陽離子,如Al、Mo、Cr等;X位代表陰離子,X = O、S、Se和Te,具有直接帶隙的半導體尖晶石具有更好的光電效能,這些結構提供了多樣的性質,但只有幾百個在室溫下成功合成或在理論上被研究,特別是那些有直接帶隙的結構;準確、快速地發現具有優良半導體效能的尖晶石對開發多功能材料具有重要意義。
最近,來自上海交通大學的Jinjin Li教授團隊在Nano Energy發表的名為“Accelerated discovery of stable spinels in energy systems via machine learning”一文,利用機器學習(ML)來加速從元素週期表中未知尖晶石的從頭預測,在該策略下,從3880個未開發尖晶石中成功篩選出8個(CaAl2O4、CaGa2O4、SnGa2O4、CaAl2S4、CaGa2S4、CaAl2Se4、CaGa2Se4、CaAl2Te4)具有直接帶隙和室溫熱穩定性的尖晶石。
研究方法
1、總體思路
1)提出了一種目標驅動的ML方法來加速密度泛函理論(DFT)的計算,以篩選效能優良的尖晶石新材料:
①總共從元素週期表中篩選出3880個尖晶石,根據公差因子篩選出1356個候選尖晶石,提出了一個基於XGBoost演算法的ML模型,將1356個尖晶石劃分為金屬和半導體,其中14個特徵,如電負性、容忍因子、第一電離能和離子半徑,被認為是潛在半導體效能的有力指標,XGBoost方法打破了機器學習在一些預測材料特性的模型中經常被視為黑匣子的障礙;
②利用包含204種已知尖晶石材料(取自以往的實驗和理論工作)的資料集作為ML方法的訓練集,預測選定半導體的電導率;
③最終從1356個尖晶石中識別出400個半導體,建立了較強的結構-性質關係,預測精度高達91.2%,考慮到其合成容易、排除有毒元素和廣泛的商業應用潛力,8種具有直接帶隙的新型穩定尖晶石最終篩選出具有室溫熱穩定性的光電材料,有望成為有前途的能量光電材料;
④與傳統的預測法相比將尖晶石從週期表中篩選研究週期縮短約3.4年;
2)所提出的逐步目標驅動方法如圖所示:
圖1. 提出的目標驅動方法流程圖:a)尖晶石位點元素的選擇;b)產生資料;c)容差係數過濾;d)機器學習演算法;e)DFT計算過程
2、資料集構建
ML的訓練資料集包含204個化學式為AB2X4的尖晶石結構,屬於立方晶體和空間群Fd3m;其中,101個尖晶石來自實驗確定的常溫和常壓下的晶體結構,103個尖晶石來自DFT計算:
1)a位佔據了四面體空腔的1/8,b位點佔據了八面體空穴的一半,而陰離子X (X=O, S,Se, Te)位佔據四面體和八面體的頂點,如圖所示:
2)如圖為204個尖晶石結構帶隙分佈,覆蓋範圍廣泛的0-6 eV,圖中寬的帶隙覆蓋保證了可以在未知的預測資料集中找到所需的合適的帶隙:
3)如圖顯示了204個已知尖晶石的帶隙與其容差因子之間的關係,容差因子範圍為0.59 ~ 1.22,56.9%的資料範圍0.8-0.9:
4)尖晶石結構中有大量的a位和b位選擇,從已知的204個尖晶石中收集元素,併產生4160種不同的可能尖晶石化合物,包含26個a位陽離子,40個b位陽離子和4個x位陰離子,考慮到a位點和b位點應該是不同的元素(即Fe3O4、Co3O4等),共獲得3880個可能的候選資料集作為預測資料集;在使用ML方法之前,透過公差因子對尖晶石材料進行過濾篩選,留下1356個穩定結構供進一步預測。
3、特徵工程
1)本研究根據實踐經驗和前人的研究,選取並構建了A-、B-和x-位元素的離子半徑、第一電離能和電負性尺度等特徵,在本工作中,由於特徵維數較低,沒有采用特徵選擇方法;
2)在極限梯度增強整合演算法(XGBoost)中考慮了特徵的資訊增益處理,它可以對每次presentation中的重要特徵資訊進行排序,從而清楚地知道在訓練過程中XGBoost中特徵的選擇性,使用F-score對特徵重要性進行排序,同時為了確定這14個特徵的相關性,進一步計算皮爾遜相關係數矩陣如圖所示:
圖5. 特徵重要性排序和包括正相關和負相關14個特徵的Pearson相關係數熱圖
4、模型與演算法
本文采用了一種新的分類演算法XGBoost來完成分類過程,隱式地完成了特徵選擇步驟,採用五折交叉驗證(CV)方法評價XGBoost模型的準確性,該模型將資料進行5次拆分,並在拆分過程中對模型的效能進行平均,在每次拆分過程中,資料被平均地分成五個不重疊的摺疊,其中四個摺疊用作訓練集,剩下的一個用作驗證。
結果與討論
1、ROC曲線及相應曲線AUCs (ROC曲線下的面積)透過5折交叉驗證得到結果表明了模型的準確性,如圖:
五次交叉驗證的AUC分別為0.95,0.83,0.95,0.87和0.95,這表明在金屬和半導體之間具有極好的分辨能力;
2、將經過訓練的XGBoost模型應用於1356個尖晶石,以預測它們中的每一個是屬於金屬還是半導體,預測結果如圖所示:
經過XGBoost的分類,1356個候選金屬被分為956個金屬和400個半導體,由於尖晶石具有優異的半導體效能,作者專注於預測的400種半導體,根據不同的x位元素,400個半導體包含128種氧化物、83種硫化物、89種硒化物和100種碲化物;
3、由於這項工作的目的是篩選和發現具有直接帶隙的穩定尖晶石材料用於實際應用,其他因素也需要考慮,包括環境問題,元素豐富度,實驗成本和商業應用,最後,經過小規模計算過程,成功篩選出8個具有直接帶隙的立方尖晶石(CaAl2O4,GaGa2O4, SnGa2O4, CaAl2S4, CaGa2S4, CaAl2Se4, CaGa2Se4, CaAl2Te4),並透過從頭計算進一步評價熱力學穩定性和電子結構,從而驗證了機器學習預測結果,部分計算結果如圖所示:
圖8. 篩選得到的尖晶石電子結構和熱力學穩定性計算結果
4、在一臺24 核cpu的超級計算機上計算尖晶石結構的平均花費為80223 s,而1356尖晶石的總計算時間約為1259天(3.4年)。訓練一個可靠的XGBoost模型大約需要一天的時間,當模型訓練良好時,機器學習可以忽略每個結構的電導率和穩定性的計算時間。因此,提出的機器學習方法可以大大加快DFT方法的預測時間,大大縮短探索新尖晶石的研究過程。
原文連結:https://www.sciencedirect.com/science/article/pii/S2211285520312386