关键词机器学习,材料设计,材料合成,生成模型
01
引言
长久以来,新材料的研发主要依赖试错法,这种传统的研究范式不仅耗时费力,而且成本高昂。20世纪中叶起,随着蒙特卡罗方法、分子动力学和密度泛函理论(DFT)等计算物理方法的发展及其在不同材料体系中的应用,计算材料学逐渐成型,并广泛应用于信息技术、能源、化工、生物医药、航空航天等领域,成为探索物质世界、研发新材料的重要工具。近年来,随着计算材料学和人工智能(AI)快速发展,基于机器学习的材料设计逐渐成为可能[1]。机器学习算法能够处理复杂的非线性关系,发现高维数据中的模式和规律,自动从数据中提取隐藏的关键特征,并且具备较强的泛化能力和迭代优化能力。这些优势与材料研究天然匹配,有望解决材料科学中设计空间巨大、构效关系复杂等关键共性难题。
目前,机器学习技术已经渗透到材料设计的各个层面,可以大致分为以下四个方向。
(1)性质预测:利用机器学习挖掘材料的结构—性质关系(即构效关系),再结合材料数据库筛选和设计具有特定性能的新材料。
(2)合成预测:利用机器学习预测材料的合成方案、合成路径、具体的实验合成参数等。
(3)知识发现:利用自然语言模型,对文献库进行数据提取和知识挖掘以辅助材料设计。
(4)生成式逆向设计:基于生成式模型,根据对材料性能的需求,逆向设计材料的成分和结构。
02
材料性质预测
自机器学习被应用于物质科学研究以来,该技术就被广泛用于预测晶体材料的各种性质,如形成能[4—12]、力学性质[5,9,12—15]、热学性质[12—14,16]、能隙[5,6,9,10,12,17]、超导电性[6,18,19]、磁学性质[10,20—23]等。
在材料设计中,人们首要关心的是稳定性,衡量热力学稳定性的主要参数是形成能。2017年,Ward等人发展了一种基于Voronoi镶嵌的晶体结构描述符的机器学习模型,用于预测晶体的形成能[4]。对于包含435792个无机化合物晶体的DFT计算形成能的OQMD数据集[24],该模型的平均绝对误差(MAE)达到80meV/atom。2018年,麻省理工学院的Xie和Grossman发展了一种晶体图卷积神经网络来学习材料的基础物性(包括形成能、能隙、费米能级、体模量、剪切模量和泊松比等)[5]。如图1所示,晶体图由代表原子的节点和代表原子间连接的边组成。他们从MaterialsProject(MP)数据库[25]选取了28046种晶体的形成能数据进行训练,得到的MAE为39meV/atom。
图1晶体图卷积神经网络的示意图(a)构建晶体图。将晶体转换为图形,其中节点表示晶胞中的原子,边表示原子之间的连接。节点和边分别对应晶体中原子和键的向量表征;(b)晶体图上卷积神经网络的结构。在每个节点上构建R个卷积层和L1个隐藏层,从而得到一个新图,其中每个节点表示每个原子的局部环境。经过池化后,连接到L2个隐藏层来表示整个晶体的向量,随后连接到输出层以提供预测
2021年,Schmidt等人引入一种晶体图注意力网络,用图距离的嵌入替代了精确的键长信息,因此无需精确的几何结构信息即可预测材料稳定性[8]。为了训练该模型,他们从AFLOW数据库[26]和MP数据库出发,统一计算参数开展DFT高通量计算,构建了一个超过两百万个化合物的晶体数据集,再从中选出不同材料的子数据集。针对包含约18万个随机选取的混合钙钛矿晶体数据集训练出的模型,其形成能MAE为30meV/atom。将该模型应用于高通量搜索ABX2Y化学式的1500万个四元钙钛矿材料,从中预测了超过2万种有合成潜力的四方晶体结构的钙钛矿材料。近期的研究将深度学习和计算机视觉技术相结合,发展出晶体结构的稀疏体素图像表示以及相应的深度卷积神经网络[11]。该模型的特点是采用skip连接机制绕过浅层局部原子特征,从而能够学习更全局的结构特征。作为该模型的应用,对MP数据库中约12万个晶体形成能的DFT计算值进行训练,测试集的MAE为46meV/atom。
固体的熔点和热导率也是机器学习研究较多的热学性质参数。在早期的工作中,京都大学Seko等人根据248种单质和二元化合物固体熔点的实验数据,采用SVM回归法建立了熔点的机器学习模型,成功预测了第四主族单质固体和十余种氮化物的熔点[16]。为了解决小规模材料数据集难以机器学习的问题,北美丰田研究所的科学家提出了在特征空间中纳入“粗略估计属性”策略,即采用较低准确度的方法(如计算成本较低的DFT计算、经验模型或非昂贵实验测量)来预测目标属性[14]。该策略可以在不增加模型复杂度的情况下提高预测精度。作为应用,他们讨论了93种化合物的晶格热导率,标度化误差为4.1%。
图2(a)识别高临界温度超导体各步骤的流程图,展示了BCS超导理论启发式筛选、DFT计算和深度学习训练的应用[19];(b)JARVIS-DFT数据库中德拜温度的统计分布;(c)费米能级处的电子态密度的统计分布;(d)含有特定元素的化合物具有德拜温度θD>300K的概率
在材料磁性方面,Katsikas等人详细总结了机器学习在磁性材料研究中的应用[20]。他们利用机器学习算法对MP数据库进行了分析,创建了一个人工神经网络模型来预测材料的磁化强度。基于原子线图神经网络,Choudhary等人预测了MP数据库中55722种材料的磁性,磁矩的MAE为0.26μB[10]。Heusler合金是一类三元化合物,因其含有磁性离子而成为高性能磁体的候选材料。为了在Heusler合金中发现新的磁体,Sanvito等人首先构建了一个包含236115种Heusler合金原型的电子结构数据库,再对仅由过渡金属组成的Heusler合金依据形成能进行稳定性分析[21]。通过机器学习回归,将计算得到的磁性合金微观电子结构与磁转变温度建立了关联。经过高通量筛选,在可能的36540个原型合金中,有248个化合物在热力学上是稳定的,其中20个具有磁性。最后,预测并成功合成出两种新型磁性Heusler合金,其中Co2MnTi是居里温度高达938K的铁磁体,而Mn2PtPd是奈尔温度为320K的反铁磁体。
机器学习方法也被用于设计新型二维磁性材料。东南大学王金兰团队开发的“晶体图多层描述符”,采用独特的多层结构,其中每层代表材料的一个元素性质,如原子局部环境、未配对电子等[22]。基于该描述符训练的机器学习模型,能够预测二维材料的热力学稳定性、磁基态和带隙;结合DFT高通量计算,最终筛选出20种铁磁半导体、21种铁磁半金属和51种铁磁金属,其中部分材料展现出大磁矩、大自旋极化和较高的居里温度。除了磁矩和居里温度,磁各向异性能也是描述材料磁性的关键参量,对于高密度磁存储具有重要意义。王鹏举等人设计了基于过渡金属互联神经网络的机器学习模型,用于预测二维金属有机框架(MOF)的垂直磁各向异性能[23]。他们首先构造了包含1440个二维MOF结构数据库,训练出的模型被用于计算预测数据库中2583个MOF结构的磁各向异性能,最终筛选得到11种未被报道的、具有强磁各向异性的二维铁磁性MOF材料。
如前所述,采用机器学习预测材料的性质通常依赖于晶体结构描述符,必须事先知道材料的结构,这无疑限制了对未知结构新材料的探索。那么,能否在没有预先知道晶体结构的情况下预测材料的性质?为了解决这个难题,剑桥大学研究团队发展了一个深度学习模型[7],将化学计量比转化为元素间密集加权图,每种材料视作一图,节点为元素,边权重反映元素间相互作用。使用消息传递神经网络,直接从元素间加权图学习材料描述符,通过迭代信息融合捕获结构特性。该模型在形成能与非金属材料能隙数据集上均表现良好,证明了方法的有效性。
03
材料合成预测
与预测材料性质相比,预测材料的可合成性、合成路径、合成条件更具挑战性[30—32]。多年来,计算材料学家预测了大量的新材料,然而最终能够被实验成功合成的比例并不高。
北美丰田研究所的Aykol等人建立了一套理性规划无机材料固相合成路线的策略(图3),该方法从经典成核理论出发,将固相反应的成核势垒近似为反应能和界面能的贡献,分别由高通量热化学数据和晶体的结构特征估算[31]。该方法不仅能够识别出已知的合成路线,还能够预测出新的或替代的合成路径。将之应用于三种代表性的金属氧化物功能材料——铁电BaTiO3、锂离子电池正极材料LiCoO2和高温超导体YBa2Cu3O7,以及其余10多种化合物的合成规划,通过与大量文献数据的对比,验证了方法的有效性。
图3理性规划固态合成方法的计算步骤图示。给定目标相(β),首先建立一个反应库,列举通往目标相的所有可能反应,然后基于它们的相对成核势垒(催化成核)和反应路径上竞争相的数量(相竞争)分析每个反应。通过Pareto分析,可以确定在这两个指标之间具有最佳或接近最佳权衡的反应[31]
最近,Antoniuk等人发展了一个深度学习模型,能够从已知材料的化学组成数据中预测无机化学式的可合成性,而无需材料的结构信息[32]。训练数据来自于从ICSD数据库中提取的53594种二元、三元和四元化合物晶体,这些无机材料已经被合成并进行了结构表征。该模型在没有任何先验化学知识的情况下,通过学习已知材料的数据,掌握了电荷平衡、化学家族关系和离子性等化学原理,并利用这些原则进行了可合成性预测。与DFT计算形成能对比,该模型的准确度提高了7倍。令人印象深刻的是,在与20位材料科学家进行的预测材料可合成性的比赛中,该模型的表现优于所有人类专家,准确度比最佳人类专家高1.5倍,而速度比人类专家快五个数量级。
04
材料知识发现
图4神经网络和基于解析的合成参数提取(a)一个分层神经网络通过将单词转换为嵌入和启发式向量表示,并输出到分类器,逐个为单词分配标签(例如,“材料”)。对于每次预测,考虑一个由五个单词组成的窗口的嵌入。每一层都是密集连接的,隐藏层连接两个输入层的每一个。最终层是通过每个可能的单词类别计算的分类器;(b)对句子进行语法解析,将单词级别标签(彩色条下面)解析为顺序单词块级别标签(彩色条上面),然后解析为单词块关系(弯曲弧线)[33]
当今备受瞩目的大语言模型GPT-4,无疑是NLP领域的翘楚。微软研究院的近期研究总结了GPT-4在材料设计中的应用及其局限[38]。在信息记忆与材料设计原则总结方面,GPT-4表现出色,能准确分类并提供示例。在组分创建上,它能生成新颖且化学合理的无机晶体组分,但在有机聚合物和MOF领域仍存在挑战。在结构生成上,GPT-4擅长描述键合和配位特征,但直接生成坐标能力有限。在性能预测方面,尽管具备一定的预测能力,但对无机材料性能的准确预测仍显不足。至于合成规划,GPT-4能检索已知合成路线,但缺乏创新合成策略的能力。总之,GPT-4为材料设计带来了新机遇,但同时也存在着显而易见的技术边界。
05
基于生成式模型的逆向设计
以功能为导向的材料逆向设计,始终是材料研究者们孜孜以求的目标。当前,AI算法的发展正在从传统的“决策式模型”逐步演进为更具创新性的“生成式模型”。关于生成式模型的基本概念,可以参考本刊上一期王磊、张潘老师撰写的《》[39]。在近两年里,生成式语言大模型GPT-4和视频大模型Sora的卓越表现,彰显了生成式AI模型的无限潜力,进一步鼓舞了研究者探索材料科学领域的生成式模型[40—48]。
2023年以来,研究者开始尝试发展生成式模型,实现以功能为导向的材料逆向设计。岭南大学Xiao等人引入一种基于有限图的“简化线输入晶体编码系统”(简称SLICES),将晶体结构的化学组成、键合连接性和平移向量编码成字符串[43]。通过SLICES系统,能够从字符串重建出超过40000种具有不同结构和化学性质的晶体结构,准确率达94.95%。进一步,面向光电应用,采用多步高通量筛选的方案(图5),逆向设计出14种新的直接窄禁带半导体,它们同时满足目标能隙、稳定性、成分新颖性和结构独特性等设计标准。微软研究院发展了一种用于无机晶体材料设计的生成模型,该模型通过引入基于扩散的生成过程来产生晶体结构,并通过逐步细化原子类型、坐标和周期性晶格来实现[46]。此外,该模型还引入了适配器模块,能够根据目标化学组成、对称性和标量属性(如能隙、体模量、磁密度)约束来微调生成的材料结构。作为该模型的应用演示,他们设计了几种无稀土元素的高性能永磁材料,能够同时满足高磁密度和低赫芬达尔—赫希曼指数的设计要求。
图5面向光电应用的直接窄禁带半导体的逆向设计工作流程。流程始于在MP数据库上训练一个通用的循环神经网络(RNN),以学习SLICES的语法,之后通过使用直接窄禁带半导体数据集对通用RNN进行调整来训练一个专门的RNN。然后,利用专门的RNN生成了约1000万个SLICES字符串,这些字符串被重建成约340万个晶体结构。这些晶体结构经过筛选,以识别新的直接窄禁带半导体[43]
最近,中国科学院物理研究所翁红明团队提出了一种条件晶体生成方法,能够生成具有特定材料性质的晶体结构[47]。该方法在Xie等人2022年发展的“晶体扩散变分自编码器”[48]的基础上,增加了“先验”和“预测器”两个模块,分别用于根据给定的性质生成潜在变量,再根据潜在变量生成晶体结构。测试结果表明,该方法在不同条件下(包括单个目标性质和组合目标性质)均能有效生成符合要求的晶体结构。
06
总结与展望
毫无疑问,数据驱动的机器学习技术正在为材料科学领域带来前所未有的创新活力。尽管在材料设计上已经取得了较大的进展,但仍然存在以下几方面的问题有待于深入研究。
首先,机器学习严重依赖于数据库的质量(包括数据的规模、准确性和一致性等)。然而,材料实验物性数据的匮乏,不同测量的不一致性、DFT自身精度的局限性等,都限制了材料数据库的发展。目前多个材料数据库并存,且多以DFT计算值为主,亟待整合和扩充成一个全面的“材料大数据库”,这将是开发“材料大模型”的数据基础。
其次,在材料设计领域,基于数据库与结构描述符的机器学习模型和基于文本学习的自然语言模型两条路线平行发展。针对某一特定任务,两类模型能否互相借鉴、取长补短,更全面地分析和利用现有的全部材料数据资源(包括科学文献、实验数据、高质量计算数据等)?
此外,目前材料的生成模型仍处于起步阶段,其潜力远未被充分挖掘,与GPT-4相比,其在发挥“生成式AI”的强大作用方面还有很大差距。
最后,当前材料科学领域的机器学习模型大多仍局限于“特定任务模型”的范畴,这限制了它们的迁移和泛化能力。随着语言大模型的兴起,构建适用于材料研究领域的“大模型”的愿景日渐明朗。展望未来,我们对“材料大模型”的成功充满信心,并期待其与新兴的自动化实验室[49]紧密协作,最终实现按照功能需求智能设计和高效合成新材料的目标。
致谢感谢中国科学院物理研究所翁红明研究员、苏州实验室陈忻研究员的讨论。
参考文献
[1]SongZ,ChenX,MengF
etal.Chin.Phys.B,2020,29(11):116103
[2]张林峰,王涵.物理,2024,53(7):431
[3]徐勇.物理,2024,53(7):442
[4]WardL,LiuR,KrishnaA
etal.Phys.Rev.B,2017,96:024104
[5]XieT,GrossmanJC.Phys.Rev.Lett.,2018,120:145301
[6]ZengS,ZhaoY,LiG
etal.npjComput.Mater.,2019,5:84
[7]GoodallREA,LeeAA.Nat.Commun.,2020,11:6280
[8]SchmidtJ,PetterssonL,VerdozziC
etal.Sci.Adv.,2021,7(49):eabi7948
[9]ChenC,OngSP.npjComput.Mater.,2021,7:173
[10]ChoudharyK,DeCostB.npjComput.Mater.,2021,7:185
[11]DavariashtiyaniA,KadkhodaeiS.Commun.Mater.,2023,4:105
[12]YangH,HuC,ZhouY
etal.2024,arXiv:2405.04967v2
[13]IsayevO,OsesC,ToherC
etal.Nat.Commun.,2017,8(1):15679
[14]ZhangY,LingC.npjComput.Mater.,2018,4:25
[15]TehraniAM,OliynykAO,ParryM
etal.J.Am.Chem.Soc.,2018,140:9844
[16]SekoA,MaekawaT,TsudaK
etal.Phys.Rev.B,2014,89:054303
[17]LiX,BlaiszikB,SchwartingME
etal.J.Chem.Phys.,2021,155:154702
[18]StanevV,OsesC,KusneAG
etal.npjComput.Mater.,2018,4:29
[19]ChoudharyK,GarrityK.npjComput.Mater.,2022,8:244
[20]KatsikasG,SarafidisC,KioseoglouJ.Phys.StatusSolidi(b),2021,258:2000600
[21]SanvitoS,OsesC,XueJ
etal.Sci.Adv.,2017,3(4):e1602241
[22]LuS,ZhouQ,GuoY
etal.Adv.Mater.,2020,32:2002658
[23]WangP,XingJ,JiangX
etal.ACSAppl.Mater.Interfaces,2022,14:33726
[24]SaalJE,KirklinS,AykolM
etal.JOM,2013,65:1501
[25]JainA,OngSP,HautierG
etal.APLMaterials,2013,1:011002
[26]CurtaroloS,SetyawanW,HarGLW
etal.Comput.Mater.Sci.,2012,58:218
[28]BergerhoffG,HundtR,SieversR.J.Chem.Inf.Model.,1983,23:66
[29]ChoudharyK,GarrityKF,ReidACE
etal.npjComput.Mater.,2020,6:173
[30]YaoTS,TangCY,YangM
etal.Chin.Phys.Lett.,2019,36:068101
[31]AykolM,MontoyaJH,HummelshjJ.J.Am.Chem.Soc.,2021,143:9244