文献笔记:一种将机器学习应用于材料科学小数据集的策略;Astrategytoapplymachinelearningtosmalldatasetsinmaterialsscience时为

摘要:材料科学研究中的数据集的小型化和多样化给机器学习带来了困难。文中分析了材料数据的可用性和机器学习模型的预测能力之间的基本相互作用。//数据量的影响不是直接影响模型的精度,而是由模型的自由度(DoF)来调节,导致精度与DoF之间存在关联现象。精度DoF关联的出现标志着欠拟合问题的出现,具有预测偏差大的特点,从而制约了未知域的准确预测。文中提出在特征空间中加入属性的粗估计,利用小尺寸材料数据建立ML模型,在不增加DoF代价的情况下提高预测精度。

介绍:

综合分析材料数据可用性与ML模型预测能力之间的相互作用是当前工作的重点。

文中的研究揭示了一个重要的现象,当模型使用有限的可用材料数据进行训练时:模型的自由度(DoF)与预测精度之间的联系,即精度的提高是以更高的DoF为代价的。精度-自由度关联的出现,源于统计偏差-方差权衡,制约了未知域预测的准确性。

在不增加DoF的前提下,提出了一种基于特征空间的粗糙属性估计(CEP)方法来提高算法的精度。在三个案例研究中,粗估计的集成有效地提高了ML模型的预测精度,证明了所提出的利用小材料数据构建精确ML模型策略的通用性。

结果:

研究手段:使用了一系列手工制作的化学参数作为可能的描述符,采用了Ward等人提出的方法。我们使用核脊回归(KRR)来构建ML模型,因为它给出了与其他ML算法作为基准的最低预测误差。为了操作训练数据的大小,从整个数据集中随机抽取子集。正如预期的那样,CV-RMSE随着数据集的扩展而不断减少。

为了理解大型RMSE的起源,我们使用了自举法分解偏差和方差对预测误差的贡献。(略)

为了检验ML方法的选择是否影响数据大小对模型精度影响的结论,分析了用最小绝对收缩和选择算子(LASSO)回归建立的模型。精度较低可能是由于未能捕获复杂的物理与线性回归算法。这些结果表明,当模型使用小尺寸材料数据进行训练时,而不是依赖于选择回归方法进行唯一的观察时,DoF关联的精度是一种普遍的统计现象。

虽然DoF关联起源于基础统计,但其精度不仅仅是一种统计现象。由于关联是欠拟合的结果,因此预测误差在很大程度上由特征性的大偏倚控制,这阻碍了准确预测规则的建立。在上述研究中,即使是最好的模型也比现代密度泛函理论预测Eg的性能差。因此,如何在不增加DoF的前提下提高模型精度,成为ML在材料性能建模中的一个重要挑战。

策略:

原则上,可以通过适当地操纵训练数据来达到提高精度的目的。例如,我们可以自然地考虑向训练集添加更多的示例。然而,简单地扩展数据集不仅会导致非常复杂的模型难以解释嵌入的物理,而且还可能受到进行额外实验的昂贵成本的阻碍。根据图1建立的经验关系,将数据量增加一倍,误差减少约23%。因此,指数增长的成本挑战了通过添加新材料数据来提高准确性的可行性。也可以通过限制材料的构型空间来建立模型,例如预测具有固定成分或晶体结构的半导体族的能带隙,而不是对跨越广阔化学空间的化合物进行建模。因此,构造的ML-estimator获得了更高的精度,但在应用于有限域之外时牺牲了通用性。

考虑到训练数据的灵活性较差,从设计合适的特征空间进行建模开始,是材料信息学中公认的关键步骤。在前一节的分析之后,让我们假设一个简单的玩具模型,其中属性由单个特征明确地确定。在这种情况下,一旦在建模中包含了这个特殊特性,即使训练数据只包含两个样本,关联的精度也应该消失。因此,我们的意图是设计特征,以满足//(1)提供表达性信息,使属性可以被估计(虽然估计可能不准确)和//(2)满足其他要求,如低维度和廉价的获取成本。在1的基础上考虑,我们提醒自己,材料属性的预测进行了几个世纪前的时代。尽管实证估计可能无法准确预测绝对值而言,它可能仍然至少提供定性知识有针对性的财产。由于在构建适当的特征空间时应该考虑目标属性的任何先验知识,因此我们希望在ML模型中使用CEP作为化学描述符之外的描述符。

为了更精确地描述所提出的策略,我们将CEP定义为使用不太精确的方法(包括零或接近零的计算要求计算、经验模型和不昂贵的实验测量)预测目标属性。有了这个定义,CEP的使用满足了获取成本低廉的考虑2。

我们的想法是将CEP与之前使用的化学描述符结合起来,来预测目标属性。在以前的报告中,PBE计算的带隙,这是不准确的,但也较低的计算要求,用于预测更准确和更昂贵的水平计算的带隙。虽然早期作品的成功部分有关的事实描述符和属性都是获得使用类似的基础理论,我们证明在当前工作的使用CEP的描述符提高预测实验测量特性,模型性能的强烈影响的大噪声包含在训练集。

此外,我们的研究表明,获得CEP的方法不仅限于密度泛函计算,而且可以推广到其他不昂贵的方法。在以下部分中,我们构建毫升模型三个练习:如使用GGAcalculated值的预测CEP,晶格热导率(κL)使用经验模型来获得CEP和弹性性能的沸石使用力场计算获得CEP。在这三项研究中,通过将CEP整合到特征空间中,ML模型都获得了最先进的预测能力,证明了用少量可用材料数据构建精确ML模型的策略的通用性。

应用:

重要的是,所提出的策略的成功依赖于CEP和属性的统计关系,而不需要对目标属性本身进行足够准确的估计,这为设计合适的描述符设置了最小的障碍。考虑到大量的模型和方法来经验地预测材料的性能,我们乐观地认为,我们提出的策略允许一个通用的解决方案来桥接机器学习技术和材料科学家的传统智慧,以创建更好的预测模型。

许多材料特性的数量通常在一到几百个之间,因此在试图建立ML模型时需要特别小心。目前的工作是研究数据量和预测精度之间的基本相互作用.我们证明了数据量的影响不是直接影响精度,而是由模型DoF来调节的,当模型在有限的材料数据可用性下进行训练时,会产生精度-DoF关联。精度-自由度关联的出现是统计欠拟合的信号,具有较大的预测偏差,限制了未知域的预测能力。提出了一种将CEP作为描述符的方法,利用小材料数据建立精确的ML模型。

在三个案例研究中,粗估计的使用有效地提高了ML模型的预测能力到最新水平,证明了所提出的使用小材料数据构建精确ML模型的策略的通用性。

方法:

一,数据准备

1.属性数据集(略)

2.属性的粗略估计

3.化学描述符:

按照Ward等人的方法,将34个指纹型化学描述符分为以下几类:(1)化学计量属性,包括元素的重量百分比和原子百分比;(2)元素性质包括电负性、原子半径、有效核电荷、范德华半径、共价半径、周期表行数、块数、气态原子生成焓、电离能、价数;(3)化合物描述符,包括分子量、密度、体积、配位数、原子序数密度;(4)电子结构贡献。利用特征选择算法选择最优特征子集。

二,机器学习

1.回归KRRLASSO

2.特征选择

套索回归(LASSO)的模型是由不同的调优参数λ的收缩选择一个子集非零系数CV误差降到最低。

在KRR中,使用逐步向前搜索过程来选择特征。逐步前向搜索从零特征开始,迭代地寻找下一个最大减少CV错误的特征。当不能通过添加新特性来减少CV错误时,搜索停止。

3.调解分析

调解分析按照传教士和Kelly的方法进行,使用基于普通最小二乘回归分析的MBESS软件包在R中计算.

THE END
1.如何在智能信息化时代加速材料科学的研发与创新如图4所示,材料科学中常用的机器学习算法可以分为四类:概率估计、回归、聚类和分类。具体而言,概率估计算法主要用于新材料发现,而回归、聚类和分类算法用于宏观和微观层面的材料特性预测。此外,机器学习方法通常与各种智能优化算法相结合,例如GA,SAA或PSO算法,主要用于优化模型参数。此外,这些优化算法也可用于执行其他困难https://cloud.tencent.com/developer/news/333018
2.机器学习材料性能预测与材料基因工程应用实战然而,机器学习在材料科学中的应用仍存在一些瓶颈,人工智能研究项目所需的技能和知识匮乏缺失制约着该方向的发展。以下内容可作为学习的参考 入门阶段从机器学习以及机器学习在材料领域的应用基本概念开始讲授,让大家明确机器学习方法的适用性和优势,以及有针对性的对python语言基础进行系统学习,为之后构建相应算法模型框架打https://blog.csdn.net/y2715163545/article/details/130487823
3.科学网—jyx123321的博客机器学习在材料科学中的进展研讨会的报告 2024-08-21 昨天我们学院年轻有为的 LONG T 老师组织了机器学习在材料科学中的进展研讨会,我受邀做了一个报告《面向复杂电路结构可靠性仿真的基于 Transformer (4111)次阅读|(6)个评论 生成式人工智能在集成电路行业中深入应用的期望 2024-08-13 在8 月 11 日写https://blog.sciencenet.cn/home.php?mod=space&uid=99553
4.机器学习在材料科学中应用作为一个目前专业为材料学科,但却独自学习机器学习的小菜鸡,最理想的莫过于将俩者结合,但是这只是个想法,感觉理论上可以实现,要达到这样的目的还需要很艰难的一段路要走,但不妨先把目前的相关的知识整理下来。 我们的日常生活受到材料的影响,从数十亿分之一秒的硅芯片数据存储到汽车发动机的新合金,再到可再生能源https://www.jianshu.com/p/b3b3546446ab
5.材料科学加人工智能是下一个可能发生的类似Alphafold的重大变革在传统的方法中,新材料是通过实验、理论或计算来发现的(也被称为第一、第二和第三范式,由左侧面板上方的三个图标象征)。在数据驱动的材料科学的第四范式中,可用的数据被收集在数据基础设施中,机器学习方法发现新材料。这些方法导致了借用机器学习模型,使人们能够纯粹根据过去的数据进行快速预测,而不是通过直接实验或https://www.yicai.com/news/101121158.html
6.机器学习技术在材料科学领域中的应用进展维普期刊官网摘要 材料是国民经济的基础,新材料的发现是推动现代科学发展与技术革新的源动力之一,传统的实验“试错型”研究方法具有成本高、周期长和存在偶然性等特点,难以满足现代材料的研究需求。近些年,随着人工智能和数据驱动技术的飞速发展,机器展开更多 Materials are the foundation of the national economy,the discovery https://qikan.cqvip.com/Qikan/Article/Detail?id=7105430528
7.2020年中国科学技术大学材料科学与工程学院(金属研究所)招生专业中国科学院金属研究所(以下简称金属所)成立于1953年,是新中国成立后中国科学院新创建的首批研究所之一,创建者是我国著名的物理冶金学家李薰先生。现任所长左良教授。经老一辈科学家和几代人的不懈努力,金属所已经发展成为我国享誉海内外的材料科学与工程领域重要的研究基地,也是培养材料科学与工程高级人才的重要基地。 https://yz.kaoyan.com/ustc/zhuanye/5dad13ceab77c.html
8.前沿报告机器学习在化学和材料科学中的应用获取英文PDF报告请在本公众号回复关键词"机器学习物理科学"。 Ⅵ 化学和材料科学 机器学习方法已被应用于预测分子和固体的能量和性质,并且这种应用的受欢迎程度急剧增加。原子相互作用的量子性质使能量评估的计算量很大,因此,当需要进行许多此类计算时,机器方法尤其有用。近年来,ML 在化学和材料研究中的不断扩展的应用https://blog.51cto.com/u_15622928/5809397
9.智算芯闻材料科学迈向AI4Materials的关键因素:密度泛函理论图3 材料科学中机器学习的一般流程 图片来源于文献[20] 3.1、材料工程特征 把人工智能与材料科学结合起来的第一步是构建材料描述符,通常也叫做材料指纹,这个过程也叫做材料的特征工程[21]。通常一个好的分子或晶体结构描述符需要满足唯一性、平移不变性、旋转不变性、排列不变性等。材料结构的描述符通常可分为两个https://www.metax-tech.com/ndetail/12502.html