文献笔记:一种将机器学习应用于材料科学小数据集的策略;Astrategytoapplymachinelearningtosmalldatasetsinmaterialsscience时为

摘要:材料科学研究中的数据集的小型化和多样化给机器学习带来了困难。文中分析了材料数据的可用性和机器学习模型的预测能力之间的基本相互作用。//数据量的影响不是直接影响模型的精度,而是由模型的自由度(DoF)来调节,导致精度与DoF之间存在关联现象。精度DoF关联的出现标志着欠拟合问题的出现,具有预测偏差大的特点,从而制约了未知域的准确预测。文中提出在特征空间中加入属性的粗估计,利用小尺寸材料数据建立ML模型,在不增加DoF代价的情况下提高预测精度。

介绍:

综合分析材料数据可用性与ML模型预测能力之间的相互作用是当前工作的重点。

文中的研究揭示了一个重要的现象,当模型使用有限的可用材料数据进行训练时:模型的自由度(DoF)与预测精度之间的联系,即精度的提高是以更高的DoF为代价的。精度-自由度关联的出现,源于统计偏差-方差权衡,制约了未知域预测的准确性。

在不增加DoF的前提下,提出了一种基于特征空间的粗糙属性估计(CEP)方法来提高算法的精度。在三个案例研究中,粗估计的集成有效地提高了ML模型的预测精度,证明了所提出的利用小材料数据构建精确ML模型策略的通用性。

结果:

研究手段:使用了一系列手工制作的化学参数作为可能的描述符,采用了Ward等人提出的方法。我们使用核脊回归(KRR)来构建ML模型,因为它给出了与其他ML算法作为基准的最低预测误差。为了操作训练数据的大小,从整个数据集中随机抽取子集。正如预期的那样,CV-RMSE随着数据集的扩展而不断减少。

为了理解大型RMSE的起源,我们使用了自举法分解偏差和方差对预测误差的贡献。(略)

为了检验ML方法的选择是否影响数据大小对模型精度影响的结论,分析了用最小绝对收缩和选择算子(LASSO)回归建立的模型。精度较低可能是由于未能捕获复杂的物理与线性回归算法。这些结果表明,当模型使用小尺寸材料数据进行训练时,而不是依赖于选择回归方法进行唯一的观察时,DoF关联的精度是一种普遍的统计现象。

虽然DoF关联起源于基础统计,但其精度不仅仅是一种统计现象。由于关联是欠拟合的结果,因此预测误差在很大程度上由特征性的大偏倚控制,这阻碍了准确预测规则的建立。在上述研究中,即使是最好的模型也比现代密度泛函理论预测Eg的性能差。因此,如何在不增加DoF的前提下提高模型精度,成为ML在材料性能建模中的一个重要挑战。

策略:

原则上,可以通过适当地操纵训练数据来达到提高精度的目的。例如,我们可以自然地考虑向训练集添加更多的示例。然而,简单地扩展数据集不仅会导致非常复杂的模型难以解释嵌入的物理,而且还可能受到进行额外实验的昂贵成本的阻碍。根据图1建立的经验关系,将数据量增加一倍,误差减少约23%。因此,指数增长的成本挑战了通过添加新材料数据来提高准确性的可行性。也可以通过限制材料的构型空间来建立模型,例如预测具有固定成分或晶体结构的半导体族的能带隙,而不是对跨越广阔化学空间的化合物进行建模。因此,构造的ML-estimator获得了更高的精度,但在应用于有限域之外时牺牲了通用性。

考虑到训练数据的灵活性较差,从设计合适的特征空间进行建模开始,是材料信息学中公认的关键步骤。在前一节的分析之后,让我们假设一个简单的玩具模型,其中属性由单个特征明确地确定。在这种情况下,一旦在建模中包含了这个特殊特性,即使训练数据只包含两个样本,关联的精度也应该消失。因此,我们的意图是设计特征,以满足//(1)提供表达性信息,使属性可以被估计(虽然估计可能不准确)和//(2)满足其他要求,如低维度和廉价的获取成本。在1的基础上考虑,我们提醒自己,材料属性的预测进行了几个世纪前的时代。尽管实证估计可能无法准确预测绝对值而言,它可能仍然至少提供定性知识有针对性的财产。由于在构建适当的特征空间时应该考虑目标属性的任何先验知识,因此我们希望在ML模型中使用CEP作为化学描述符之外的描述符。

为了更精确地描述所提出的策略,我们将CEP定义为使用不太精确的方法(包括零或接近零的计算要求计算、经验模型和不昂贵的实验测量)预测目标属性。有了这个定义,CEP的使用满足了获取成本低廉的考虑2。

我们的想法是将CEP与之前使用的化学描述符结合起来,来预测目标属性。在以前的报告中,PBE计算的带隙,这是不准确的,但也较低的计算要求,用于预测更准确和更昂贵的水平计算的带隙。虽然早期作品的成功部分有关的事实描述符和属性都是获得使用类似的基础理论,我们证明在当前工作的使用CEP的描述符提高预测实验测量特性,模型性能的强烈影响的大噪声包含在训练集。

此外,我们的研究表明,获得CEP的方法不仅限于密度泛函计算,而且可以推广到其他不昂贵的方法。在以下部分中,我们构建毫升模型三个练习:如使用GGAcalculated值的预测CEP,晶格热导率(κL)使用经验模型来获得CEP和弹性性能的沸石使用力场计算获得CEP。在这三项研究中,通过将CEP整合到特征空间中,ML模型都获得了最先进的预测能力,证明了用少量可用材料数据构建精确ML模型的策略的通用性。

应用:

重要的是,所提出的策略的成功依赖于CEP和属性的统计关系,而不需要对目标属性本身进行足够准确的估计,这为设计合适的描述符设置了最小的障碍。考虑到大量的模型和方法来经验地预测材料的性能,我们乐观地认为,我们提出的策略允许一个通用的解决方案来桥接机器学习技术和材料科学家的传统智慧,以创建更好的预测模型。

许多材料特性的数量通常在一到几百个之间,因此在试图建立ML模型时需要特别小心。目前的工作是研究数据量和预测精度之间的基本相互作用.我们证明了数据量的影响不是直接影响精度,而是由模型DoF来调节的,当模型在有限的材料数据可用性下进行训练时,会产生精度-DoF关联。精度-自由度关联的出现是统计欠拟合的信号,具有较大的预测偏差,限制了未知域的预测能力。提出了一种将CEP作为描述符的方法,利用小材料数据建立精确的ML模型。

在三个案例研究中,粗估计的使用有效地提高了ML模型的预测能力到最新水平,证明了所提出的使用小材料数据构建精确ML模型的策略的通用性。

方法:

一,数据准备

1.属性数据集(略)

2.属性的粗略估计

3.化学描述符:

按照Ward等人的方法,将34个指纹型化学描述符分为以下几类:(1)化学计量属性,包括元素的重量百分比和原子百分比;(2)元素性质包括电负性、原子半径、有效核电荷、范德华半径、共价半径、周期表行数、块数、气态原子生成焓、电离能、价数;(3)化合物描述符,包括分子量、密度、体积、配位数、原子序数密度;(4)电子结构贡献。利用特征选择算法选择最优特征子集。

二,机器学习

1.回归KRRLASSO

2.特征选择

套索回归(LASSO)的模型是由不同的调优参数λ的收缩选择一个子集非零系数CV误差降到最低。

在KRR中,使用逐步向前搜索过程来选择特征。逐步前向搜索从零特征开始,迭代地寻找下一个最大减少CV错误的特征。当不能通过添加新特性来减少CV错误时,搜索停止。

3.调解分析

调解分析按照传教士和Kelly的方法进行,使用基于普通最小二乘回归分析的MBESS软件包在R中计算.

THE END
1.美国开发机器学习的方法,用于实时检测金属增材制造的热量积累原位监测的重要性:原位监测对于确保金属增材制造过程的质量和可靠性至关重要。它可以帮助实现缺陷监控、自动反馈控制、过程参数映射和减少材料浪费。计算框架的开发:卡耐基梅隆大学的研究人员开发了采用机器学习的计算框架,以实时识别局部热量积累的区域。这种方法的有效性已在具有各种几何特征的构建上得到了验证。通过上述https://baijiahao.baidu.com/s?id=1799203677359353546&wfr=spider&for=pc
2.如何利用机器学习推动智能材料的发展本文探讨了机器学习如何在智能材料领域发挥作用,包括材料设计、性能预测和制造优化。文章介绍了核心概念,如机器学习算法(如线性回归、SVM、决策树等)及其在智能材料中的应用,并讨论了未来发展趋势和面临的挑战,如数据质量和隐私保护。 摘要由CSDN通过智能技术生成 https://blog.csdn.net/universsky2015/article/details/135807839
3.机器学习在材料信息学中的应用综述机器学习在材料信息学中的应用综述 随着科技的不断发展,和机器学习已经深入影响了许多领域。其中, 材料信息学作为一个跨学科的领域,结合了材料科学、物理学、化学 和计算机科学的知识,对理解材料的性质和设计新的材料具有重要意 义。近年来,机器学习在材料信息学中的应用已经取得了显著的进步, 本文将对此进行综述。 https://www.docin.com/touch_new/preview_new.do?id=4562864718
4.如何在智能信息化时代加速材料科学的研发与创新如图4所示,材料科学中常用的机器学习算法可以分为四类:概率估计、回归、聚类和分类。具体而言,概率估计算法主要用于新材料发现,而回归、聚类和分类算法用于宏观和微观层面的材料特性预测。此外,机器学习方法通常与各种智能优化算法相结合,例如GA,SAA或PSO算法,主要用于优化模型参数。此外,这些优化算法也可用于执行其他困难https://cloud.tencent.com/developer/news/333018
5.机器学习顶刊汇总:Science子刊AMAFMAdv.Sci.npjComput在此,美国伊利诺伊大学陈倩教授等人通过耦合定量3D成像、机器学习(ML)和理论建模,研究了聚酰胺薄膜模型系统中的纳米形态发生及其对渗透性和机械异质性的影响。聚酰胺膜是用于高效分子分离的大多数薄膜复合材料中的活性层,一般通过界面聚合合成。该薄膜在宏观上是平坦的,但其特征是包含纳米级内部空隙的复杂3D不均匀褶皱,https://www.shangyexinzhi.com/article/4707079.html
6.机器学习在钢铁材料研究中的应用综述机器学习技术已广泛 应用于指导材料设计中, 成为材料研究的新兴方法和热门领域. 对机器学习在钢铁材料研究中的应用进展进行综述, 介绍了 机器学习的工作流程和常用模型与算法, 阐述了机器学习在钢铁材料特征选择, 成分-工艺-性能预测, 服役行为预测以及逆 向设计方面的研究进展. 最后, 分析了机器学习技术在钢铁材料http://www.mat-china.com/oa/pdfdow.aspx?Sid=202112020
7.描述符与机器学习实现固体氧化物燃料电池阴极活性有效预测—论文—科该研究将机器学习、理论计算与陶瓷固体氧化物开发相结合,开发了一个经过实验验证的阴极材料机器学习筛选技术,实现了快速、有效地从庞大的钙钛矿组分中筛选高活性固体氧化物燃料电池阴极材料。 背景介绍 实现煤炭的清洁高效利用,推动煤炭革命,对我国能源结构改革具有重大战略意义!当前,现代化的燃煤电厂受到卡诺循环的限制,单https://news.sciencenet.cn/htmlpaper/2022/9/20229611394262575541.shtm
8.高通量多尺度材料计算和机器学习/材料基因工程丛书《高通量多尺度材料计算和机器学习/材料基因工程丛书》,作者:高通量多尺度材料计算和机器学习/材料基因工程丛书杨小渝|责编:周涵//郭学雯 著,出版社:科学,ISBN:9787030762825。http://product.m.dangdang.com/11684308154.html
9.材料科学+人工智能是下一个可能发生类似Alphafold的重大变革什么样的材料科学问题最适合于数据驱动的方法,或者最能从数据驱动的方法中受益,这些问题不断出现。在决定使用机器学习方法解决他们感兴趣的问题之前,对这方面有一个满意的理解是至关重要的。也许数据驱动方法最危险的方面是在不知不觉中把机器学习模型应用于先前数据领域之外的情况。一个丰富的、在很大程度上未知的https://www.iyiou.com/news/202107271020214
10.助力科研:;lammpsreaxff反应力场机器学习comsol电化学【机器学习材料性能预测与材料基因工程应用实战】 深度学习神经网络、经典机器学习模型、材料基因工程入门与实战、图神经网络与实践、机器学习+Science 案例:(神经网络在催化领域的应用、预测杂化钙钛矿带隙、有机太阳能电池材料快速筛选、团簇结构数据库构建、同素异形体结构数据库构建、原子性质分析、材料指纹和势函数生成https://www.jianshu.com/p/ce722c74db43
11.机器学习方法预测材料性能的新进展近二十年来,机器学习方法的发展为我们的生活带来许多便利。智能网络搜索、语音识别,乃至无人超市、无人驾驶汽车等,依托于机器学习方法的新事物正迅速地在生活中普及。Alpha Go的横空出世更让世界惊叹于人工智能的潜在价值。在科研领域,大数据的理念正在改变着科研人员对未知世界的探索方式。美国在2011年提出了材料基因组http://mmp.iphy.ac.cn/cn_detail.php?id=31633
12.玻尔?科研空间站(Bohrium?)“一网打尽”机器学习从进一步将机器学习方法应用在化学、生命科学、材料等科学领域,可以一定程度上替代传统实验的方法,如通过优化算法等手段,实现优化特定目标的属性和性质的目的。在材料发现领域,机器学习手段可以应用在材料结构设计和优化环节,快速探索可能的材料配置和性能。针对材料相关专业的学员,推荐的最后一门课程是 《 机器学习辅助材料https://maimai.cn/article/detail?fid=1832965941&efid=Fo047MTNUm519uB8Z8F94A
13.大数据AND机器学习:大数据是原材料,机器学习是原材料加工厂大数据是原材料,机器学习是原材料加工厂,而新一代人工智能服务则是工厂出炉的产品被消费在越来越多的日常生活中。 在Deepmind和AlphaGo获得的巨大成功吸引了全世界的目光的同时,新一代人工智能德比大战已经开始。 Deepmind之前开发的玩雅达利(Atari)街机游戏的人工智能是全新一代的智能技术——大数据驱动通用人工智能(Bighttps://www.cda.cn/view/17136.html
14.AI人工智能助力新材料配方研发!专栏文章摘要:近年来材料科学研究发展十分迅猛,不管是依靠实验手段还是计算模拟,都会产生大量数据信息,依靠机器学习算法可以从数据中挖掘有效信息,对于计算产生的大规模、高维度数据集,可以有效识别,提取数据集中的隐含规律和相关性。此外,利用机器学习还可以实现特征提取、图片识别等。 http://www.e-erp.com/zlwz/306.html
15.基于机器学习的新型高强镍基高温合金设计与优化.pptx基于机器学习的新型高强镍基高温合金设计与优化20231027目录contents引言材料科学基础基于机器学习的材料设计方法高强镍基高温合金的设计与优化基于机器学习的材料性能预测与优化结论与展望引言01研究背景与意义随着航空航天技术的快速发展https://www.renrendoc.com/paper/302420646.html