文献笔记：一种将机器学习应用于材料科学小数据集的策略；Astrategytoapplymachinelearningtosmalldatasetsinmaterialsscience时为|机器学习+材料科学_在线学习

摘要：材料科学研究中的数据集的小型化和多样化给机器学习带来了困难。文中分析了材料数据的可用性和机器学习模型的预测能力之间的基本相互作用。//数据量的影响不是直接影响模型的精度，而是由模型的自由度(DoF)来调节，导致精度与DoF之间存在关联现象。精度DoF关联的出现标志着欠拟合问题的出现，具有预测偏差大的特点，从而制约了未知域的准确预测。文中提出在特征空间中加入属性的粗估计，利用小尺寸材料数据建立ML模型，在不增加DoF代价的情况下提高预测精度。

介绍：

综合分析材料数据可用性与ML模型预测能力之间的相互作用是当前工作的重点。

文中的研究揭示了一个重要的现象，当模型使用有限的可用材料数据进行训练时:模型的自由度(DoF)与预测精度之间的联系，即精度的提高是以更高的DoF为代价的。精度-自由度关联的出现，源于统计偏差-方差权衡，制约了未知域预测的准确性。

在不增加DoF的前提下，提出了一种基于特征空间的粗糙属性估计(CEP)方法来提高算法的精度。在三个案例研究中，粗估计的集成有效地提高了ML模型的预测精度，证明了所提出的利用小材料数据构建精确ML模型策略的通用性。

结果：

研究手段：使用了一系列手工制作的化学参数作为可能的描述符，采用了Ward等人提出的方法。我们使用核脊回归(KRR)来构建ML模型，因为它给出了与其他ML算法作为基准的最低预测误差。为了操作训练数据的大小，从整个数据集中随机抽取子集。正如预期的那样，CV-RMSE随着数据集的扩展而不断减少。

为了理解大型RMSE的起源，我们使用了自举法分解偏差和方差对预测误差的贡献。（略）

为了检验ML方法的选择是否影响数据大小对模型精度影响的结论，分析了用最小绝对收缩和选择算子(LASSO)回归建立的模型。精度较低可能是由于未能捕获复杂的物理与线性回归算法。这些结果表明，当模型使用小尺寸材料数据进行训练时，而不是依赖于选择回归方法进行唯一的观察时，DoF关联的精度是一种普遍的统计现象。

虽然DoF关联起源于基础统计，但其精度不仅仅是一种统计现象。由于关联是欠拟合的结果，因此预测误差在很大程度上由特征性的大偏倚控制，这阻碍了准确预测规则的建立。在上述研究中，即使是最好的模型也比现代密度泛函理论预测Eg的性能差。因此，如何在不增加DoF的前提下提高模型精度，成为ML在材料性能建模中的一个重要挑战。

策略：

原则上，可以通过适当地操纵训练数据来达到提高精度的目的。例如，我们可以自然地考虑向训练集添加更多的示例。然而，简单地扩展数据集不仅会导致非常复杂的模型难以解释嵌入的物理，而且还可能受到进行额外实验的昂贵成本的阻碍。根据图1建立的经验关系，将数据量增加一倍，误差减少约23%。因此，指数增长的成本挑战了通过添加新材料数据来提高准确性的可行性。也可以通过限制材料的构型空间来建立模型，例如预测具有固定成分或晶体结构的半导体族的能带隙，而不是对跨越广阔化学空间的化合物进行建模。因此，构造的ML-estimator获得了更高的精度，但在应用于有限域之外时牺牲了通用性。

考虑到训练数据的灵活性较差，从设计合适的特征空间进行建模开始，是材料信息学中公认的关键步骤。在前一节的分析之后，让我们假设一个简单的玩具模型，其中属性由单个特征明确地确定。在这种情况下，一旦在建模中包含了这个特殊特性，即使训练数据只包含两个样本，关联的精度也应该消失。因此，我们的意图是设计特征，以满足//(1)提供表达性信息，使属性可以被估计(虽然估计可能不准确)和//(2)满足其他要求，如低维度和廉价的获取成本。在1的基础上考虑,我们提醒自己,材料属性的预测进行了几个世纪前的时代。尽管实证估计可能无法准确预测绝对值而言,它可能仍然至少提供定性知识有针对性的财产。由于在构建适当的特征空间时应该考虑目标属性的任何先验知识，因此我们希望在ML模型中使用CEP作为化学描述符之外的描述符。

为了更精确地描述所提出的策略，我们将CEP定义为使用不太精确的方法(包括零或接近零的计算要求计算、经验模型和不昂贵的实验测量)预测目标属性。有了这个定义，CEP的使用满足了获取成本低廉的考虑2。

我们的想法是将CEP与之前使用的化学描述符结合起来，来预测目标属性。在以前的报告中，PBE计算的带隙，这是不准确的，但也较低的计算要求，用于预测更准确和更昂贵的水平计算的带隙。虽然早期作品的成功部分有关的事实描述符和属性都是获得使用类似的基础理论,我们证明在当前工作的使用CEP的描述符提高预测实验测量特性,模型性能的强烈影响的大噪声包含在训练集。

此外,我们的研究表明，获得CEP的方法不仅限于密度泛函计算，而且可以推广到其他不昂贵的方法。在以下部分中,我们构建毫升模型三个练习:如使用GGAcalculated值的预测CEP,晶格热导率(κL)使用经验模型来获得CEP和弹性性能的沸石使用力场计算获得CEP。在这三项研究中，通过将CEP整合到特征空间中，ML模型都获得了最先进的预测能力，证明了用少量可用材料数据构建精确ML模型的策略的通用性。

应用:

重要的是，所提出的策略的成功依赖于CEP和属性的统计关系，而不需要对目标属性本身进行足够准确的估计，这为设计合适的描述符设置了最小的障碍。考虑到大量的模型和方法来经验地预测材料的性能，我们乐观地认为，我们提出的策略允许一个通用的解决方案来桥接机器学习技术和材料科学家的传统智慧，以创建更好的预测模型。

许多材料特性的数量通常在一到几百个之间，因此在试图建立ML模型时需要特别小心。目前的工作是研究数据量和预测精度之间的基本相互作用.我们证明了数据量的影响不是直接影响精度，而是由模型DoF来调节的，当模型在有限的材料数据可用性下进行训练时，会产生精度-DoF关联。精度-自由度关联的出现是统计欠拟合的信号，具有较大的预测偏差，限制了未知域的预测能力。提出了一种将CEP作为描述符的方法，利用小材料数据建立精确的ML模型。

在三个案例研究中，粗估计的使用有效地提高了ML模型的预测能力到最新水平，证明了所提出的使用小材料数据构建精确ML模型的策略的通用性。

方法：

一，数据准备

1.属性数据集（略）

2.属性的粗略估计

3.化学描述符：

按照Ward等人的方法，将34个指纹型化学描述符分为以下几类:(1)化学计量属性，包括元素的重量百分比和原子百分比;(2)元素性质包括电负性、原子半径、有效核电荷、范德华半径、共价半径、周期表行数、块数、气态原子生成焓、电离能、价数;(3)化合物描述符，包括分子量、密度、体积、配位数、原子序数密度;(4)电子结构贡献。利用特征选择算法选择最优特征子集。

二，机器学习

1.回归KRRLASSO

2.特征选择

套索回归（LASSO）的模型是由不同的调优参数λ的收缩选择一个子集非零系数CV误差降到最低。

在KRR中，使用逐步向前搜索过程来选择特征。逐步前向搜索从零特征开始，迭代地寻找下一个最大减少CV错误的特征。当不能通过添加新特性来减少CV错误时，搜索停止。

3.调解分析

调解分析按照传教士和Kelly的方法进行，使用基于普通最小二乘回归分析的MBESS软件包在R中计算.

THE END

文献笔记：一种将机器学习应用于材料科学小数据集的策略；Astrategytoapplymachinelearningtosmalldatasetsinmaterialsscience时为

AI颠覆材料化学，汇总2024年最值得关注的科研成果

AI驱动优化粘土地聚物凝胶配比纳米高斯材料聚合物

AI+材料科学：人工智能提速新材料发现

材料信息学：解码材料基因图谱丨科普硅立方

腾讯教育举办材料多尺度计算研讨会11位材料科学家高校学者共话材料科学云计算前景

015精彩回顾鄂维南作题为“AI与材料科学”报告

文献笔记：一种将机器学习应用于材料科学小数据集的策略；Astrategytoapplymachinelearningtosmalldatasetsinmaterialsscience时为

AI助力科学家：利用AI代理模型和扩散模型辅助科学设计丨周日直播·AI+Science读书会集智俱乐部

上海大学2023年博士研究生招生简章：材料科学与工程考博招生简章资讯

范阳谈深科技原子世界的基础模型：生成式AIx材料科学

启明创投资讯（2023年06月）启明创投

北京科技大学材料科学与工程学院张虎教授团队2024年博士后研究人员启事