范阳谈深科技原子世界的基础模型：生成式AIx材料科学|机器学习+材料科学_在线学习

我猜想，下一个时代的定义性材料之一，有可能是蛋白质，不过今天蛋白质的技术还在萌芽当中，生产蛋白质也依然很贵。

新的技术组合会孕育出超过上一个石油化工时代的物质和材料创造，大概率这会在交叉地带产生：人工智能/机器学习x先进材料科学x合成生物技术x（从头）蛋白质设计等等，当然也需要基础科学比如物理，数学，化学，量子计算的突破。

无论是在中国还是欧洲和美国，这都需要多种科学/技术领域的专业性，和跨学科人才深度的交流和配合。未来会有很多迷你且高效的“曼哈顿计划”。

在流行文化当中，对于创造一种多功能的“超级材料”的想象，一个典型的例子就是漫威宇宙里瓦坎达的振金（Vibranium），一种漫画里虚构的万能金属（又称吸音金属或涅槃钢），它可以吸收能量储存能量也能释放能量，柔软且坚韧，甚至振金还有“意识”，有一种sentientVibranium变体，可以自我计算和自组装。

当然目前这还只是科幻，地球上还不存在这种啥都能干的纳米材料，可能最接近“纳米机器”的“技术”就是生物技术，生物的每一个细胞都有强大的预装功能和制造能力，材料科学可以借助生物细胞和蛋白质的能力实现“自我生长”“自我组装与修复”的能力，也开始被一些材料科学家，机械工程师和生物学家注意到，虽然研究难度非常大，但是也是未来值得期待的。

“材料设计的变革性AI基础模型：

我们设计突破性的材料并将其商业化。从“无稀土电池”和半导体，到碳捕获材料和绿色肥料，我们开发的基础平台技术将影响到世界经济的重要部分，并可能支撑我们经济的绿色转型。我们平台的基础是分子的三维基础模型，它将人工智能突破性的进步，如GPT-3、StableDiffusion和AlphaFold带入材料设计。”

希望本文对你有启发。

作者：JONATHANGODWIN

编辑：范阳

Twitter上不乏ChatGPT等大型语言模型展示出各种炫酷能力的例子，比如重写博文、解决数学问题，甚至代替程序员写代码和写诗歌。因此，一些人将它们称为"基础模型"（FoundationModels），并预测它们将被广泛应用于各种产品中。

作为一个利用人工智能探索开发未来的新材料（如半导体、碳捕获技术用到的材料等）的人，我对人工智能带来的各种可能性感到兴奋。值得注意的是，尽管计算机辅助设计（computer-aideddesign）已经在许多领域带来了革命，但材料科学领域对于这些新技术的接受度仍然有阻力。例如，我们不会像设计飞机机翼一样在计算机上设计新电池。

但是，如果有一个基础模型可以改变这一点呢？也许它可以帮助我们以前所未有的速度设计新的计算机芯片、电池和影响气候变化的技术。

那么解决方案是什么呢？我们应该借鉴“基础模型创建”（foundationmodeling）的概念——使用大型生成模型在大量数据上进行训练（largegenerativemodelstrainedonlotsofdata），并将其应用于科学计算。

对于材料科学而言，这可能意味着需要去建立一个基础模型，可以高度准确地模拟各种材料。

作为一个生成式模型（generativemodel），它也可能具备“逆向设计”（inversedesign）的能力——就像ChatGPT可以生成符合特定韵律方式的诗歌一样，材料科学生成式模型可以基于所需的材料性质（如导电性或硬度）生成新的材料，并优化现有材料以提高其性能。

这种人工智能和机器学习驱动的方法，有潜力彻底改变材料科学的范式。科学家们将不再依赖反复试错实验（trial-and-errorexperimentation），而是使用基础模型创建符合其特定需求的材料。通过能够模拟各种材料，材料科学的基础模型可以为发现新材料和创新开辟新的可能性。

在过去的一年中，基础模型创建取得的主要突破基本上是通过将可扩展且可靠的模型架构，与正确的生成式模型建立任务相结合实现的（pairingascaleable,reliablemodelarchitecturewiththecorrectgenerativemodellingtask）。一旦这些要素被确定下来，就需要按照严格的标准进行工程化。构建材料科学的基础模型，需要找到适合该任务的正确架构，以及适当的生成式模型建立任务（findingtherightarchitectureforthejob,aswellastherightgenerativemodelingtask）。

对于大型语言模型（largelanguagemodels）而言，生成式模型的建立是将Transformer架构与预测序列中下一个词是什么的任务相结合。这种方式可以编码关于世界的大量知识——Transformer具有很好的先验记录，可以继续吸收人类提供的海量数据。

对于图像而言，这是将卷积神经网络（convolutionalneuralnetworks，CNN）与扩散模型（diffusionmodelling）相结合。至今尚未完全理解其中的原因是，当使用去噪扩散损失进行训练（trainedwithadenoisingdiffusionloss）时，CNN表现出非凡的性能。

材料科学领域的突破性技术组合正在逐渐出现。图神经网络（graphneuralnetworks，GNN）似乎是应用在材料科学的正确架构，但我们还没有达到那种随着数据量增加，性能就可以不断提升的“突破”时刻。扩散模型具有一些优良的特性，但如果要将其用于材料科学的生成式模型建立，肯定需要进行调整，使之更具有物理层面的意义。此外，图形（graph)的工程化要求也不同，需要创新和专注。

即使找到了正确的架构和任务，仍然有很多工作要做。在材料科学领域，要产生变革性影响的要求准线更高。材料科学的基础模型需要能够设计出真正在实验室中有效的分子和材料，而不仅仅是在计算的层面上表现良好。对于初创企业而言，致力于实现这个目标比仅仅依赖于OpenAIAPI的薄层应用更具价值。

近年来，许多人工智能的重大挑战已经取得了进展，比我预期的要快很多。上述的挑战确实非常困难，但我相信在正确的团队和专注的努力下，这样的系统是可以被实现的。如果我们能做到这一点，我们可以在原子层面上有意义地加速科学进展，而不仅仅停留在比特层面上。

范阳注：

什么是图神经网络（GraphNeuralNetworks）？

当两种技术融合时，它们可以创造出新的奇妙事物，

开发人员正在将人工智能发现模式的能力,应用于存储各种数据点之间关系信息的大型图数据库。它们共同产生了一种强大的新工具，称为图神经网络。

你可以想象，比如《权力的游戏》当中错综复杂的人物关系和漫长的历史事件，我们从每一个人物的主线都很难一览全貌，图神经网络这样的机器学习方法可以把所有的这些社交网络人际关系和历史事件的前因后果放在一个“高维度空间”里来观察和研究，帮助我们发现甚至在原著小说里都看不到的新事物，甚至生成一本比原著小说还精彩的衍生小说。

以上这些科学以及工业领域的知识都可以用“图”来表示：化学分子，人类知识，信息系统，大脑/神经网络，基因信息，语言沟通，软件与社交网络等。

图神经网络将深度学习的预测能力应用于描述对象及其关系的丰富数据结构，这些结构以图中由线连接的点（pointsconnectedbylinesinagraph）表示。

在图神经网络中，数据点被称为节点，它们通过线（称为边）连接在一起，其中的元素被数学表达，以便机器学习算法可以在节点、边或整个图的层面上进行有用的预测。

在学术界，也有越来越多利用人工智能和机器学习的新工具箱进入先进材料科学领域的研究者。

也有越来越多新成立的实验室，从模型和数据驱动的视角，进行新材料的研究到工程制造工艺的创新。

THE END

范阳谈深科技原子世界的基础模型：生成式AIx材料科学

AI颠覆材料化学，汇总2024年最值得关注的科研成果

AI驱动优化粘土地聚物凝胶配比纳米高斯材料聚合物

AI+材料科学：人工智能提速新材料发现

材料信息学：解码材料基因图谱丨科普硅立方

腾讯教育举办材料多尺度计算研讨会11位材料科学家高校学者共话材料科学云计算前景

015精彩回顾鄂维南作题为“AI与材料科学”报告

文献笔记：一种将机器学习应用于材料科学小数据集的策略；Astrategytoapplymachinelearningtosmalldatasetsinmaterialsscience时为

AI助力科学家：利用AI代理模型和扩散模型辅助科学设计丨周日直播·AI+Science读书会集智俱乐部

上海大学2023年博士研究生招生简章：材料科学与工程考博招生简章资讯

范阳谈深科技原子世界的基础模型：生成式AIx材料科学

启明创投资讯（2023年06月）启明创投

北京科技大学材料科学与工程学院张虎教授团队2024年博士后研究人员启事