NeurIPS2024大模型知识表示的“知识回路”假说，深入理解大模型的知识机理显式实验神经网络|深度学习基本模型在线实验闯关第1关多层神经网络模型基本使用方法_在线学习

尽管大模型在常识理解、科学知识运用以及推理决策能力等方面展现出显著潜力，但仍存在如幻觉等知识偏差问题。这些问题引发了关于大模型知识表示、存储和处理机制的深入探讨：大模型的知识处理方式是否类似于人脑？其能力是否可能超越人类？

知识图谱通过符号化方式显式描绘实体与概念之间的关系，而语言模型则依赖神经网络和注意力机制隐式连接知识元素。以多跳推理为例，知识图谱提供可解释且可控的显式推理路径，而语言模型则通过隐含在参数空间中的注意力权重寻找答案，因而在解释性和可靠性方面存在不足。

为进一步探究大模型的知识处理机制，本文提出了“大模型知识表示的‘知识回路’（KnowledgeCircuits）假说”。该假说认为，大模型在处理知识时，实体、概念和关系通过参数激活逐步构成闭合回路，从而为构建更可靠、可控且安全的大模型知识学习框架和方法提供新的思路。

一、引言

尽管大模型在常识、科学知识的理解及推理决策能力等方面已展示出较强的潜力，其仍面临幻觉等知识谬误问题，由此引发了一系列对大模型知识表示、存储和处理机理的深入探讨：大型模型的知识处理方式是否与人脑相似？其能力是否能超越人类？

知识图谱通过符号表示明确刻画实体和概念间的关系，而语言模型则依赖神经网络和注意力机制隐式关联知识元素。以多跳推理为例，知识图谱提供可解释、可控的显式路径，而语言模型在隐式参数空间中依赖注意力等权重找到答案，导致解释性和可靠性不足。

为深入理解大模型的知识机理，本文被提出大模型知识表示的“知识回路”（KnowledgeCircuits）假说，认为大模型知识处理过程中的实体、概念和关系是通过参数激活逐步形成闭合回路，以助于发展更可靠、可控、安全的大模型知识学习架构和方法。

二、大模型的知识回路发现

回路的定义

“回路”是指在神经网络模型中执行特定任务的一个可解释子图。目前，语言模型主要采用Transformer架构，可将其视为一个有向无环图G。每个Transformer层包含多头注意力机制和前馈神经网络（MLP），并且每一层都是一个多头注意力机制和一个前馈网络的组合。

考虑一个注意力头（位于第l层的第j个注意力头），它对前一层的残差流进行操作。设，其中I表示输入嵌入，注意力头可被视为处理所有前层注意力头和MLP及输入嵌入的累积输出。

同样，MLP节点处理所有前层的注意力头、MLP和输入嵌入的累积输出，输出节点O则处理输入嵌入和所有注意力头及MLP的输出。Transformer模型中的残差连接可以用以下公式表示：

我们专注于回答事实上的开放领域问题的任务，目标是预测给定主题-关系对（s,r）的目标实体o。知识三元组k=(s,r,o)通常以自然语言提示的形式呈现给模型，用于下一个标记预测（例如，“法国的官方语言是____”）。

在回路的构建中，对于原始模型中的计算图的每一条边，我们计算了从计算图中删除该边后，语言模型预测o的Logits与移除之前的差异，如果对于预测性能影响在Threshold以内，则可以认为该边对于存储该知识并没有贡献，则去除该边，经过遍历后，我们则可以获得最终的知识回路。

在得到了知识回路后，我们该如何确保构建了准确的回路呢？这里，被发现的知识回路应该是Transformer知识存储中特定区域的准确表示，因此，它应该能够独立地表示知识。

为了验证构建的知识回路是否准确，我们使用验证数据集构建特定类型的知识回路，并在测试集上测试其性能。通过比较与原模型的性能变化，使用Hit@10指标评估目标实体o在前十个预测标记中的排名。

实验结果显示，构建的知识回路保留了语言模型大部分的能力，并在某些知识类型上有所提升，表明知识回路主要负责知识存储，避免了其他信息的干扰。

三、知识回路的分析

图中的例子中，经过分析不同层的输出后我们发现在MLP第17层之后，目标知识在信息流中作为Top-oneToken出现，而在该层之后，其概率一直在增加。

从发现的回路中可以看出，连接到MLP17的边是（L14H13->MLP17），（L14H7->MLP17）和（L15H0->MLP17）。

而注意头L14H7是一个MoverHead，它将信息从主体的位置France移动到最后一个标记。最终，MLP17集成了这些信息从而将最终结果French作为最终的Topone输出。

四、知识编辑情况下的知识回路的变化

“知识编辑”是近年来兴起的一项技术，旨在对语言模型中的特定知识进行精确修改。然而，当前的知识编辑方法存在一个普遍问题，那就是它们往往会对模型中的非编辑部分产生影响，即所谓的局部性不足。为了探讨这一问题，我们分析了知识编辑过程中知识回路的变化。

本研究中，我们选择了两种不同的编辑方法——ROME和Fine-Tuning（FT），并在实验中均聚焦于MLP的第二个线性层进行编辑。通过具体案例的分析，我们观察到尽管ROME和FT都能有效地将新知识注入模型，但在知识回路层面，两种方法的工作机制有所不同。

对于像ROME这样的方法，我们注意到模型修改了称为MoverHead的组件的信息流动。编辑后，模型中的MoverHead（如L15H3）能够正确地提取出“Intel”这一信息，这意味着ROME是通过修改特定层的MLP，使模型能够在最后一层Token的位置上获得正确的知识。

相比之下，FT类方法似乎是在编辑层中就赋予了新知识较高的Logit值，这直接改变了模型对新知识的认知。这意味着在FT方法下，新知识在较早的编辑层中就已经具有较高的概率，从而影响了模型的最终输出。

然而，无论是ROME还是FT，它们都未能完全避免对模型其他部分的影响。例如，在未经编辑的情况下，模型可以正确回答“创建WindowsServer的公司”这一问题，但在经过知识编辑后，使用ROME和FT的模型都给出了错误的答案。

从知识回路的角度来看，编辑的信息似乎影响到了与之无关的知识回路，导致了意料之外的结果偏差。

五、幻觉与In-ContextLearning情况下知识回路的现象

与此同时，我们还发现知识回路有助于理解语言模型中的幻觉现象以及In-ContextLearning（即情境学习，简称ICL）的能力。

当知识回路中缺乏有效的MoverHead，或者MoverHead选择了不正确的信息时，模型可能会产生幻觉。

例如，在提示“TheofficialcurrencyofMalaysiaiscalledthe”时，正确答案“Ringgit”和错误答案“Malaysian”在第15层之前的rank分布非常接近。然而，在第16层，MoverHead（L15H10）提取了“Malaysian”一词的信息，这导致模型最终输出了错误的答案。

而在ICL的场景中，我们的分析表明，相较于零样本学习（Zero-shotLearning），当加入示范示例（Demonstrations）时，知识回路中会出现一些新的注意力头。

六、总结

在本文中，我们提出了大模型知识表示的“知识回路”假说，即稀疏的回路子图用来进行知识的存储、处理与表达。知识回路表明了语言模型的知识存储不仅仅是单独的模块，还存在着不同组件之间的协同合作。实验结果表明，知识回路不仅有助于我们更深入地理解模型的行为，还在构建更为稳健的知识编辑方法方面展现了巨大的潜力。

llustrationFromIconScoutByIconScoutStore

-TheEnd-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

投稿内容

//前沿资讯解说/心得经历讲述//

投稿须知

投稿方式

发送邮件到

melodybai@thejiangmen.com

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

THE END

NeurIPS2024大模型知识表示的“知识回路”假说，深入理解大模型的知识机理显式实验神经网络

NeurIPS2024大模型知识表示的“知识回路”假说，深入理解大模型的知识机理显式实验神经网络

深度学习在目标视觉检测中的应用进展与展望

深度解析：机器学习中的矩阵应用技巧

商务数据分析（第4次开课）大学慕课

第一次作业：深度学习基础Justing778

深度神经网络总结