尽管大模型在常识理解、科学知识运用以及推理决策能力等方面展现出显著潜力,但仍存在如幻觉等知识偏差问题。这些问题引发了关于大模型知识表示、存储和处理机制的深入探讨:大模型的知识处理方式是否类似于人脑?其能力是否可能超越人类?
知识图谱通过符号化方式显式描绘实体与概念之间的关系,而语言模型则依赖神经网络和注意力机制隐式连接知识元素。以多跳推理为例,知识图谱提供可解释且可控的显式推理路径,而语言模型则通过隐含在参数空间中的注意力权重寻找答案,因而在解释性和可靠性方面存在不足。
为进一步探究大模型的知识处理机制,本文提出了“大模型知识表示的‘知识回路’(KnowledgeCircuits)假说”。该假说认为,大模型在处理知识时,实体、概念和关系通过参数激活逐步构成闭合回路,从而为构建更可靠、可控且安全的大模型知识学习框架和方法提供新的思路。
一、引言
尽管大模型在常识、科学知识的理解及推理决策能力等方面已展示出较强的潜力,其仍面临幻觉等知识谬误问题,由此引发了一系列对大模型知识表示、存储和处理机理的深入探讨:大型模型的知识处理方式是否与人脑相似?其能力是否能超越人类?
知识图谱通过符号表示明确刻画实体和概念间的关系,而语言模型则依赖神经网络和注意力机制隐式关联知识元素。以多跳推理为例,知识图谱提供可解释、可控的显式路径,而语言模型在隐式参数空间中依赖注意力等权重找到答案,导致解释性和可靠性不足。
为深入理解大模型的知识机理,本文被提出大模型知识表示的“知识回路”(KnowledgeCircuits)假说,认为大模型知识处理过程中的实体、概念和关系是通过参数激活逐步形成闭合回路,以助于发展更可靠、可控、安全的大模型知识学习架构和方法。
二、大模型的知识回路发现
回路的定义
“回路”是指在神经网络模型中执行特定任务的一个可解释子图。目前,语言模型主要采用Transformer架构,可将其视为一个有向无环图G。每个Transformer层包含多头注意力机制和前馈神经网络(MLP),并且每一层都是一个多头注意力机制和一个前馈网络的组合。
考虑一个注意力头(位于第l层的第j个注意力头),它对前一层的残差流进行操作。设,其中I表示输入嵌入,注意力头可被视为处理所有前层注意力头和MLP及输入嵌入的累积输出。
同样,MLP节点处理所有前层的注意力头、MLP和输入嵌入的累积输出,输出节点O则处理输入嵌入和所有注意力头及MLP的输出。Transformer模型中的残差连接可以用以下公式表示:
我们专注于回答事实上的开放领域问题的任务,目标是预测给定主题-关系对(s,r)的目标实体o。知识三元组k=(s,r,o)通常以自然语言提示的形式呈现给模型,用于下一个标记预测(例如,“法国的官方语言是____”)。
在回路的构建中,对于原始模型中的计算图的每一条边,我们计算了从计算图中删除该边后,语言模型预测o的Logits与移除之前的差异,如果对于预测性能影响在Threshold以内,则可以认为该边对于存储该知识并没有贡献,则去除该边,经过遍历后,我们则可以获得最终的知识回路。
在得到了知识回路后,我们该如何确保构建了准确的回路呢?这里,被发现的知识回路应该是Transformer知识存储中特定区域的准确表示,因此,它应该能够独立地表示知识。
为了验证构建的知识回路是否准确,我们使用验证数据集构建特定类型的知识回路,并在测试集上测试其性能。通过比较与原模型的性能变化,使用Hit@10指标评估目标实体o在前十个预测标记中的排名。
实验结果显示,构建的知识回路保留了语言模型大部分的能力,并在某些知识类型上有所提升,表明知识回路主要负责知识存储,避免了其他信息的干扰。
三、知识回路的分析
图中的例子中,经过分析不同层的输出后我们发现在MLP第17层之后,目标知识在信息流中作为Top-oneToken出现,而在该层之后,其概率一直在增加。
从发现的回路中可以看出,连接到MLP17的边是(L14H13->MLP17),(L14H7->MLP17)和(L15H0->MLP17)。
而注意头L14H7是一个MoverHead,它将信息从主体的位置France移动到最后一个标记。最终,MLP17集成了这些信息从而将最终结果French作为最终的Topone输出。
四、知识编辑情况下的知识回路的变化
“知识编辑”是近年来兴起的一项技术,旨在对语言模型中的特定知识进行精确修改。然而,当前的知识编辑方法存在一个普遍问题,那就是它们往往会对模型中的非编辑部分产生影响,即所谓的局部性不足。为了探讨这一问题,我们分析了知识编辑过程中知识回路的变化。
本研究中,我们选择了两种不同的编辑方法——ROME和Fine-Tuning(FT),并在实验中均聚焦于MLP的第二个线性层进行编辑。通过具体案例的分析,我们观察到尽管ROME和FT都能有效地将新知识注入模型,但在知识回路层面,两种方法的工作机制有所不同。
对于像ROME这样的方法,我们注意到模型修改了称为MoverHead的组件的信息流动。编辑后,模型中的MoverHead(如L15H3)能够正确地提取出“Intel”这一信息,这意味着ROME是通过修改特定层的MLP,使模型能够在最后一层Token的位置上获得正确的知识。
相比之下,FT类方法似乎是在编辑层中就赋予了新知识较高的Logit值,这直接改变了模型对新知识的认知。这意味着在FT方法下,新知识在较早的编辑层中就已经具有较高的概率,从而影响了模型的最终输出。
然而,无论是ROME还是FT,它们都未能完全避免对模型其他部分的影响。例如,在未经编辑的情况下,模型可以正确回答“创建WindowsServer的公司”这一问题,但在经过知识编辑后,使用ROME和FT的模型都给出了错误的答案。
从知识回路的角度来看,编辑的信息似乎影响到了与之无关的知识回路,导致了意料之外的结果偏差。
五、幻觉与In-ContextLearning情况下知识回路的现象
与此同时,我们还发现知识回路有助于理解语言模型中的幻觉现象以及In-ContextLearning(即情境学习,简称ICL)的能力。
当知识回路中缺乏有效的MoverHead,或者MoverHead选择了不正确的信息时,模型可能会产生幻觉。
例如,在提示“TheofficialcurrencyofMalaysiaiscalledthe”时,正确答案“Ringgit”和错误答案“Malaysian”在第15层之前的rank分布非常接近。然而,在第16层,MoverHead(L15H10)提取了“Malaysian”一词的信息,这导致模型最终输出了错误的答案。
而在ICL的场景中,我们的分析表明,相较于零样本学习(Zero-shotLearning),当加入示范示例(Demonstrations)时,知识回路中会出现一些新的注意力头。
六、总结
在本文中,我们提出了大模型知识表示的“知识回路”假说,即稀疏的回路子图用来进行知识的存储、处理与表达。知识回路表明了语言模型的知识存储不仅仅是单独的模块,还存在着不同组件之间的协同合作。实验结果表明,知识回路不仅有助于我们更深入地理解模型的行为,还在构建更为稳健的知识编辑方法方面展现了巨大的潜力。
llustrationFromIconScoutByIconScoutStore
-TheEnd-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(
投稿内容
//前沿资讯解说/心得经历讲述//
投稿须知
投稿方式
发送邮件到
melodybai@thejiangmen.com
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: