分解大模型的神经元!Claude团队最新研究火了,网友:打开黑盒

神经网络的不可解释性,一直是AI领域的“老大难”问题。

但现在,我们似乎取得了一丝进展——

ChatGPT最强竞对Claude背后的公司Anthropic,利用字典学习成功将大约500个神经元分解成了约4000个可解释特征。

具体而言,神经元具有不可解释性,但经过这一分解,Anthropic发现每一个特征都代表了不同的含义,比如有的分管DNA序列,有的则表示HTTP请求、法律文本等等,也就是具备了可解释性。

而通过人为地刺激其中任一特征,就能引导模型给出我们预期之内的输出。

比如开启DNA特征就能使模型输出DNA,开启阿拉伯文字特征就让模型输出阿拉伯文字。

Anthropic激动地表示:

他们这一方法很可能克服AI不可解释性这一巨大障碍。

而一旦我们能够了解语言模型的工作原理,就能很容易地判断一个模型是否安全,从而决定它是否应该被社会和企业所采用。

具体来看。

用字典学习分解语言模型

首先,光针对语言模型来说,它的不可解释性主要体现在网络中的大多数神经元都是“多语义的”。

例如,一个小型语言模型中的某个神经元会同时对学术引文、英语对话、HTTP请求、韩语文字等不同内容表现出强烈的激活状态。

而这会阻碍我们了解神经网络每一小部分的具体功能和交互过程,从而无法对整个网络的行为进行推断。

那么,是什么原因造成了多语义性这一特征?

早在去年,Anthropic就推测其中一个潜在的因素是“叠加”(superposition)。

同时,Anthropic也指出,字典学习——就是提取事物最本质的特征,最终让我们像查字典一样获取新知识,是解决这一问题的办法。

在此之前,他们已提出了一个叠加玩具模型,并证明:

如果一个对模型有用的特征集在训练数据中是稀疏的,那么该神经网络在训练过程中可以自然地产生叠加。

基于该玩具模型,他们提出了三种策略来找到一组稀疏且可解释的特征:一是创建没有叠加的模型,然后通过鼓励激活稀疏性;

二是使用字典学习在表现出叠加的模型中找到超完备的特征基础;

三是将前两种方法混合使用。

经过实验证明,方法一不足以杜绝多语义性,方法二则存在严重的过拟合问题。

于是在此,团队又采用了一种称为稀疏自动编码器的弱字典学习算法。

它能够从经过训练的模型生成学习特征,提供比模型神经元本身更单一语义的分析单元。

最终所得编码器在从叠加中提取可解释性特征方面取得了“令人信服的成功”。

具体来说,Anthropic采用一个具有512个神经元的MLP单层transformer,通过在具有80亿个数据点的MLP激活上训练稀疏自动编码器,最终将MLP激活分解为相对可解释的特征,扩展因子范围可以从1x(512个特征)增长到256x(131072个特征)。

Anthropic团队将他们得到的可解释性分析全部集中在一个称为A/1的运行中,共包含4096个特征,每个特征都注明了含义,它们可以按照预期被人工激活。

下面是它们的可视化图表:

集成长篇报告发布,7个关键结论

现在,Anthropic将以上全部成果以报告的形式发布。

报告题目为《迈向单义性:通过字典学习分解语言模型》(TowardsMonosemanticity:DecomposingLanguageModelsWithDictionaryLearning)。

篇幅非常长,共分为四部分,分别为:

总的来看,关键结论一共有7个:

1、我们能够用稀疏自动编码器提取相对单一语义的特征,但大多数学习到的特征都是相对可解释的。

2、稀疏自动编码器产生可解释的特征,在神经元基础中基本是不可见的。

3、稀疏自动编码器功能可用于干预和引导transformer的生成。

例如,激活Base64特征会导致模型生成Base64文本,激活阿拉伯文字特征会生成阿拉伯文本。

4、稀疏自动编码器产生相对通用的特征。特征彼此之间的相似性比它们与自己模型神经元之间的相似度更高(对应“普遍性”一节)。

5、当我们增加自动编码器的大小时,特征似乎会“分裂”。比如一个小型字典中的Base64特征在较大的字典中会分成三个,每个都具有更微妙但仍可解释的含义(对应“特征分割性”一节)。

6、仅512个神经元就可以代表数万个特征。

7、特征可以在类似“有限状态自动机”的系统中实现连接,从而完成复杂的行为(比如生成HTML功能)。

OneMoreThing

神经元就像一个神秘的盒子,Anthropic这项工作就相当于研究如何偷看盒子中的内容。

THE END
1.在线字典,该规范了!记者调查发现,一些在线字典网站打着“新华字典”旗号,吸引用户点击访问,实际提供的内容却错误百出,有的字音字形有误,有的词语释义不当,提供的例句更是前言不搭后语,误导读者。 记者用搜索引擎搜索“在线新华字典”,显示出多个“免费查询”网页。 在线字典乱象频出 https://mp.weixin.qq.com/s?__biz=MzA3ODExNTc2Ng==&mid=2651272987&idx=4&sn=f8c9fd99a02a7ca9fc7e1d61bf2bf759&chksm=85fdf1cb69357f91a9a215c00279e63c2498c6572e925c846d2f95c1a4070596795760a4c60e&scene=27
2.在线判别双字典学习的目标跟踪算法传统目标跟踪算法的模板更新方法易导致目标模型漂移,为此提出一种在线判别双字典学习算法更新目标模板.双字典由目标字典和投影字典组成,其中目标字典表示目标模板.根据目标和背景样本在线迭代学习双字典,保证获其对目标维持高度描述性.通过判别函数的约束,不但降低背景信息更新到目标字典中的概率,而且保证真实目标在投影近字典http://xwxt.sict.ac.cn/CN/abstract/abstract3663.shtml
3.基于字典学习与等效视数的低剂量CT伪影抑制算法在线阅读 下载 引用 收藏 分享 打印 摘要:针对低剂量CT图像出现条形伪影的现象,提出了一种基于字典学习与等效视数(ENL)的伪影抑制算法.该方法首先利用平稳小波变换(SWT)对低剂量CT图像进行单层分解,并对高频图像训练字典,然后利用等效视数(ENL)对字典进行分区得到伪影字典和特征字典,并只对特征原子进行稀疏编码,经小https://d.wanfangdata.com.cn/periodical/hbgxyxb201906013
4.范慧杰5) 机器人在线学习和场景感知研究 经费来源:国家自然科学基金; 2014-2017 6) 基于稀疏表达和字典选择的一致异常行为算法研究 经费来源:国家自然科学基金; 2012-2014 7) 基于水平集理论PLIF火焰前锋与特征提取算法研究 经费来源:国家自然科学基金; 2009-2011 http://www.sia.cas.cn/vision/kytd/yjry/202307/t20230726_6834850.html
5.稀疏编码与字典学习在信号处理和图像处理中的应用二、字典学习的基本原理 字典学习是一种通过自动学习的方式来构建字典的方法。它的基本思想是从数据中学习出最能代表数据特征的基函数集合。字典学习可以分为无监督学习和有监督学习两种方法。在无监督学习中,字典学习算法根据数据的统计特性来构建字典。常见的无监督学习方法包括K-SVD算法、在线字典学习算法等。这些https://baijiahao.baidu.com/s?id=1789027883587442703&wfr=spider&for=pc
6.在线字典的学习算法测试源程序,包含飞行器飞行中的姿态控制,如标题中的“在线字典的学习算法测试源程序”指的是一个用于教育和学习的软件或代码库,它可能包含了一些算法的实现,供用户理解和测试。这里的关键词是“学习”和“测试”,表明这是一个教学资源,帮助用户掌握特定的编程概念或算法。 描述中提到的“飞行器飞行中的姿态控制”是指在航空工程领域中,如何通过计算机程序来管https://download.csdn.net/download/GZM888888/87517180
7.高光谱遥感影像稀疏表示与字典学习分类研究因此,本论文结合高光谱遥感影像自身特点,在对高光谱遥感影像稀疏表示方法进行系统分析和完善的基础上,按照对稀疏特性不同层级的理解并从特征多样性、模型多样性和字典完备性等角度出发,构建了高光谱遥感影像稀疏表示与字典学习分类框架,提出了多特征核稀疏表示学习、多核自适应协同表示学习和空间加权在线字典学习等算法。https://wap.cnki.net/touch/web/Dissertation/Article/-1019015426.html
8.系统工程与电子技术杂志中国航天科工集团公司二院主办稀疏字典学习海面微弱动目标检测 关键词:稀疏字典学习 海杂波抑制 信号重构 微弱动目标检测 针对强海杂波背景下微弱动目标信号提取困难、雷达检测性能差的问题,在稀疏表示理论的基础上,提出利用字典学习算〖JP2〗法抑制海杂波、重构目标信号。该算法通过K类奇异值分解(K-singular value decomposition,K-SVD)算法学习海https://www.youfabiao.com/xtgcydzjs/202001/
9.基于深度学习的推荐算法——推荐系统模型搭建基础及DeepCrossing免费在线预览全文 基于深度学习的推荐算法——推荐系统模型搭建基础及DeepCrossing原理 本章节从推荐系统模型搭建基础和DeepCr ssing原理讲解及实操两展开。 ?、推荐系统模型搭建基础 1. Keras搭建模型 keras搭建模型主要有两种模式,?种是Sequential API,另外?种是Functi nal API。前者主要是通过层的有序https://max.book118.com/html/2022/0413/6010025010004134.shtm
10.C/C++小型英汉电子词典(数据结构与算法)C/C++小型英汉电子词典(数据结构与算法) 17.小型英汉电子词典(***)问题描述:设计一个英汉电子词典,支持查找、插入、删除等功能。基本要求:实现字典常用的数据结构包括有序表、AVL树、Patricia Tree(简称PAT tree,它是一种压缩存储的二叉树结构)、散列表等,选一种数据结构,实现字典的基本操作,查找单词、插入单词(https://www.bilibili.com/read/cv40150375
11.8.特征工程五稀疏表示和字典学习五、稀疏表示和字典学习5.1 原理5.2 算法 作者华校专,曾任阿里巴巴资深算法工程师、智易科技首席算法研究员,现任腾讯高级研究员,《Python 大战机器学习》的作者。这是作者多年以来学习总结的笔记,经整理之后开源于世。目前还有约一半的内容在陆续整理中,已经整理好的内https://www.bookstack.cn/read/huaxiaozhuan-ai/spilt.5.9a94c12cac5bfe37.md
12.悄悄学习Doris,偷偷惊艳所有人ApacheDoris四万字小总结DorisDB 重新定义了 MPP 分布式架构,集群可扩展至数百节点,支持 PB 级数据规模,是当前唯一可以在大数据规模下进行在线弹性扩展的企业级分析型数据库。 DorisDB 还打造了全新的向量化执行引擎,单节点每秒可处理多达 100 亿行数据,查询速度比其他产品快 10-100 倍! https://xie.infoq.cn/article/b2250c2d887f69d8519a3f50b
13.稀疏表示字典学习KSVD算法详解与MATLAB实现(超清晰!稀疏表示字典学习KSVD算法详解与MATLAB实现(超清晰! 论文题目 K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation 这篇论文的去噪效果还是很不错的,个人认为凡是学习图像去噪/复原这一方向的都应该学习。 我这篇文章是很久之前写的了,借鉴了一些大佬的理解,但由于时间久远,忘了哪https://www.pianshen.com/article/24621068785/
14.机器学习MachineLearning集智百科强化学习:训练数据(以奖励和惩罚的形式)只作为对程序在动态环境中的行为的反馈,例如自动驾驶或与对手玩游戏[5]。 无监督学习:没有标签给学习算法,留下它自己在其输入中找到结构。无监督学习本身可以是一个目标(发现数据中隐藏的模式),或者是一种达到目的的手段(特征学习)。 https://wiki.swarma.org/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0_Machine_Learning
15.有道词典提出了一种二层学习算法来优化模糊规则基。 7. 26kb This paper proposes a dictionary learning algorithm which is applied to image de-noising. 本文提出一种超完备字典学习算法并应用于图像去噪。 8. 26kb How do you know what machine learning algorithm to choose for your classification problem?https://m.youdao.com/singledict?q=learning%20algorithm&dict=blng_sents&more=true
16.国学启蒙古诗词典apk下载国学启蒙古诗词典最新版下国学启蒙古诗词典最新版是一款在线学习诗词的软件,这款软件是由爱好国学,诗词,古诗,文言文,成语的团队所制作,收录了近154本国学经典和7万首诗词,古诗,文言文,并其中诗词,古诗,文言文,成语约8本,国学启蒙约29本。同时在这里,用户不仅可以随意翻阅你想学习的内容,从中领略国学魅力弘扬传统文化,还可以在线体验有声朗读https://www.ddooo.com/softdown/229822.htm
17.深入浅出字典学习(DictionaryLearning)y向量代表原有的图像(640000维),A是字典矩阵(K*640000),x是稀疏表示向量(K维),因为K远远小于N,我们认为,稀疏表示后的数据获得了大幅的压缩。求A的过程通常称为字典学习。已知A,求x的过程称为稀疏表示。通常这两者可以等同。在实际训练的过程中,为了减少计算量,通常将图像切割为小的patch(8*8或16*16),https://www.jianshu.com/p/f6e5d1cd21b9
18.基于字典学习的鲁棒光场显微澎湃号·湃客澎湃新闻图1 字典学习提升光场成像性能算法原理图 该研究成果以DiLFM: an artifact-suppressed and noise-robust light-field microscopy through dictionary learning为题在线发表在Light: Science & Applications。 该研究团队提出基于字典学习的光场重建方法,实现对多种重建伪影的消除,同时具有对恶劣成像场景的鲁棒性,可实现对样本https://www.thepaper.cn/newsDetail_forward_14324350
19.LintCode炼码算法: 双指针 · 127同向双指针 · 63相向双指针 · 34二分法 · 119二分答案 · 28分治法 · 80宽度优先搜索 · 151拓扑排序 · 12深度优先搜索/回溯法 · 258动态规划 · 267背包型动态规划 · 40坐标型动态规划 · 108划分型动态规划 · 27记忆化搜索 · 32区间型动态规划 · 31状态压缩动态规划 ·https://www.lintcode.com/problem
20.八种时间序列分类方法总结对时间序列进行分类是应用机器和深度学习模型的常见任务之一。本篇文章将涵盖 8 种类型的时间序列分类方法。这包括从简单的基于距离或间隔的方法到使用深度神经网络的方法。这篇文章旨在作为所有时间序列分类算法的参考文章。 对时间序列进行分类是应用机器和深度学习模型的常见任务之一。本篇文章将涵盖 8 种类型的时间序https://www.51cto.com/article/745092.html
21.金山词霸爱词霸英语翻译器为广大英文学习爱好者提供即时的在线翻译、在线词典、英文写作校对、汉译英、英译汉、图片、文档翻译、汉语查词等服务,金山词霸在线查词翻译频道致力于提供优质的在线翻译、查词服务http://iciba.com/
22.基于快速字典学习和特征稀有性的显著目标提取据此, 本文提出一种基于快速字典学习与特征稀有性的自然图像显著目标提取算法(Fast dictionary learning and feature rarity based salient object extraction, FR-SOE), 实验结果表明, 本文所提算法相较于其他4种现存的传统算法提取自然图像中的显著目标更为准确, 并能够有效地处理包含多个显著目标的自然图像。 1 http://xuebao.jlu.edu.cn/gxb/article/2016/1671-5497-46-5-1710.html