一种新神经网络架构让AI更易懂算法大模型神经元网络

科学家对神经网络中人工神经元工作方式进行调整可以使人工智能更容易被理解。

人工神经元是深度神经网络的基本组成部分,几十年来几乎没有任何变化。虽然这些网络赋予了现代人工智能强大力量,但它们向来都是难以捉摸的。

现有的人工神经元用于GPT-4等大型语言模型,其工作原理是:接收大量输入,将它们相加,然后使用神经元内部的另一种数学运算将总和转换为输出。这些神经元组合在一起形成了庞大的神经网络,它们的组合工作可能很难解码。

但这种组合神经元的新方法的工作原理略有不同,现有神经元的一些复杂性被简化并移到神经元之外。在内部,新的神经元只需对它们的输入进行求和并产生输出,而不需要额外的“隐藏操作”。这种神经元网络被称为Kolmogorov-ArnoldNetworks(KAN),其以开发它们的俄罗斯数学家的名字进行命名。

麻省理工学院的一个研究小组对这种简化进行了详细研究,可以让人们更容易理解为什么神经网络会产生某些输出,帮助验证他们的决策,甚至探究偏差。初步证据还表明,随着KAN变得越来越大,它们的准确性比传统神经元构建的网络提升得更快。

“这是一项有趣的工作,人们试图从根本上重新思考这些网络的底层设计,这非常好。”在纽约大学研究机器学习基础的AndrewWilson说道。

KAN的基本机制实际上是在20世纪90年代提出的,研究人员不断构建此类网络的简化版本。但麻省理工学院领导的团队进一步发展了这个想法,展示了如何构建和训练更大的KAN,对它们进行了实证测试,并分析一些KAN以展示人类如何解释它们解决问题的能力。“我们重新激活了这个想法。希望凭借可解释性,我们或许不再认为神经网络是一个‘黑匣子’。”麻省理工学院MaxTegmark实验室的博士生刘子鸣表示。

寻找公式

当前的进展其实是在麻省理工学院、加州理工学院和其他研究所的同事探索标准人工神经网络的内部工作原理时取得的。

如今,几乎所有类型的人工智能,包括用于构建大型语言模型和图像识别系统的人工智能,都包含称为“多层感知器(MLP)”的子网络。在MLP中,人工神经元排列成密集且相互连接的“层”中。每个神经元内部都有一个称为“激活函数”的元素,这是一种数学运算,它接受一堆输入并以某种预先指定的方式将其转换为输出。

在MLP中,每个人工神经元接收来自前一层中所有神经元的输入,并将每个输入乘以相应的“权重”(表示该输入重要性的数值)。这些加权输入被加在一起,并馈送到神经元内部的激活函数以生成输出,然后将其传递到下一层的神经元。例如,MLP通过为所有神经元的输入权重选择正确的值来学习区分猫和狗的图像。至关重要的是,激活函数是固定的,在训练过程中不会改变。

经过训练后,MLP的所有神经元及其连接本质上充当了另一个函数,它接受输入(例如,图像中的数万个像素)并产生所需的输出(例如,0代表猫,1代表狗)。理解该函数的样子(即其数学形式)是理解它为何产生某些输出的重要组成部分。例如,为什么它会根据某人的财务状况将其标记为信誉良好的人?但MLP是个“黑匣子”,对于图像识别等复杂任务,对网络进行逆向工程几乎是不可能的。

即使当刘子鸣和同事尝试对MLP进行逆向工程以完成涉及定制“合成”数据的简单任务时,他们也遇到了困难。

“如果我们甚至无法解释这些来自神经网络的合成数据集,那么处理现实世界的数据集就毫无希望了。我们发现尝试理解这些神经网络真的很难,所以我们想改变架构。”刘子鸣说。

重绘数学

这个过程中,最主要的变化是删除了固定的激活函数,并引入了一个更简单的可学习函数,以在每个输入进入神经元之前对其进行转换。

与MLP神经元中的激活函数接收大量输入不同,KAN神经元外部的每个简单函数接收一个数字并输出另一个数字。目前在训练过程中,KAN不再像MLP那样学习单个权重,而是只学习如何表示每个简单函数。在今年发布在预印本服务器ArXiv上的一篇论文中,刘子鸣和团队表明,神经元之外的这些简单函数更容易解释,使得重建整个KAN所学习的函数的数学形式成为可能。

然而,该团队仅在简单的合成数据集上测试了KAN的可解释性,而没有测试更复杂的图像识别等现实世界问题。“我们正在慢慢突破界限,可解释性可能是一项非常具有挑战性的任务。”刘子鸣说。

“这限制了KAN在大规模数据集和复杂任务上的应用效率。”西交利物浦大学的张迪表示。他认为,更高效的算法和硬件加速器可能会有所帮助。

THE END
1.基于神经网络的图像压缩技术腾讯云开发者社区基于神经网络的图像压缩技术 (本文由软件工程师 Nick Johnston 和 David Minnen 发布) 在互联网之中,数据压缩技术可以说无处不在 —— 您在线观看的视频,分享的图片,听到的音乐,甚至是您正在阅读的这篇博客。压缩技术使得您可以快速且高效地分享内容。如果没有数据压缩,我们在获取所需的信息时,时间与带宽的开销会https://cloud.tencent.com/developer/article/1033691
2.基于神经网络的推荐系统模型神经网络模型通常用于推荐系统基于神经网络的推荐系统模型 近年来,推荐系统在各种商业领域得到了广泛的应用。 为用户提供建议的平台。协同过滤算法是推荐系统中使用的主要算法之一。这种算法简单、高效;然而,数据的稀疏性和方法的可扩展性限制了这些算法的性能,并且很难进一步提高推荐结果的质量。因此,提出了一种将协同过滤推荐算法与深度学习技术相https://blog.csdn.net/qq_41853536/article/details/80030322
3.博士学位论文密级 博士学位论文 基于神经网络的词和文档语义向量表示方法研究 作者姓名 指导教师 学位类别 学科专业 培养单位 来斯惟 赵军 研究员 中国科学院自动化研究所 工学博士 模式识别与智能系统 中国科学院自动化研究所 2016 年 1 月 Word and Document Embeddings based on Neural Network Approaches By Siwei Lai A http://arxiv.org/pdf/1611.05962
4.基于BP神经网络的多传感器数据融合技术优化AET摘要:传统的数据融合算法要求获得比较精确的对象数学模型,对于复杂的难于建立模型的场合无法适用。为解决上述问题,提出了一种基于BP神经网络算法的多传感器数据融合方法,对对象的先验要求不高,具有较强的自适应能力。仿真结果表明,采用BP神经网络对传感器数据进行融合处理大大提高了传感器的稳定性及其精度,效果良好。 http://www.chinaaet.com/article/171658
5.数据库实现神经网络神经网络python库深度神经网络算法,是基于神经网络算法的一种拓展,其层数更深,达到多层,本文以简单神经网络为例,利用梯度下降算法进行反向更新来训练神经网络权重和偏向参数,文章最后,基于Python 库实现了一个简单神经网络算法程序,并对异或运算和0-9字符集进行预测。 一、问题引入 https://blog.51cto.com/u_16099277/7652077
6.基于深度神经网络的行为识别基于深度神经网络的行为识别 丁雪琴 开通知网号 【摘要】: 近年来,伴随着社会信息化程度的提高,作为计算机视觉代表性任务之一的视频行为识别,因其在智能监控、自动驾驶、媒体分析和机器人等领域具有广泛的应用前景,受到了越来越多研究者的关注。同时在深度学习等技术蓬勃发展的背景下,涌现出大量基于深度神经网络的视频https://cdmd.cnki.com.cn/Article/CDMD-10300-1021778892.htm
7.基于区域的卷积神经网络机器之心基于区域的卷积神经网络 基于区域的卷积神经网络 (Region-based Convolutional Neural Network) 通常运用于图像物体检测的任务中,是对多种基于区域的深度学习方法的统称。 目标检测 (object detection) 指的是在给定的图像中精确找到某种或者某些物体的位置,并且标注出该位置的物体的类别。该任务最主要的流程就是找到某https://www.jiqizhixin.com/graph/technologies/826d6977-c832-4a3b-b997-448fcf72cdb7
8.《基于深度学习神经网络的自动驾驶技术研究》9000字.docx《基于深度学习神经网络的自动驾驶技术研究》9000字.docx 11页内容提供方:02127123006 大小:99.44 KB 字数:约1.17万字 发布时间:2023-11-03发布于湖北 浏览人气:17 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)https://m.book118.com/html/2023/1102/8135113122006002.shtm
9.KinectforWindowsSDK开发入门(十):手势识别上:基本概念如果项目只需要识别几个简单的手势,那么使用基于算法或者基于神经网络的手势识别就足够了。对于其他类型的项目,如果有兴趣的话可以投入时间来建立可复用的手势识别引擎,或者使用一些人家已经写好的识别算法,接下来本文介绍几种常用的手势,并演示如何使用算法的方法来识别他们,手势识别的另外两种方法由于其复杂性本文不做https://www.hqew.com/tech/fangan/588922.html
10.科学网—[转载]一种基于深度神经网络的临床记录ICD自动编码方法摘要:随着国际疾病分类(international classification of diseases,ICD)编码数量的增加,基于临床记录的人工编码难度和成本大大提高,自动ICD编码技术引起了广泛的关注。提出一种基于多尺度残差图卷积网络的自动ICD编码技术,该技术采用多尺度残差网络来捕获临床文本的不同长度的文本模式,并基于图卷积神经网络抽取标签之间的层次https://blog.sciencenet.cn/blog-3472670-1280973.html
11.让神经网络“脑补”图像细节!复旦大数据学院医学影像人工智能实验为了建模图像的全局相似性,我们从数学的角度出发,基于神经网络提出了深度秩一分解与重建框架。图像的秩一成分代表了图像的自相似性特征,这是建模图像的一种有效手段。因此,我们通过如下图所示的方式分解图像,从而一定程度上保持图像的全局相似性。 图4. 图像秩一分解示例:左图为秩一分解示例,右图为不同方法秩一https://sds.fudan.edu.cn/b7/ef/c17412a440303/page.htm
12.评述:基于光学神经网络(ONN)的图像传感器技术资讯资讯信息在这些应用中,一方面为了保证分析结果的准确性,所拍摄的数字图像的分辨率通常都比较高,因此做图像处理时对算力和内存的占用都比较大,耗时也比较长;另一方面,一幅图片中通常只有一部分内容是有用的(如图1所示),尤其是对神经网络算法来说自然图像都包含稀疏信息,是可压缩的。为了解决这一问题,新一代的成像系统设计不https://b2b.csoe.org.cn/news/show.php?itemid=170
13.SpikingJelly是一个基于PyTorch,使用脉冲神经网络(SpikingSpikingJelly是一个基于PyTorch,使用脉冲神经网络(Spiking Neural Network, SNN)进行深度学习的框架。 SpikingJelly的文档使用中英双语编写:https://spikingjelly.readthedocs.io。 安装 以前所未有的简单方式搭建SNN 快速好用的ANN-SNN转换 CUDA增强的神经元 设备支持 https://gitee.com/mirrors/SpikingJelly