连续学习与概念表征

连续学习(ContinualLearning或CL),又称终身学习(LifelongLearning)是指人类所具有的可持续学习的能力。目前,人工智能(AI)中的机器学习(MachineLearning或ML)还缺乏连续学习的能力,在连续学习的过程中会出现困扰AI领域长达30年之久的著名“灾难性遗忘”问题:例如在学会了识别数字“0”和“1”之后,再学“2”和“3”的话,就会倾向于忘记之前学会的“0”和“1”。所以,现在的AI需要事前知道需要学习的类别,当遇到事先未知的类别数据时,就需要和原来的类别数据(如果保留了的话)一起重新学习。但许多实际应用(如自动驾驶、产品推荐等)中,我们不可能知道将来会遇到怎样的新场景新产品内容,这就导致很多实际应用难以展开,或者需要付出很大的重新学习代价。

近年来,人们开始重视“灾难性遗忘”问题,并取得了一些进展。2019年,美国DARPA启动了LifelongLearningMachines(L2M)专项。经过这几年全球科学家们的努力,一些方法得到发展,使得“灾难性遗忘”问题这个瓶颈得到一定程度的缓解。

这些方法中比较著名的有LwF(LearningwithoutForgetting)、EWC(ElasticWeightConsolidation)、SI(SynapticIntelligence)、ICARL(IncrementalclassifierandRepresentationLearning)、GEM(GradientEpisodicMemory)、OWM(OrthogonalWeightModification)、BIR(Brain-inspiredReplay)等。我国中科院自动化所的余山研究员团队提出的基于权重正则化保护的正交权重修正方法(称为OWM方法),也取得过不错的连续学习分类效果,有关论文发表在2019年AI顶刊《NatureMachineIntelligence》上。由于大脑具有明显的连续学习能力,这些方法的主要思路也是对大脑连续学习能力的机制的某种猜测或假设,并用机器学习的方法去实现。例如保留部分“样本”的重放思路,就是利用了大脑的短期和长期记忆能力以及长期记忆的调用与回放的可能机制。但这些方法,还都没有脱离当前AI中的核心算法:误差反向传播(BP)算法。而有趣的是:BP算法是被绝大多数脑科学研究者认为在大脑中并不存在的算法。所以这些方法并不完善,实际效果和大脑相比还相差较远。此外,这些方法还有一个明显的缺点:Sloooooo…ooooooow!所以,还难以应用,尤其难以面对在开放环境中较大规模很多类别的应用场景。

为促进产学研深度融合,欢迎有需求有兴趣的企业联系我们,给我们反馈信息。或许您的需求和我们提供的演示不完全一致,但我们的核心算法很可能一样能帮助到您。我们所提出并坚持研究的类脑智能不是一句口号或一个概念,是对大脑的理解是类似于大脑的算法。Together,wecanbestronger.

1.ChenW,DuF,WangY,etal.ABiologicallyPlausibleAudio-VisualIntegrationModelforContinualLearning[C]//2021InternationalJointConferenceonNeuralNetworks(IJCNN).IEEE,2021:1-8.

2.DingY,WangY,CaoL.ASimplifiedPlasticityModelBasedonSynapticTaggingandCaptureTheory:SimplifiedSTC[J].FrontiersinComputationalNeuroscience,2021,15.

4.曹立宏,邓雅菱.遗忘的机器-记忆、感知与“詹妮弗·安妮斯顿神经元[M].电子工业出版社.2021

5.陈雯婕,杜凤桐.2019年国际大学生类脑计算大赛,决赛三等奖,“采用类脑SNN的视听整合实现连续学习”,2019

二、概念表征

当我们想到“狗”时,会想到这是一种特殊的动物、有尾巴、有毛、会发出“汪”声、可以当宠物等等,这是我们人脑对“狗”这个概念的一些表征。当我们把概念通过语言的形式表达出来时,则可称为概念的语义特征。自2005年,科学家发现人脑中的概念细胞以来,虽然对概念细胞的形成机制还不清楚,但主流的观点是:语言是概念细胞形成的重要条件。显然,概念的语义特征依赖于人脑的记忆、抽象和语言等高级认知功能,是心理学、神经科学、语言学等多学科研究者一直在努力研究的方向之一,也是近年来人工智能,尤其是类脑智能的前沿研究的一个重要方向。

图1你脑中的“狗”是什么样子的?

已有的研究发现,关于概念的各属性知识分布式表征在大脑相应区域,并且人脑存在基于感觉的和基于语言的两种概念表征系统。人们在回忆信息时也是通过语义网络的搜寻而进行的,因此,在语义上与其他词汇有更广泛连接的词更容易被记住。然而目前尚不清楚人脑如何表征概念之间的关系。目前对于概念之间关系的度量主要依据概念之间共享的特征,如果两个概念有较多的共享特征,则这两个概念就具有很高的相似性。基于这一观点,我们采用了特征产出范式(Toglia,2009),请被试列出概念的属性,即给定一个单词,让被试对这个概念的特征进行描述,被试想到什么特征就写下什么。

本数据库共包含1410个概念,均为实体概念(名词)。共有204名被试参与本实验(男性44名)。年龄在18-57岁之间(M=23.495,SD=4.806)。所有的被试均为中国人,母语为汉语。平均每个被试完成了对202个概念的评定。本数据库中,1410个概念共得到378533个有效描述,平均每个概念获得的描述为268个,平均每个概念有37个特征。

我们还统计了哪些特征是多个概念所共有的,哪些特征是某些概念所特有的。如果某特征是3个及以上的概念都有的,则算共有特征,如果某特征只有1或2个概念拥有,则算特有特征。平均每个概念有31个共有特征,6个特有特征。

有研究表明,不同类别的物体拥有的共享特征数量不同,例如,动物类概念具有更多的共享特征(如都有眼睛、耳朵和鼻子),而工具类物体则共享特征较少而特有特征较多(Clarke&Tyler,2015)。我们将1410个概念分成了28个小类和7个大类,并统计了每个类别的概念数量以及概念具有的共享特征数、特有特征数和特征总数,分析了不同类别的差异,发现:动物、植物、食物拥有较多的共有特征和较少的特有特征,而自然物、人造物、身体部位则拥有较多的特有特征和较少的共享特征。结果如下图所示:

图2各类别共有特征和特有特征所占比例

概念之间的相似度分析:

苹果和香蕉这两个概念显然要比苹果和网球这两个概念更相似,即使网球从外形上看要比香蕉更像苹果。对于概念的语义表征,我们采用余弦距离计算概念之间的距离,以此作为相似度的指标。数值越大表示概念之间的距离越近,概念相似度越高。我们对比了本数据库与目前已经被广泛使用的英文版概念语义特征数据库CSLB(Devereux,Tyler,Geertzen,&Randall,2014)在概念相似度方面的情况。结果如图3所示。其中图3(a)是本研究的结果,图3(b)是CSLB的结果。可以看出:大类概念上基本是一致的,在某些小类之间还是有一定的差异。例如花与水果在CSLB中分的更开一些。这或许反映出文化上的一些差异。

图3概念之间的相似性矩阵

分层聚类:

本研究还基于概念的特征,对所有概念做了分层聚类。由于概念太多,无法全部可视化呈现,因此,仅可视化了动物这一大类的分层聚类结果,如下图所示。从分层聚类的结果可以看出,在动物类别下,本数据库与CSLB相似,可以很好地细分为鸟类(绿线)、昆虫类(红线)、水生动物类(紫线)和陆生动物类(青线)。

图4动物大类分层聚类的结果

总结:

本研究建立了一个数据量上千的中文版概念语义特征数据库。共有1410个概念,都是对以汉语为母语的被试而言很熟悉的实体概念,涵盖7个大类,28个小类,平均每个概念有约37个特征。根据概念的特征计算出的概念之间的相似性分析结果显示,同一类别内的概念具有相似性,不同类别之间的概念相似性较低,但也并非完全无关。这与我们日常对事物的认识是一致的,即使是不同类别的物体,我们仍然可以以非类别的关系产生一定的关联,如经常在同一场景中出现的筷子和面条,前者属于餐具,后者属于食物。

通过与已有的标准化的英文版数据库进行各方面对比,本研究提出的CCPD无论从数据量还是质量上看,都是可观的。与英文版数据库最大的区别在于具体的概念和特征有所不同,尤其是食物这一大类有很大的区别,食物中包含一些人们非常熟悉却又非常具有文化差异的概念,如臭豆腐、皮蛋、冰糖葫芦等只有中国人才熟悉的概念,因此,这是一个更适合中文被试和中文研究的数据库。通过对比中英文的概念特征数据库,也可以系统地考察中西方的差异,包括概念的差异、相同概念的不同特征的差异等。

通过分析概念各个特征被提及的频次,可以看到哪些特征是核心特征,哪些特征是边缘特征,如何根据这些特征定义一个概念,也是语言和认知心理学家研究的重要问题。并且本数据库的数据显示,根据这些概念所具有的特征可以对概念进行分类,甚至可以按层级分类。但是人脑如何表征概念的范畴和概念的层级关系还有待探索。本数据库可以为此类研究提供数据支持。本研究还发现,不同类别的概念拥有的共享特征和特有特征的数量具有差异,自然生物,如动物、植物等概念具有更多的共享特征,而人造物,如工具等概念具有更少的共享特征,这与以往的研究结果是一致的(Clarke&Tyler,2015)。

1.DengY,WangY,QiuC,etal.AChineseConceptualSemanticFeatureDataset(CCFD)[J].BehaviorResearchMethods,2021:1-13.

2.WangY*,DengY,CaoL,ZhangJ,YangL.Retrospectivememoryintegrationaccompaniesreconfigurationofneuralcellassemblies[J].Hippocampus,2021.

3.WangY,GaoY,DengY,etal.ModelingofBrain-LikeConceptCodingwithAdulthoodNeurogenesisintheDentateGyrus[J].ComputationalIntelligenceandNeuroscience,2019,2019.

THE END
1.NatureMachineIntelligence三种类型的增量学习今天给大家带来一篇剑桥大学有关增量学习的文章。从非平稳的数据流中渐进地学习新信息,被称为“持续学习”,是自然智能的一个关键特征,但对深度神经网络来说是一个具有挑战性的问题。近年来,许多用于持续学习的深度学习方法被提出,但由于缺乏共同的框架,很难比较它们的性能。为了解决这个问题,我们描述了持续学习的三种https://cloud.tencent.com/developer/article/2202907
2.万文长字总结“类别增量学习”的前世今生开源工具包然而,我们的人脑却有这种非凡的能力, 能够学习大量不同的任务, 而不会出现任何负面的相互干扰。 持续学习(Continual Learning)算法试图为神经网络实现同样的能力, 并解决灾难性的遗忘问题。 因此, 从本质上讲, 持续学习执行的是对新任务的增量学习(Incremental Learning)。https://www.thepaper.cn/newsDetail_forward_17451573
3.类别增量学习研究进展和性能评价通过类别增量学习, 机器学习系统能够扩展并适应动态和开放的环境. 换句话说, 部署后的机器学习系统依然可以在开放环境中持续和交互地学习. 实际应用中有许多这样的需求: 一个智能物流配送系统需要随着物品的流行期, 不断地识别新出现的产品品种[15]; 再比如, 人机对话系统也应该具有在部署后持续学习的能力[16], http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220588?viewType=HTML
4.神经网络的连续学习与增量学习大数据AI人工智能人工智能和机器学习技术的快速发展,带来了诸多新的研究课题和应用挑战。其中,连续学习(Continual Learning)和增量学习(Incremental Learning)是两个非常重要的研究方向。这些技术旨在让人工智能系统能够持续学习和适应,而不会遗忘之前学到的知识,从而实现更加智能和灵活的行为。 https://download.csdn.net/blog/column/12507777/137777532
5.怎么使LLama3模型具备持续学习和自我修正的能力问答要使LLama3模型具备持续学习和自我修正的能力,可以采取以下几种方法:1. 增量学习:通过不断输入新的数据和信息,让模型持续学习和更新自己的知识库,以适应不断变化的环境和需求。2. 强化学习https://www.yisu.com/ask/76731041.html
6.数据挖掘数据量过大怎么办帆软数字化转型知识库在线学习是增量学习的一种常见方法,通过逐步接收和处理新数据,实时更新模型参数,从而提高模型的适应性和预测准确性。常用的在线学习算法有在线梯度下降、在线支持向量机和在线决策树等。 增量聚类是通过不断接收新数据,逐步更新聚类结果,从而提高聚类模型的适应性和计算效率。常用的增量聚类算法有增量K-means、增量DBSCANhttps://www.fanruan.com/blog/article/581058/
7.一文概述联邦持续学习最新研究进展(2)作者表示,这是第一次尝试在 FL 设置中学习全局类增量模型(a global class-incremental model)。具体来说,为了解决本地客户端的类别不平衡引起的本地遗忘,作者设计了一个类别意识的梯度补偿损失和一个类别语义关系蒸馏损失,以平衡旧类别的遗忘,并在不同任务中蒸馏出一致的类间关系。为了解决 non-i.i.d 类不平衡https://developer.aliyun.com/article/1263653
8.工作亮点总结(精选21篇)工作亮点总结(精选21篇) 20xx上半年对我来说,是加强学习,克服困难,开拓业务,快速健康成长的半年,这半年对我的职业生涯的塑造好处重大。我从事代发工资岗也已整整一年,在领导的带领与指导下,我学到了很多业务知识和做人的道理,从中体会到的酸甜苦辣也是最https://www.diyifanwen.com/fanwen/gongzuozongjie2/14116453.html
9.持续学习平台,持续探索创新,逸思长天旗下全自动持续学习工具长天ML持续学习平台 逸思长天(南京)数字智能科技有限公司旗下长天ML持续学习平台,支持更高程度的自动化机器学习和持续学习能力。用户仅需提供训练数据,无需具备任何机器学习知识即可构建机器学习模型,并且随数据变化自动更新,让普通人的AI建模能力达到专家水平。加速各行各业智能化场景探索与落地。 登录SaaS版本私有化部https://www.changtianml.com/
10.持续学习算法的研究进展持续学习 终身学习 灾难性遗忘 人工神经网络https://cpfd.cnki.com.cn/Article/CPFDTOTAL-GCKZ202107001259.htm
11.深度学习:走向核心素养——共读有感2第三讲 怎样实现深度学习 一、把握深度学习的四个重要环节 深度学习的四个环节:选择单元学习主题,确定单元学习目标,设计单元学习活动,开展持续性的评价。 实现深度学习需要单元学https://www.jianshu.com/p/609776cd1f4c
12.银行客户经理心得体会(通用15篇)我告诉自己不能总在有业绩和没业绩这件事上徘徊,要把目光放远点,放在实实在在的东西上,所以我开始努力学习业务。我在厅堂的日常维护中学习零售业务,也会帮助公司客户经理走访客户,办理业务,这样一来,虽然我还是没有业绩,但是我每天都在忙碌,不断地学习新知识。我感到一些充实和满足,而不再深陷于能不能转正、https://mip.ruiwen.com/xindetihui/2884809.html
13.2020年媒体技术趋势报告:13大领域89项变革全输出这一过程需要人工参与,也会花费不少时间,特别是需要监督式训练(supervised training)的早期阶段。持续性学习(CL)将偏重于构建提升自主学习与增量学习的技能,研究者未来还将持续扩展其能力边界。 多任务学习 (Multitask Learning) 电影《龙威小子(The Karate Kid)》里,园丁宫地先生承诺教男孩Daniel空手道,但Daniel很快厌https://36kr.com/p/5267903
14.信息系统项目管理师第四版知识摘编:第18章项目绩效域?(4)持续交付。持续交付是将项目特性增量交付给客户,通常通过使用小批量工作和自动化技术完成。持续交付可用于数字化产品,从产品管理的角度看,持续交付聚焦于在整个产品生命周期内产生的收益和价值。持续交付中可能存在许多开发周期和维护活动,这种交付类型更适合于人员稳定的项目团队。 https://blog.51cto.com/u_14540126/6178859
15.2019辽宁纪委遴鸭点廖建宇在中国共产党辽宁省第十二届纪律刚才,陈求发同志发表了讲话,对我省深入学习贯彻习近平总书记重要讲话精神和中央纪委三次全会精神,推进全面从严治党、党风廉政建设和反腐败斗争向纵深发展提出了明确要求。我们要认真学习领会,坚决贯彻落实。 一、2018年工作回顾 2018年是全面贯彻党的十九大精神开局之年,在中央纪委和省委坚强领导下,全省各级纪检监察机关https://www.gongxuanwang.com/articleDetail/51025
16.新入职员工工作计划(通用12篇)我已经来到公司一个星期了,在这一个星期中,我对我的工作岗位的工作内容和工作要求都有所了解。为了之后能够更好的工作,更好的掌握工作内容,让自己早日能够独立工作,我决定制定一个工作计划,按照工作计划来进行我的工作,将工作做的更好。 一、持续学习 https://www.pinda.com/zhichang/gongzuojihua/170762.html