基于神经网络的增量学习模型研究与实现
随着神经网络的广泛应用,其缺点愈发被发现。由于会产生“灾难性遗忘
学习方法大都注重模型在新任务上的效果,而在过去任务上的效果往往不注重。
作为一种特殊的迁移学习方法,增量学习主要任务就是解决“灾难性遗忘问
题”。本文将从另一个角度对灾难性遗忘进行解释:神经网络的训练对其数据
的分布有很高的要求,如果训练数据不符合目标结果的分布情况,网络将会对
一部分数据过拟合,从而产生训练失效。在增量学习任务中,后训练任务的数
据不一定能满足先前任务训练数据的分布,所以会产生灾难性遗忘。
基于以上所提出的另一种对灾难性遗忘的理解,在本文中提出了一种更快
的补全后训练数据分布的方法RFD(RandomSampleDistributionFitting,RFD)用
用随机数值进入原训练网络,随机数值和其在原训练网络的结果作为新网络的
输入输出和后训练数据一同更新后训练网络,使其大致具有与先前任务的一致
分布。围绕该模型本文进行了以下工作:(1)通过概率分布的公式推导,在理论
上证明该方法的合理性。(2)证明该方法对本文提出的两种场景下的灾难性遗忘
有抑制的作用。(3)对模型的特性进行讨论,找到了合适的模型参数。(4)将本
模型与其他基于神经网络的增量模型进行对比,证明了该模型相较于其他增量
在近些年网络架构搜索(NeuralArchitectureSearch,NAS)开始被研究,而
NAS的网络作为一种特殊的神经网络也有可能产生灾难性遗忘问题。并且结构
和权值的同时变化会对迁移工作造成了很大的影响,已有的迁移方法构造复杂
并且很难对其结果进行解释。猜想在本文提出的RFD方法应用到NAS中后同样
征,实验证明该方法可以使结构变得更加稳定,能够有效缓解NAS中增量学习
权值与结构同时变化对增量学习带来的部分影响。并且在任务迁移中能够节省
相应的迁移成本。
关键词:
增量学习,样本分布拟合,多任务学习,网络架构搜索
Abstract
ResearchandImplementationofIncrementalLearningModel
BasedonNeuralNetwork
Withthewideapplicationofneuralnetworks,theirshortcomingsareincreasingly
beingdiscovered.Becauseofthecatastrophicforgettingproblem,itisimpossibleto
performincremental.Inrecentyears,therelatedfieldsoftransferlearninghave
developedrapidly.Mosttransferlearningmethodsfocusontheeffectsofmodelson
newtasks,whiletheeffectsonpasttasksareoftennot.Asaspecialtransferlearning
method,themaintaskofincrementallearningistosolvethecatastrophicforgetting
problem.Thisarticlewillexplaincatastrophicforgettingfromanotherperspective:the
trainingofneuralnetworkshashighrequirementsonthedistributionoftrainingdata.