脉冲强化学习总结(持续更新)穷酸秀才大草包

要将脉冲强化学习进行分类,首先要了解SNN学习算法以及强化学习本身的类别。

现代RL中一种非详尽但有用的算法分类法。

图片源自:胡一凡,李国齐,吴郁杰,等.脉冲神经网络研究进展综述[J].控制与决策,2021,36(1):1-26

PS:本文后续介绍的基于突触可塑性的算法一般都属于三因素学习规则;

根据前两节对强化学习算法与SNN学习算法的分类,我们可以开始对现有的脉冲强化学习论文进行分类。

需要特别说明的是,由于Actor-Critic结构由Actor网络与Critic网络构成(引入critic网络可以减小策略梯度的方差),因此在部分工作中Actor网络用SNN实现,Critic网络用ANN实现。这样最终测试阶段可以仅使用Actor网络,充分发挥SNN的高能效优势以用于机器人控制等领域。

同样在当前的DQN方法(例如Rainbow)中,优势函数的使用也会使得模型由两个部分构成:优势网络以及价值网络。优势函数有助于提高学习效率,同时使学习更加稳定;同时经验表明,优势函数也有助于减小方差,而方差过大是导致过拟合的重要因素。如何对这些网络进行实现也是需要注意的点。

PS:进化(EVOL)学习算法+R-STDP(在论文中被称为脉冲时序依赖强化学习,STDP-RL)交错更新突触权重未列入讨论中,因为其不属于严格意义的三因素学习规则实现,且笔者认为其生物学合理性不如利用进化算法搜素最优的三因素学习规则。

2004

PS:巴甫洛夫和工具式调节的生物学合理实现以及TD强化学习的可能脉冲网络实现。

2008

PS:逃逸噪声神经元是LIF神经元,具有随机波动的脉冲阈值;可塑性由该全局反馈信号和每个突触处局部计算量(称为资格迹)驱动。

PS:带奖励基线的三因素学习规则——全局奖励信号减去期望奖励(运行均值)+两个在突触部位可用的局部因素。

2011

PS:该SNN-RL学习方法被称为TD-LTP学习规则;状态编码为位置单元发放率;Actor和Critic输出遵循群体编码;为了确保明确选择动作,Actor使用N-winner-take-all横向连接方案。

PS:伪Hebbian形式:学习率κ,突触前活动si(x),突触后因素αjej以及误差E。值得注意的是,该项不是接收神经元的发放,而是驱动该发放的亚阈值电流(因此是"伪"Hebbian)。换句话说,用于驱动神经元的脉冲活动的相同电流用于更新连接权重。与该规则一致,在实验工作中已经提出,突触后电位对于可塑性不是必需的。

PS:沿墙绕行任务,Pioneer3机器人(声纳,激光和电机)。

PS:受限玻尔兹曼机(RBM),部分可观察的RL,NEST模拟器。

PS:绕墙避障导航任务。

PS:车道保持任务,部署有动态视觉传感器(DVS)的Pioneer机器人;利用DVS作为输入,电机命令作为输出。

简介:本文将ANN-SNN转换扩展到深度Q学习的领域,提供了将标准NN转换为SNN的原理证明,并证明了SNN可以提高输入图像中遮挡的鲁棒性。

PS:本研究探索了几种搜索最优缩放参数的方法,包括粒子群优化(particleswarmoptimization,PSO);在所研究的优化方法中,PSO产生了最优性能;使用基于PyTorch的开源库BindsNET模拟脉冲神经元;随机LIF神经元基于LIF神经元(如果神经元的膜电位低于阈值,则神经元可能会以与膜电位(逃逸噪声)成比例的概率发放脉冲)。

PS:随机性突触的可塑性是通过调节具有全局奖励的突触神经递质的释放概率来实现的。确定性突触的可塑性是通过R-STDP规则的变体实现的(Florian,2007;Fremaux&Gerstner,2015)。作者将其命名为半RSTDP规则,它根据一半STDP窗口的结果修改权重(突触前脉冲先于突触后脉冲的部分)。

简介:本文提出了一种神经形态方法,将SNN的能效与DRL的最优性相结合,并在无地图导航的学习控制策略中对其进行基准测试。网络使用的混合框架是脉冲确定性策略梯度(SDDPG),由脉冲Actor网络(SAN)和深度Critic网络组成,其中两个网络使用梯度下降共同训练。

PS:混合框架是脉冲确定性策略梯度(SDDPG);状态编码为Possion脉冲编码;任务为Gazebo模拟器与真实场景下的目标导航任务。

PS:由于权重更新还受全局TD误差控制,所以前两种学习规则仍属于三因素学习规则范畴。本文中还额外介绍了一种事件驱动的算法。假设每个脉冲神经元从一个发放策略中采样其动作,从而在网络中形成一个随机节点。通过使用重参数化技巧,能够将采样中的随机性建模为模型的输入,而不是将其归因于模型参数,从而使所有模型参数连续可微的,实现反向传播。但是,这种训练方法在其开源代码中并未进行实现,缺乏实验分析,网络实现部分介绍也十分有限,有待后续版本的查看。

简介:本文提出了发放率的可靠表征,以减少深度Q网络在ANN-SNN转换过程中的误差,在17项性能最优的Atari游戏中获得了相当的得分。

PS:BindsNET;虽然题目中带有Event-Driven,但是实际采用的仍为标准的ANN-SNN转换方法(ReLU激活函数/IF神经元)。

简介:本文提出一个群体编码的脉冲Actor网络(PopSAN),该网络与使用深度强化学习(DRL)的深度Critic网络一起进行了训练。遍及大脑网络的群体编码方案极大地增强网络的表征能力,并且混合学习将深度网络的训练优势与脉冲网络的节能推断相结合,极大地提高了神经形态控制器的整体效率。实验结果证明,在能效和鲁棒性都很重要的情况下,混合RL方法可以替代深度学习。

简介:这项研究首先使用单个模型学习分别训练SNN,使用脉冲时序依赖强化学习(STDP-RL)和进化(EVOL)学习算法来解决CartPole任务。然后,本文开发了一种受生物进化启发的交错算法,该算法按顺序结合了EVOL和STDP-RL学习。

简介:强化学习代表了生物系统学习的原生方式。人类和动物不是在部署之前通过大量标记数据进行训练,而是通过根据不断收集的数据更新策略来不断从经验中学习。这需要就地学习,而不是依赖于将新数据缓慢且成本高昂地上传到中央位置,在该位置将新信息嵌入到先前训练的模型中,然后将新模型下载到智能体。为了实现这些目标,本文描述了一个用于执行RL任务的高级系统,该系统受到生物计算的几个原则的启发,特别是互补学习系统理论,假设学习大脑中的新记忆取决于皮层和海马网络之间的相互作用。本文表明,这种"双记忆学习器"(DML)可以实现可以接近RL问题最佳解决方案的方法。然后以脉冲方式实现DML架构并在英特尔的Loihi处理器上执行。本文演示了它可以解决经典的多臂赌博机问题,以及更高级的任务,例如在迷宫中导航和纸牌游戏二十一点。

8、ExploringSpikingNeuralNetworksinSingleandMulti-agentRLMethods(InternationalConferenceonRebootingComputing,2021)

PS:实验结果证明了DSQN在性能、稳定性、泛化能力和能效方面优于基于转换的SNN。同时,DSQN在性能方面达到了与DQN相同的水平,在稳定性方面超过了DQN。

PS:基于电位的层归一化(pbLN)方法来直接训练脉冲深度Q网络,其中层归一化(LayerNormalization)可以解决SNN中的梯度消失问题。

PS:用遗传算法调节突触连接。

PS:本文将生物启发多室神经元(MCN)模型和群体编码方法相结合,提出了一种脑启发的脉冲深度分布强化学习算法——多室脉冲全参数分位数函数网络(Multi-CompartmentSpikingFullyparameterizedQuantileFunctionnetwork,MCS-FQF)。

PS:生物学合理的人格混合改进的脉冲Actor网络——MoP-SAN。

PS:进化连接(EC)框架是一种仅推理的方法,用于训练具有1位连接的循环脉冲神经网络(RSNN)。EC框架包括三个主要步骤:(1)将神经网络结构从基于权重的参数化重新表述为连接概率分布,(2)使用自然进化策略(NES)方法来优化重新表述的参数空间,以及(3)从分布中确定性地提取最终参数。

PS:在三个经典控制RL环境(Mountaincar、Cart-pole和Acrobot)进行实验。

PS:提供了多种非发放神经元,可以自由选择膜电压编码方法(最终膜电压、最大膜电压、具有最大绝对值的膜电压以及平均膜电压)。

THE END
1.强化学习实战教程:从理论基础到游戏AI的应用开发指南第一节:什么是强化学习? 强化学习基本概念 强化学习是一种机器学习方法,其目标是使智能体在与环境的交互中学会如何最大化累积奖励。在强化学习中,智能体通过尝试不同的行动来探索环境,并根据行动的结果来调整其策略。强化学习主要包括环境、智能体、状态、动作和奖励等元素。 https://www.jianshu.com/p/873965ab08aa
2.什么是人工智能领域的ReinforcementLearning以 AlphaGo 为例,这是一个结合了蒙特卡洛树搜索和深度神经网络的深度强化学习系统,它学会了在围棋游戏中战胜世界级的人类选手。这一成就不仅展示了深度强化学习的强大能力,也激发了更多领域对强化学习技术的探索和应用。 强化学习作为一门研究智能体如何在不确定环境中做出决策的学科,其理论和方法在不断进化。随着计算https://open.alipay.com/portal/forum/post/159101016
3.的优势:自我纠错能力:基于自进化在线课程强化学习框架WEBRL,克服AutoGLM的优势:自我纠错能力:基于自进化在线课程强化学习框架WEBRL,克服了训练任务稀缺、反馈信号稀少和策略分布漂移等问题,能够不断改进和稳定提高自身性能。保护用户隐私:不会主动获取用户的个人隐私信息,执行授权范围之外的任务时会主动提示用户获取同意,且每次后https://xueqiu.com/2009595847/309969847
4.科学网—[转载]群视角下的多智能体强化学习方法综述“群”视角出发,区分规模可扩展与种群自适应,分类归纳多种学习方法,其中将规模可扩展多智能体强化学习方法分为集合置换不变性、注意力机制、图与网络理论、平均场理论四大类,将面向种群的自适应强化学习方法分为迁移学习、课程学习、元学习、元博弈四大类;最后总结了全文,展望了多智能体深度强化学习方法的应用前景,https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
5.人工智能时代教育反贫困的内在矛盾与未来指向智能化教育使得教育趋近学习的本质,能够为学习者提供多元智能化培育的平台,有利于学习者智能的提升和进化。脑科学、自主个性化学习、智能式教学测评等实质性变革了人类大脑神经质的进化,无论是学校教育、家庭教育等正规教育场域,或是社会教育、自我教育等隐蔽性教育形式,人工智能将人脑刺激—反应接受机制外显为可视化脑http://epc.swu.edu.cn/info/1103/2366.htm
6.百度飞桨强化学习框架PARL发布首个工业级深度进化学习库EvoKit百度飞桨强化学习框架PARL曾两次夺得NeurIPS强化学习赛事世界冠军。近期PARL升级1.3版本,通过发布深度进化学习库EvoKit,多智能体强化学习(Multi-Agent RL)算法,助力强化学习进一步落地工业应用场景。 百度飞桨强化学习框架PARL曾两次夺得NeurIPS强化学习赛事世界冠军。近期PARL升级1.3版本,通过发布深度进化学习库EvoKit,多智能体https://www.51cto.com/article/615874.html
7.AI模型训练:强化算法与进化算法人工智能强化学习算法(rl)和进化算法(ea)是机器学习领域中独具特色的两种算法,虽然它们都属于机器学习的范畴,但在问题解决的方式和理念上存在明显的差异。 强化学习算法: 强化学习是一种机器学习方法,其核心在于智能体与环境互动,通过尝试和错误来学习最佳行为策略,以最大化累积奖励。强化学习的关键在于智能体不断尝试各种行为https://m.php.cn/faq/722448.html
8.机器人自主学习新进展,百度飞桨发布四足机器人控制强化学习新算法主要的原因是四足机器人中复杂的非线性控制系统使得强化学习探索起来十分困难,机器人经常还没走几步就摔倒了,很难从零开始学习到有效的步态。为了解决强化学习在四足控制上遇到的问题,百度团队首次提出基于自进化步态生成器的强化学习框架。 图二、ETG-RL架构https://www.youuvs.com/news/detail/202109/34581_2.html
9.机器学习学术速递[12.21]腾讯云开发者社区现有的标签方法在抗噪声和改进学习算法方面的效果有限。这项工作的灵感来自于交易中的图像分类和自监督学习的成功。我们研究将计算机视觉技术应用于金融时间受此启发,我们引入了一个具有符号选项的新型深度强化学习框架。该框架具有一个循环训练过程,该过程能够通过使用从交互轨迹自动学习的行动模型和符号选项进行https://cloud.tencent.com/developer/article/1924129
10.青春“发声”新时代,“8090”话初心育人案例围绕学科特色,结合工业4.0,人工智能等热门的专业研究领域,邀请学院院长、系主任、学科带头人拍摄通识类视频,向全校师生推送,有助于网络课程学习的推广。目前推出了“你知道机器人已经进化到这地步了吗?”微课视频,由机械学院副院长周其洪副教授主讲,浏览量达1000余次,评论数30余条,普及前沿知识,培养学生兴趣,做好第https://dxs.moe.gov.cn/zx/a/fdy_gxfdynlts_jyfx_yral/220421/1760967.shtml
11.基于强化学习的水下机器人轨迹跟踪运动控制及热液智能搜索算法研究2.2 基于历史数据的递归网络强化学习算法 根据包含历史数据的 PODMP 元素构 成,可以设计基于递归网络的强化学习算 法来为水下机器人的信号源搜索任务制定 策略.在 POMDP 问题中,强化学习框架 下相关变量可以由 MDP 问题衍生得到.强 化学习目标函数变为 其中, 为观测状态的累积折扣分布; 表示从观测和历史数据到https://new.caai.cn/index.php?s=/home/file/download/id/288.html
12.计算机专业毕业论文3000字范文(精选11篇)随着时代的发展和社会经济的进步,在当前信息化背景下,对计算机基础理论的教学的要求日益严格,需要教师不断提高自身教学水平,转变传统的教学模式,加强学生的计算机信息化技术学习,从而使得学生能够适应时代发展的潮流,掌握计算机应用的具体含义,最终提高自身的综合素质。 https://www.wenshubang.com/jisuanjibiyelunwen/508335.html