脉冲强化学习总结(持续更新)穷酸秀才大草包|自进化在线课程强化学习框架_在线学习

要将脉冲强化学习进行分类，首先要了解SNN学习算法以及强化学习本身的类别。

现代RL中一种非详尽但有用的算法分类法。

图片源自：胡一凡,李国齐,吴郁杰,等.脉冲神经网络研究进展综述[J].控制与决策,2021,36(1):1-26

PS：本文后续介绍的基于突触可塑性的算法一般都属于三因素学习规则；

根据前两节对强化学习算法与SNN学习算法的分类，我们可以开始对现有的脉冲强化学习论文进行分类。

需要特别说明的是，由于Actor-Critic结构由Actor网络与Critic网络构成(引入critic网络可以减小策略梯度的方差)，因此在部分工作中Actor网络用SNN实现，Critic网络用ANN实现。这样最终测试阶段可以仅使用Actor网络，充分发挥SNN的高能效优势以用于机器人控制等领域。

同样在当前的DQN方法（例如Rainbow）中，优势函数的使用也会使得模型由两个部分构成：优势网络以及价值网络。优势函数有助于提高学习效率，同时使学习更加稳定；同时经验表明，优势函数也有助于减小方差，而方差过大是导致过拟合的重要因素。如何对这些网络进行实现也是需要注意的点。

PS：进化(EVOL)学习算法+R-STDP(在论文中被称为脉冲时序依赖强化学习，STDP-RL)交错更新突触权重未列入讨论中，因为其不属于严格意义的三因素学习规则实现，且笔者认为其生物学合理性不如利用进化算法搜素最优的三因素学习规则。

2004

PS：巴甫洛夫和工具式调节的生物学合理实现以及TD强化学习的可能脉冲网络实现。

2008

PS：逃逸噪声神经元是LIF神经元，具有随机波动的脉冲阈值；可塑性由该全局反馈信号和每个突触处局部计算量(称为资格迹)驱动。

PS：带奖励基线的三因素学习规则——全局奖励信号减去期望奖励(运行均值)+两个在突触部位可用的局部因素。

2011

PS：该SNN-RL学习方法被称为TD-LTP学习规则；状态编码为位置单元发放率；Actor和Critic输出遵循群体编码；为了确保明确选择动作，Actor使用N-winner-take-all横向连接方案。

PS：伪Hebbian形式：学习率κ，突触前活动si(x)，突触后因素αjej以及误差E。值得注意的是，该项不是接收神经元的发放，而是驱动该发放的亚阈值电流(因此是"伪"Hebbian)。换句话说，用于驱动神经元的脉冲活动的相同电流用于更新连接权重。与该规则一致，在实验工作中已经提出，突触后电位对于可塑性不是必需的。

PS：沿墙绕行任务，Pioneer3机器人(声纳，激光和电机)。

PS：受限玻尔兹曼机(RBM)，部分可观察的RL，NEST模拟器。

PS：绕墙避障导航任务。

PS：车道保持任务，部署有动态视觉传感器(DVS)的Pioneer机器人；利用DVS作为输入，电机命令作为输出。

简介：本文将ANN-SNN转换扩展到深度Q学习的领域，提供了将标准NN转换为SNN的原理证明，并证明了SNN可以提高输入图像中遮挡的鲁棒性。

PS：本研究探索了几种搜索最优缩放参数的方法，包括粒子群优化(particleswarmoptimization，PSO)；在所研究的优化方法中，PSO产生了最优性能；使用基于PyTorch的开源库BindsNET模拟脉冲神经元；随机LIF神经元基于LIF神经元(如果神经元的膜电位低于阈值，则神经元可能会以与膜电位(逃逸噪声)成比例的概率发放脉冲)。

PS：随机性突触的可塑性是通过调节具有全局奖励的突触神经递质的释放概率来实现的。确定性突触的可塑性是通过R-STDP规则的变体实现的(Florian,2007;Fremaux&Gerstner,2015)。作者将其命名为半RSTDP规则，它根据一半STDP窗口的结果修改权重(突触前脉冲先于突触后脉冲的部分)。

简介：本文提出了一种神经形态方法，将SNN的能效与DRL的最优性相结合，并在无地图导航的学习控制策略中对其进行基准测试。网络使用的混合框架是脉冲确定性策略梯度(SDDPG)，由脉冲Actor网络(SAN)和深度Critic网络组成，其中两个网络使用梯度下降共同训练。

PS：混合框架是脉冲确定性策略梯度(SDDPG)；状态编码为Possion脉冲编码；任务为Gazebo模拟器与真实场景下的目标导航任务。

PS：由于权重更新还受全局TD误差控制，所以前两种学习规则仍属于三因素学习规则范畴。本文中还额外介绍了一种事件驱动的算法。假设每个脉冲神经元从一个发放策略中采样其动作，从而在网络中形成一个随机节点。通过使用重参数化技巧，能够将采样中的随机性建模为模型的输入，而不是将其归因于模型参数，从而使所有模型参数连续可微的，实现反向传播。但是，这种训练方法在其开源代码中并未进行实现，缺乏实验分析，网络实现部分介绍也十分有限，有待后续版本的查看。

简介：本文提出了发放率的可靠表征，以减少深度Q网络在ANN-SNN转换过程中的误差，在17项性能最优的Atari游戏中获得了相当的得分。

PS：BindsNET；虽然题目中带有Event-Driven，但是实际采用的仍为标准的ANN-SNN转换方法(ReLU激活函数/IF神经元)。

简介：本文提出一个群体编码的脉冲Actor网络(PopSAN)，该网络与使用深度强化学习(DRL)的深度Critic网络一起进行了训练。遍及大脑网络的群体编码方案极大地增强网络的表征能力，并且混合学习将深度网络的训练优势与脉冲网络的节能推断相结合，极大地提高了神经形态控制器的整体效率。实验结果证明，在能效和鲁棒性都很重要的情况下，混合RL方法可以替代深度学习。

简介：这项研究首先使用单个模型学习分别训练SNN，使用脉冲时序依赖强化学习(STDP-RL)和进化(EVOL)学习算法来解决CartPole任务。然后，本文开发了一种受生物进化启发的交错算法，该算法按顺序结合了EVOL和STDP-RL学习。

简介：强化学习代表了生物系统学习的原生方式。人类和动物不是在部署之前通过大量标记数据进行训练，而是通过根据不断收集的数据更新策略来不断从经验中学习。这需要就地学习，而不是依赖于将新数据缓慢且成本高昂地上传到中央位置，在该位置将新信息嵌入到先前训练的模型中，然后将新模型下载到智能体。为了实现这些目标，本文描述了一个用于执行RL任务的高级系统，该系统受到生物计算的几个原则的启发，特别是互补学习系统理论，假设学习大脑中的新记忆取决于皮层和海马网络之间的相互作用。本文表明，这种"双记忆学习器"(DML)可以实现可以接近RL问题最佳解决方案的方法。然后以脉冲方式实现DML架构并在英特尔的Loihi处理器上执行。本文演示了它可以解决经典的多臂赌博机问题，以及更高级的任务，例如在迷宫中导航和纸牌游戏二十一点。

8、ExploringSpikingNeuralNetworksinSingleandMulti-agentRLMethods(InternationalConferenceonRebootingComputing,2021)

PS：实验结果证明了DSQN在性能、稳定性、泛化能力和能效方面优于基于转换的SNN。同时，DSQN在性能方面达到了与DQN相同的水平，在稳定性方面超过了DQN。

PS：基于电位的层归一化（pbLN）方法来直接训练脉冲深度Q网络，其中层归一化(LayerNormalization)可以解决SNN中的梯度消失问题。

PS：用遗传算法调节突触连接。

PS：本文将生物启发多室神经元(MCN)模型和群体编码方法相结合，提出了一种脑启发的脉冲深度分布强化学习算法——多室脉冲全参数分位数函数网络(Multi-CompartmentSpikingFullyparameterizedQuantileFunctionnetwork,MCS-FQF)。

PS：生物学合理的人格混合改进的脉冲Actor网络——MoP-SAN。

PS：进化连接(EC)框架是一种仅推理的方法，用于训练具有1位连接的循环脉冲神经网络(RSNN)。EC框架包括三个主要步骤：(1)将神经网络结构从基于权重的参数化重新表述为连接概率分布，(2)使用自然进化策略(NES)方法来优化重新表述的参数空间，以及(3)从分布中确定性地提取最终参数。

PS：在三个经典控制RL环境(Mountaincar、Cart-pole和Acrobot)进行实验。

PS：提供了多种非发放神经元，可以自由选择膜电压编码方法（最终膜电压、最大膜电压、具有最大绝对值的膜电压以及平均膜电压）。

THE END

脉冲强化学习总结(持续更新)穷酸秀才大草包

自然语言强化学习：一个可处理语言反馈的强化学习框架数学推理

英语口语学习心得通用12篇

班主任研修日志范文

00264中国法律思想史自考考试大纲（2018版）

人工智能前景分析汇总十篇

招商策略枕戈蓄力，静候政策——A股2024年11月观点及配置建议

ChatGPT背后的技术

《动手学深度学习》第二版摘录血衫非弧の一存

脉冲强化学习总结(持续更新)穷酸秀才大草包

强化学习研究综述.docx

福建省安溪茶业职业技术学校事业发展规划