ReinforcementcoLearningofDeepandSpikingNeuralNetworksforEnergyEfficientMaplessNavigationwithNeuromorphicHardware穷酸秀才大草包

2020IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems(IROS)

注:原翻译基于原先的arxiv版本,可能存在部分差异

Abstract

I.INTRODUCTION

移动机器人自主导航的能力随着其探索的未知环境的复杂性而变得越来越重要。传统上,导航一直依赖环境地图形式的全局知识[1]。然而,对于许多需要有效导航的应用来说,由于实时要求和有限的能源资源[2][3],信息地图的构建非常昂贵。最近引入的深度强化学习(DRL)方法,例如深度确定性策略梯度(DDPG)[4],能够学习无地图导航的最佳控制策略,其中智能体使用其局部感官输入和有限的全局知识进行导航[5][6][7]。然而,DRL的最优性是以高能源成本为代价的。鉴于移动机器人应用程序日益复杂的情况很难被车载能源的同等增长所抵消,因此对机器人无地图导航的低功耗解决方案的需求尚未得到满足。

能源效率目前是脉冲神经网络(SNN)所展示的主要优势,这是一种新兴的受大脑启发的深度神经网络(DNN)替代架构,其中神经元异步计算并通过称为脉冲的离散事件进行通信[8]。我们和其他人最近展示了SNN在神经形态处理器中的实现如何为移动机器人带来低功耗解决方案,从英特尔Loihi[10]上移动机器人[9]的定位和映射到规划[11]和控制[12]。对于无地图导航,大多数基于SNN的方法采用奖励调节学习,其中全局奖励信号驱动局部突触权重更新[13][14]。尽管这种学习规则在生物学上是合理的,但它会遭受灾难性遗忘和缺乏策略评估[13],这限制了在复杂的现实世界环境中学习策略。

在本文中,我们提出了SpikingDDPG(SDDPG),这是一种节能的神经形态方法,它使用SNN/DNN混合框架学习最优策略1,并在现实环境中的无地图机器人导航中对我们的方法进行了基准测试(图1)。像其深度网络对应一样,SDDPG具有独立的网络来表示策略和动作-价值:脉冲actor网络(SAN)(用于从机器人状态推断动作)和深度critic网络(用于评估actor)。使用梯度下降联合训练了该结构中的两个网络。为了训练SAN,我们引入了STBP的扩展,它使我们能够在IntelLoihi上忠实地部署训练好的SAN。我们通过比较分析评估了我们的方法在仿真和现实复杂环境中相对于DDPG的性能和能效。与JetsonTX2上的DDPG相比,Loihi上的SDDPG每次推断的能耗减少了75倍,同时还成功实现了目标导航。

II.METHODS

A.SpikingDeepDeterministicPolicyGradient(SDDPG)

我们提出了SDDPG算法,以学习用于映射给定状态的机器人的最优控制策略s={Gdis,Gdir,ν,ω,S}对机器人的动作a={νL,νR},其中Gdis和Gdir是机器人到目标的相对距离和方向;ν和ω为机器人的线速度和角速度;S是从激光测距仪测得的距离;νL和νR是差分驱动移动机器人的左/右车轮速度。

混合框架由脉冲actor网络(SAN)和深度critic网络组成(图2)。在训练期间,SAN生成给定状态s的动作a,然后将其馈送到critic网络以预测关联的动作-价值Q(s,a)。对SAN进行训练,以预测将Q值最大化的动作。反过来,对critic网络进行训练,可以使动作-价值的TD误差最小,如[4]所述。为了更新动作-价值,我们使用了[5]中采用的奖励函数:

其中Rgoal和Robstacle分别是正/负奖励;Odis是到障碍物的距离;A是放大因子;Gth,Oth是阈值。奖励函数鼓励机器人在探索过程中朝目标移动,从而有助于训练。

为了进行推断,我们在Loihi上部署了训练后的SAN(请参阅II.D),以预测将机器人导航到目标的动作。在接下来的两节中,我们为推断和训练阶段提供数学形式。

B.SpikingActorNetwork(SAN)

其中c是突触电流,dc是电流的衰减因子,wij是第j个突触前神经元的连接权重,oj是二值变量(0或1),指示第j个突触前神经元的脉冲事件。

其次,根据等式(3),我们将突触电流整合到神经元膜电压中。随后,如果膜电压超过阈值,则神经元发出脉冲信号。

其中v是膜电压,dv是电压的衰减因子,Vth是发放阈值。

C.DirectTrainingofSANwithBack-propagation

我们扩展了STBP,以直接训练我们的SAN以学习最优策略。原始的STBP仅限于包含简化的LIF神经元的训练网络,这些神经元只有一个状态变量(电压)。在此,我们将其扩展为具有两个内部状态变量(电流和电压)的LIF神经元,这些变量在公式(2)和(3)中定义。这样做是为了使我们可以在Loihi上部署训练好的模型,该模型实现了这种两状态神经元模型。

由于定义脉冲的阈值函数是不可微的,因此STBP算法需要伪梯度函数来近似脉冲的梯度。我们选择矩形函数(在公式(4)中定义)作为我们的伪梯度函数,因为它在[17]中显示出最优的经验性能。

其中z是伪梯度,a1是梯度的放大器,a2是传递梯度的阈值窗口。

在SAN的前向传播结束时,将计算出的动作馈送到critic网络的第n层,后者依次生成预测的Q值。对SAN进行训练,以预测受过训练的critc网络生成最大Q值所采取的动作。为此,我们使用梯度下降对SAN进行了训练,以使公式(5)中定义的损失L最小。

critic网络第n层的梯度为:

D.SANRealizationonLoihiNeuromorphicProcessor

III.EXPERIMENTSANDRESULTS

A.ExperimentalSetup

我们在配备RPLIDARS1激光测距扫描仪(范围:0.2-40m)的Turtlebot2平台上训练和验证了我们的方法。机器人的视野设置为正面180度,具有18个范围测量值,每个测量值的分辨率为10度。在Gazebo模拟器中进行训练,并在模拟和真实环境中进行验证。我们使用ROS作为训练和验证的中间件。神经形态实现是在包含两个Loihi芯片的英特尔KapohoBayUSB芯片组上执行的。

B.TraininginSimulator

在训练期间,智能体依次导航了4个复杂性不断增加的环境(图4a)。起始位置和目标位置是从4个环境中的特定位置随机采样的。4个环境中难度的增加是由于增加的障碍和不同的起始目标对。这鼓励机器人在更简单的环境(Env1和2)中建立在先前学习的简单策略的基础上,并逐渐学习在困难环境(Env3和4)中导航的复杂策略。这种形式的课程训练已被证明可以实现更好的泛化和更快的收敛[19],[20]。

C.Baselinesforcomparison

我们将SDDPG与以下方法进行了比较:

1)基于地图的导航:我们使用了广泛使用的ROS导航包move_base,它由DWA(动态窗口方法)[21]局部规划器和基于Djikstra算法的全局规划器组成。移动基地所需的地图是使用GMapping[22]构建的。机器人的最大速度设置为0.5m/s,与SDDPG相同。

3)DNN到SNN转换(DNN-SNN):我们使用权重重新缩放,将使用DDPG和Poisson噪声训练的深度Actor网络转换为SNN,其T值与SDDPG相同[15]。我们通过计算层在训练期间的最大输出来确定最优重新缩放因子,然后围绕它执行网格搜索[16]。

D.EvaluationinSimulator

我们在Gazebo模拟器中的20mx20m测试环境中评估了我们的方法(图6)。为了测试我们方法的泛化能力,我们将测试环境设计为在以下方面与训练环境有很大不同:i)不同形状的障碍物(三角形,L形);ii)更窄的穿越通道(测试最少0.75m,训练最少1.75m);iii)组织更密集的障碍。为了进行详尽的评估,我们生成了200个起点和目标位置,从测试环境的所有部分随机均匀采样,最小距离为6m。

我们使用相同的起点和目标位置来评估我们的方法和所有基准。我们首先比较了基于三种可能结果——成功、碰撞和超时的比率的方法(图5a)。对于所有T值,我们的方法都优于DNN-SNN转换方法,对于较小的T值,性能要好得多。我们的方法性能略好于DDPG,即使部署在具有低精度权重的Loihi上也是如此。为了进一步检查SDDPG的有效导航能力,我们将其路线质量与移动基地以及所有其他导航方法进行了比较(图5b,c)。具体来说,我们计算了每种方法所采取的成功路线对应的平均距离和速度。为公平起见,我们只考虑在所有方法中具有共同起点和目标位置的成功路线。尽管无法访问地图,SDDPG实现了与基于地图的方法move_base相同的性能水平。

然后我们分析了导致失败(碰撞或超时)的路由轨迹(图6)。这些方法在需要智能体以它在训练中从未经历过的方式绕过障碍物的位置失败了。为了进一步研究故障位置,我们生成了环境热图,其中对应于每个1mx1m位置的像素强度等于智能体成功穿过该位置的次数百分比。热图显示SDDPG方法在比DDPG更少的位置失败。

尽管我们没有明确针对最先进技术的性能改进,但我们的结果表明SDDPG的成功导航率略高。一种可能的解释是,状态输入的泊松脉冲编码引入的噪声有助于SDDPG网络摆脱"坏"局部最小值,与[23]的结果一致。DDPGPoisson比DDPG表现更好的事实进一步支持了这一推理。

E.EvaluationinReal-world

我们在真实环境中评估了导航方法,以测试SDDPG的泛化能力(图7a)。环境是一个办公室环境,由小隔间和椅子、桌子、沙发、垃圾箱和书架等常见物品组成。该空间跨越约215平方米的区域,最短的通道长度为0.9米。机器人需要导航到15个按顺序放置的目标位置,以覆盖环境的所有区域。我们根据GMapping生成的地图,使用amcl[24]估计了机器人的姿态。无地图导航方法(DDPG,SDDPG)无法访问此地图。虽然DNN-SNN方法在其路线中经历了多次碰撞,但SDDPG方法成功导航到所有目标位置并采用与基于地图的方法相似的路线(图7a)。有趣的是,SDDPG(T=10,25,50)表现出比DDPG和DDPGPoisson稍微平滑的运动(图7b中的速度比较)。

F.PowerPerformanceMeasurement

IV.DISCUSSIONANDCONCLUSION

在本文中,我们提出了一种神经形态框架,该框架将SNN的低功耗和高鲁棒性与DNN的表征学习能力相结合,并在无地图导航中进行基准测试。虽然最近在整合这两种架构上的努力集中于分别训练两个网络[16],[25],但我们在此提出了一种将它们相互结合训练的方法。我们的训练方法实现了两个网络之间的协同信息交换,从而使它们可以通过共享表征学习来克服彼此的局限性;当部署在神经形态处理器上时,这为无地图导航提供了一种最优且节能的解决方案。这样的努力可以补充目前允许进行联合推断的神经形态硬件,例如Tianjic芯片[25],并刺激用于节能联合训练的混合神经形态芯片的开发。

总体而言,这项工作支持了我们为开发实时节能型机器人导航解决方案所做的持续努力。我们的无地图解决方案可以补充当前基于地图的方法,以便在易于获取地图的应用中生成更可靠的控制策略。此外,我们的通用混合框架可用于解决各种任务,为全自动移动机器人铺平了道路。

THE END
1.CoCoOp:ConditionalPromptLearningforVisionLanguageModelsZero-Shot Learning 零样本学习(Zero-Shot Learning, ZSL)是另一个相关的研究领域,其目标与我们的相似,即通过仅训练基础类来识别新类[3,51,54,57]。此外,在基类上训练的模型在新类上经常失败的泛化问题也与ZSL文献中提出的“视类偏差”问题有关[54]。ZSL最常见的方法是基于辅助信息(如属性[23]或词嵌入[12https://blog.csdn.net/weixin_50917576/article/details/137870680
2.CoLearning:协作学习智能跟踪平台陈教授Co-Learning平台是一个基于学习科学理论的协作学习跟踪平台,它用来收集协作过程中的各类协作数据,对协作的参与者进行跟踪和监控,提供感知和干预,从而提高协作小组内部的协作水平,最终促进团队协作的成功。 Co-Learning平台的数据采集端有三个,它们是:1) 支架工具集、2) 在线交流平台 3) 协同工作空间。如图1所示: https://www.keqidao.com/searchdetail?content=0&dynamicId=199386080542721
3.Interactionmatters:Co皮忠玲,pizhongling,陕西师范大学主页平台管理系统, Interaction matters: Co-viewing facilitates learning from live video streaming for elementary students皮忠玲;学习科学;视频设计与学习策略 ;在线合作学习与创新;学习的认知神经机制皮忠玲,Zhongli Pihttps://faculty.snnu.edu.cn/pizhongling/zh_CN/lwcg/123204/content/111751.htm
4.汇思wizbank7.0企业学习管理平台汇思上海是企业级数字化学习解决方案提供商,20年elearning行业经验,海内外拥有300名专业开发人才,基于人工智能、大数据、云计算为亚太地区企业和政府提供“平台+内容+服务”一体化解决方案,主要产品服务包括企业级学习管理系统,定制化课件设计及通用课程。http://www.cyberwisdom.co/
5.日本最高设计奖GOODDESIGNAWARD2021百件获奖作品精彩出炉获奖公司/组织:Co-create Planning & Design Consultancy 基于中国台湾台东地区16个乡镇和9个民族的各种传统食品为基础,以国际慢食运动的精髓为中心,策划的具有不同主题的活动。作为旅游产业、公共教育、食品及农业文化的重要平台,创建了一个慢食社区,推广传统饮食文化,支持当地产品。 https://www.digitaling.com/articles/621312.html
6.十大英语学习网站学英语的网站推荐英语口语学习网站有哪些→03 BBC Learning English 04 大耳朵英语 05 TED 06 可可英语 07 在线英语听力室 08 爱思英语 09 英语点津 10 旺旺英语 Elllo 英语学习频道 VOA美国之音 无忧雅思网 田间小站 听力课堂 十大英语学习网站榜单中,买购网编辑主要筛选了部分相对热门的英语教育平台,依据其品牌知名度、用户口碑、用户规模、https://www.maigoo.com/top/420057.html
7.娱乐用小黑ThinkPadEdgeE40完全评测在整机性能测试部分,我们主要使用了SYSmark2007 Preview和PCMark Vantange、SiSoftware Sandra Professional v2009软件进行测试,BAPCo SYSmark2007 Preview包括E-Learning 、Office Productivity 、Video Creation 、3D Modeling四个模块,分别模拟用户互联网学习、办公应用、影像创建、3D建模,每个模块代表了一种典型商业用户应用https://tech.sina.cn/digi/nb/2010-04-17/detail-ichmifpy5015844.d.html
8.googleclassroomforeGet started with Google Classroom, a central hub for tools and resources designed to help educators manage classrooms and enrich learning experiences.http://classroom.google.com/
9.不完美嘲下的神经网络优化策略DOIT因为dual learning和cooperative learning主要是解决自然语言处理的问题,自然语言处理涉及到比如说中文翻译成英文,英文翻译成中文,这是一个两个任务,是多个任务。我们这里主要是讲CV方面,所以说我们主要讲解决一个任务,接下来会介绍co-training、deep mutual learning、filter grafting和DGD这几个工作。https://www.doit.com.cn/p/366427.html
10.网易公开课网易公开课汇集清华、北大、哈佛、耶鲁等世界名校共上千门课程,覆盖科学、经济、人文、哲学等22个领域,在这里你可以开拓视野看世界,获取有深度的好知识。https://open.163.com/
11.DeepLearning.AI:StartorAdvanceYourCareerinAIDeepLearning.AI | Andrew Ng | Join over 7 million people learning how to use and build AI through our online courses. Earn certifications, level up your skills, and stay ahead of the industry.https://www.deeplearning.ai/
12.Microsoft365CopilotMorketing拼多多旗下海外购物平台Temu将进入英国市场 据界面新闻、全天候科技等多家媒体报道,Temu 计划于 3 月 25 日上线英国站点。目前平台正在进行招商,商家可享受the arrival of technology like AI and machine learning has significantly altered what digital marketers can do at each stage of the customer journeyhttps://morketing.com/detail/24186
13.JoinUsforthe14thICOSCM(Online)onJuly18The Role of 3R Supply Chains in Coping with COVID-19 Xiande Zhao Professor of Operations and Supply Chain Management, CEIBS 15:10-15:40 Beijing time | Keynote Speech 3 Learning from a Crisis Chris Voss Warwick Business School, The University of Warwick, and Emeritus Professor, London Busineshttps://cn.ceibs.edu/media/news/events-visits/19143
14.建议收藏!100篇必读论文大模型月报(2024.02)为此,来自上海人工智能实验室、华东师范大学、普林斯顿大学和香港大学的研究团队提出了一个用于构建通用智能体的框架——OS-Copilot,它能够与操作系统(OS)中的各种元素(包括网络、代码终端、文件、多媒体和各种第三方应用程序)进行交互。研究团队利用 OS-Copilot 创建了一个用于自动执行通用计算机任务的自我完善型具身https://hub.baai.ac.cn/view/35698
15.WorkplaceLearningSolutionsWe build from scratch some of the best e-learning used by organisations, software providers and consultants.http://www.melearning.co.uk/
16.colearning是什么意思colearning在线翻译英语读音用法co-learning 英['kl'n]美['kl'n] 合作学习 Created with Highcharts 3.0.2释义常用度分布图海词统计 合作学习 分享单词到:http://dict.cn/co-learning
17.Kaggle:YourMachineLearningandDataScienceCommunityBuild your skills in our competitions, co-hosted by world-class research organizations & companies. AI Mathematical Olympiad - Progress Prize 2 $2,117,152 · Featured Competition Solve national-level math challenges using artificial intelligence models https://www.kaggle.com/
18.市政府关于公布南通市第十三届自然科学优秀学术论文的通知20. 清肺排毒汤治疗COVID-19并发症肺纤维化的作用及机制 吴育(南通市中医院)、闵令田、董婷婷 21. 愈创醇诱导免疫原性细胞死亡抑制非小细胞肺癌肿瘤生长〔 (-)-Guaiol triggers immunogenic cell death and inhibits tumor growth in non-small cell lung cancer〕 https://www.nantong.gov.cn/ntsrmzf/2023ndlq/content/0f059220-6e66-4d3c-b334-e89f53f4bc6e.html