仓储中基于多智能体深度强化学习的多AGV路径规划MultiAGVPathPlanninginWarehousingBasedonMulti

仓储中基于多智能体深度强化学习的多AGV路径规划

王梅芳,关月

贵州大学大数据与信息工程学院,贵州贵阳

收稿日期:2023年9月18日;录用日期:2023年11月7日;发布日期:2023年11月14日

摘要

随着工业自动化和物流行业的迅速发展,自动引导车辆(AutomatedGuidedVehicle,AGV)在物流仓库中的路径规划已成为确保运输效率和准确性的关键环节。尽管近年来已经有很多策略被提出,但多AGV系统在复杂的物流环境中仍然频繁地出现碰撞、路径冲突以及控制迟延等问题。鉴于此,本研究提出了一种基于多智能体深度强化学习(MultiAgentDeepReinforcementLearning,MADRL)的路径规划方法,以期解决多AGV之间的相互协调问题并提高其路径规划效率。为验证所提方法的有效性,我们采用了与遗传算法(GeneticAlgorithm,GA)的比较实验。结果显示,基于MADRL的策略在整体运输效率上实现了28%的提升,并在碰撞事件上有了明显的减少。

关键词

路径规划,MADRL,AGV,仓储

Multi-AGVPathPlanninginWarehousingBasedonMulti-AgentDeepReinforcementLearning

MeifangWang,YueGuan

CollegeofBigDataandInformationEngineering,GuizhouUniversity,GuiyangGuizhou

Received:Sep.18th,2023;accepted:Nov.7th,2023;published:Nov.14th,2023

ABSTRACT

Withtherapidadvancementofindustrialautomationandthelogisticsindustry,thepathplanningofAutomatedGuidedVehicles(AGV)inlogisticswarehouseshasbecomeacriticalcomponenttoensuretransportationefficiencyandaccuracy.Althoughnumerousstrategieshavebeenproposedinrecentyears,multi-AGVsystemsstillfrequentlyencountercollisions,pathconflicts,andcontrollatenciesincomplexlogisticsenvironments.Inlightofthis,ourstudyintroducesapathplanningapproachbasedonMulti-AgentDeepReinforcementLearning(MADRL)aimingtoaddressthecoordinationissuesamongmultipleAGVsandtoenhancetheirpathplanningefficiency.Tovalidatetheeffectivenessoftheproposedmethod,weconductedcomparativeexperimentswiththeGeneticAlgorithm(GA).ResultsshowthattheMADRL-basedstrategyachieveda28%improvementinoveralltransportationefficiencyandasignificantreductionincollisionincidents.

Keywords:PathPlanning,MADRL,AGV,Warehousing

ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY4.0).

1.引言

自动引导车辆(AutomatedGuidedVehicle,AGV)已为材料搬运和仓储物流领域带来革命性变革[1][2]。在高度自动化的现代仓库中,AGV能够根据系统的调度,在货架之间快速移动,精确地定位并取得或存放货物,大大提高了出入库效率。其精准的导航系统和可编程路径确保了货物被高效、安全和准确地搬运。在当今工业4.0智能汽车制造厂中,如特斯拉、理想、比亚迪等公司广泛采用AGV来搬运汽车部件,从而确保了生产线的连续性和流畅性[3][4]。此外,在智能化的物流产业中,AGV能够为工作人员精确地搬运货物,显著提高了仓储效率[5]。最初仅用于制造车间中搬运笨重材料的AGV,如今已经逐渐演变成现代物流仓储解决方案的核心组成部分。在当今错综复杂的物流领域,AGV在加速流程、减少人工劳动和优化存储空间方面都显示出其不可替代的价值[6][7][8]。

然而在物流仓储中,多AGV同时进行路径规划还存在诸多挑战[9][10][11]。首先,AGVs之间可能会发生路径交叉和碰撞,尤其是在空间有限且结构复杂的仓库内,当AGV出现碰撞或锁死将会严重影响货物搬运效率[12]。其次,多个AGV的实时协同和调度,以满足高效率和低延迟的要求,也是一个难以解决的问题。传统的基于遗传算法(GeneticAlgorithm,GA)算法的路径规划方法很难应对这些动态和复杂的挑战[12][13][14]。而深度强化学习已经成为人工智能领域的一个重要技术,为智能体提供了通过与环境互动来学习最优策略的途径[15]。但是利用DRL进行小车路径规划任然存在状态空间和动作空间的维度灾难[16]。因此,面对多AGV情景,我们基于多智能体深度强化学习(MultiAgentDeepReinforcementLearning,MADRL)来对AGV的状态、动作、奖励进行建模。MADRL可以有效地整合多个AGV的集体潜力,使它们在一个共享的环境中进行有效的协同、规避碰撞和实现快速路径规划。

本文深入探讨了在物流仓储背景下利用MADRL进行多AGV路径规划的复杂性。鉴于物流行业长期面临的碰撞、路径冲突和控制迟延等挑战,我们的研究引入了一种新颖的基于MADRL的AGV路径规划策略。与经常采用预定义规则或静态算法的传统方法不同[17],我们的方法能够动态适应实时变化,确保最佳的AGV协调。此外,在我们的研究中,为了验证所提出的MADRL方法的有效性,我们与传统的GA进行了比较。实验结果显示,基于MADRL的路径规划策略在运输效率上实现了33%的显著提升,并且能够显著减少AGV之间的碰撞事件。

2.模型

2.1.仓储环境

·AGV:它们以一定的速度行驶并搬运包裹。

·自动分拣机:它依据包裹的收获地址发出运输指令,通知AGV将包裹运送到指定的货物缓存区。

·货物缓存区:在图中由绿色栅格代表,基于包裹的收货地址,在地图上均匀地划分出多个投递区域。每个投递区域都配备一个竖直向上容量有限的存储空间。当该空间内的包裹数目满时,这些包裹将被从仓库中转移出,以便进行后续的装车和发货。

·障碍:由一些固定物,如楼梯、门、工人活动区等构成,AGV不能到达此区域。

·充电站:它为蓝色栅格,用于提供给AGV进行充电,AGV工作时不能经过占用。当AGV点亮到达预警值时,将自动寻找最近空充电站进行充电。

Figure1.Multi-AGVhandlingscenariointhewarehouse

2.2.问题描述与建模

当自动分拣机分发出一个新的包裹,将基于包裹与周围的空AGV的曼哈顿距离进行任务派发,AGVi与包裹j的曼哈顿距离给出为:

2.3.数学公式化

公式(5)表示最小化包裹搬运总时长;公式(6)约束一个AGV只能搬运一个包裹,且一个包裹只能由一个AGV搬运;公式(7)约束包裹的搬运距离必须为正数;公式(8)和(9)约束AGVs的行驶范围,其不能超出仓库区域;公式(10)约束货物缓冲区的容量界限,单个缓冲区最多容纳N个包裹。

3.算法

在本章中,我们基于先前构建的数学模型,深入探讨多AGV路径规划的复杂性和连续性特征。为此,我们将其路径规划过程建模为分布式部分可观测马尔可夫决策过程(DecentralizedPartiallyObservableMarkovDecisionProcess,Dec-POMDP)[18],并借助MADRL算法进行有效求解。

3.1.强化学习环境建模

在AGV研究领域中,DRL为我们提供了一种新颖的方法来解决路径规划、任务分配和决策问题。回顾1954年,当Minsky首次描述强化学习的概念时,他提到的是智能体如何通过与环境的试错互动来优化报酬[19]。这种理念在AGV系统中找到了其实际应用场景。在复杂的物流环境中,AGV作为智能体,需要确定最佳的路径以避免障碍物、减少碰撞风险,并有效地完成货物运输任务。起初,AGV并不知道哪条路径最优或如何避免碰撞。这时,深度强化学习的方法允许AGV在其操作环境中不断尝试、学习并调整其策略。通过与环境的持续互动,AGV可以根据返回的奖励或惩罚来评估并调整其行动策略,从而找到最优的路径和决策策略。

Figure2.Corestructureofreinforcementlearning

·奖励函数R:定义了基于AGV的动作和其结果对系统整体效益的量化评价。它考虑了路径长度、碰撞风险、任务完成度等多个因素,旨在指导AGV作出能够最大化系统效益的决策。R具体如下表示:

3.2.MADRL算法

MADRL是一种深度增强学习方法,专门设计来处理多智能体环境中的学习任务。在MADRL中,每个智能体都使用深度神经网络来表示其策略,并与其他智能体同时学习和交互。由于多智能体环境的动态性和非静态性,MADRL需要考虑智能体之间的策略交互和可能的非平稳分布。因此,MADRL算法经常集成技术,如中央化学习与去中央化执行、多智能体信用分配等,以有效地促进多智能体之间的协作或竞争学习。

为了找出最优策略使AGV获得最大化累积奖励,需要通过最大化奖励目标函数来更新策略网络参数θ:

4.仿真实验

4.1.实验参数

在本论文的仿真实验部分,着重模拟一个基于多模态深度强化学习策略的多AGV仓库搬运场景。实验的计算任务部署在一个专业的计算环境中,该环境配备了AMD5600X作为中央处理器(CentralProcessingUnit,CPU)和RTX3080作为图形处理器(GraphicsProcessingUnit,GPU),确保了仿真的计算效率与实时性。神经网络模型的核心是一个六层全连接层,按层的节点数目分别为[64,128,128,256,128,64]。这种设计旨在捕捉仓库环境中的复杂特征并高效地为AGVs制定策略。每一层都采用了ReLU激活函数[21],以增强模型的非线性表示能力。场景方面,我们构建了一个面积为50m×50m的虚拟仓库,进一步栅格化为0.5m×0.5m的单元,得到一个细致的100×100网格地图。这种精细的栅格化可以为仿真提供足够的空间分辨率,确保AGV的移动策略与实际仓储操作紧密相符。

Table1.Experimentalsimulationparameters

4.2.结果分析

4.2.1.收敛性分析

4.2.2.性能分析

Figure3.Convergencestatusofaveragesystemrewardunderdifferentlearningrates

Figure4.Convergencestatusofaveragesystemrewardunderdifferentlearningrates

5.总结

在本研究中,针对物流仓库中多AGV的路径规划问题建立了多AGV搬运货物的数学模型,并提出了基于MADRL的解决方案。本研究中使用的MADRL策略基于特定的环境建模,模拟了真实的物流仓储条件。通过对智能体与环境的深度交互,可以有效地训练AGVs进行高效路径规划。经过与GA算法的实验比较,证明了MADRL在提高运输效率上具有显著优势。综合来看,MADRL为物流仓储中的多AGV协同路径规划提供了一个有效且实用的方法。在未来的研究中,我们期望进一步探索MADRL在更复杂的物流场景中的应用,特别是考虑到变化的仓库布局和动态的任务需求。

THE END
1.自动驾驶主流芯片及平台架构(三)低算力平台自动驾驶芯片V3U 可以单芯片同时处理摄影机与雷达等传感器资料,同时以AI进行自动驾驶控制与学习,同时达到汽车安全标准ISO 26262最高的ASIL D要求,确保系统简单安全。 R-Car V3U SoC中的三大优势: 1、高能效、高性能的卷积神经网络(CNN)硬件加速器 随着新一代ADAS和AD系统中使用的传感器数量不断增加,CNN处理性能也需要不断加强https://blog.csdn.net/m0_58838529/article/details/138510905
2.www.rgbdc.com/yyys/31872269.shtml用我导师贾力诚教授的原话,这是个learningbydoing的过程。培训需要大量的时间和精力投入。彼时,我的白海豚研究已经拓展到四个种群,精力非常有限。该培训什么人呢? 终遇志同道合的伙伴 有人也许会认为一个体格强壮、不晕船、不怕晒的年轻人,将是海上工作的好手。是男生的话那就更好不过了。 真是这样吗?http://www.rgbdc.com/yyys/31872269.shtml
3.展会信息全球有机硅网付宇,中汽研新能源汽车检验中心(天津)有限公司电驱电控部平台总监 16:00-16:30 Novel Approach in Designing VinFast Vehicles Thermal Management System to Provide Admirable Customer Comfort Tharun Narayanan Arthanari,VFe34 EXT Module Module Manager,VinFast LLC https://www.soyjg.com/Exhibition/detail/17-63171.html
4.人工智能计算领域的领导者NVIDIAAI 平台 AI 推理 AI 工作流 对话式 AI 定制化模型 网络安全 数据分析 生成式 AI 机器学习 预测与预报 语音AI 数据中心和云计算 概览 面向企业 IT 的加速计算 云计算 托管 MLOps 网络 虚拟化 设计和仿真 概览 数字孪生开发 渲染和可视化 机器人仿真 汽车仿真 机器人开发和http://nvidia.com/
5.自动驾驶主流芯片及平台架构:低算力平台V3U 可以单芯片同时处理摄影机与雷达等传感器资料,同时以AI进行自动驾驶控制与学习,同时达到汽车安全标准ISO 26262最高的ASIL D要求,确保系统简单安全。 R-Car V3U SoC中的三大优势: 1、高能效、高性能的卷积神经网络(CNN)硬件加速器 随着新一代ADAS和AD系统中使用的传感器数量不断增加,CNN处理性能也需要不断加强https://www.jishulink.com/post/1812747
6.科企岛  基于管理话题,将会催生一系列人工智能治理平台,使企业能够管理其人工智能系统的法律、道德和运营绩效。 新工具将创建、管理和执行政策,以确保人工智能的透明度。这些平台也可以检查人工智能助理是否会存在偏见,并提供建立模型的信息。 Alvarez预计,这些工具最终将成为人工智能创建过程中的一部分,以确保从一开始就https://www.keqidao.com/information-third?id=221461038039041
7.孟德彪中文主页电子科技大学主页平台管理系统machine learning-assisted structural integrity assessment and design optimization under uncertainty " in cmes-computer modeling in engineering & sciences 机器学习算法(深度学习,神经网络,支持向量机,联邦学习) 团队成员 教师其他联系方式 邮箱: 1f6494b695ac8e3e28e2ff2ba3ed2c91fb9b7b0ccd6a75ccd0dahttps://faculty.uestc.edu.cn/mengdebiao/zh_CN/index/167251/list/index.htm
8.环境知识学习绿色创新行为与环境绩效结论揭示了环境知识学习与环境绩效之间的内在作用机制,拓展了组织学习与环境管理等领域的理论空间,对企业实施绿色发展战略具有启示意义。关键词:环境知识学习;绿色创新行为;环境绩效;环境管理Environmental Knowledge Learning, Green Innovation Behavior and Environmental Performance Li Jieyi, Zhang Gong, Xie Linna (https://www.kjjb.org/fileup/HTML/2019-36-15-017.htm
9.最新文章让技术变得更有价值本次文章介绍我们于 TPAMI-2023 发表的一项用于视觉识别的相互对比学习在线知识蒸馏(Online Knowledge Distillation via Mutual Contrastive Learning for Visual Recognition)工作,该工作是我们发表在 AAAI-2022 论文 Mutual contrastive learning for visual representation learning [1] 的扩展版本,论文讲解链接为: https:/https://www.elecfans.com/d/newest/30871
10.搜狐搜狐网为用户提供24小时不间断的最新资讯,及搜索、邮件等网络服务。内容包括全球热点事件、突发新闻、时事评论、热播影视剧、体育赛事、行业动态、生活服务信息,以及论坛、博客、微博、我的搜狐等互动空间。https://sohu.com/
11.多车立体事件相机数据集:用于3D感知的事件相机数据集否则,如果有激光雷达,Cartographer[28]将用于驱动序列,将激光雷达扫描和IMU数据融合成激光雷达的循环闭合2D姿态,利用第五章D节的校准将其转换为左DAVIS帧。对于户外场景,我们也提供原始的GPS读数。对于每个有激光雷达测量的序列,我们运行激光雷达测绘(LOAM)算法[29]来生成密集的三维局部地图,这些地图被投射到每个DAVIShttps://www.eet-china.com/mp/a172726.html
12.新能源汽车节能规划与控制技术研究综述强 化学习(reinforcement learning, RL)基于 Markov 决策 过程,通过智能体与环境的互动实现累积回报最Transport Res Part D: Transport Environ, 孙超,等:新能源汽车节能规划与控制技术研究综述 2020, 87主持国家自然科学基金重 点项目,工信部产业技术基础公共服务平台项目 和广东省重点领域研发计划项目等多https://www.journalase.com/CN/article/downloadArticleFile.do?attachType=PDF&id=19124
13.GitHubgenkinD003 Pinterest 图片设计社交 暂无法通过爬虫获取信息, 点击进入源网站主页 订阅地址 D004 优设 优秀设计联盟-优设网-设计师交流学习平台-看设计文章,学软件教程,找灵感素材,尽在优设网! 暂无法通过爬虫获取信息, 点击进入源网站主页 订阅地址 D005 腾讯CDC 腾讯用户研究与体验设计部 暂无法通过爬虫获取信息, 点击进https://github.com/genkin-he/garss
14.新能源汽车综合故障诊断教学课件(493页)新能源汽车综合故障诊断教学课件.pptx,新能源汽车基本故障诊断策略《新能源汽车综合故障诊断》课堂导入ONTENTS010603050204目录学习目标知识储备课后作业技能训练课堂测评C01课堂导入leading-in of a classroom课堂导入学习目标知识储备技能训练课堂测评课后作业课堂导入新https://max.book118.com/html/2023/1017/6103212134005242.shtm
15.Designs9780787977580》(CurtisJ.Bonk)简介书评3. Why Blended Learning Hasn’t (Yet) Fulfilled Its Promises:Answers to Those Questions That Keep You Up at Night (JenniferHofmann).4. On Designing Interaction Experiences for the Next Generation ofBlended Learning (Ellen D. Wagner).PART TWO: CORPORATE BLENDED LEARNING MODELS AND PERSPECTIVES.http://product.dangdang.com/23281548.html