仓储中基于多智能体深度强化学习的多AGV路径规划
王梅芳,关月
贵州大学大数据与信息工程学院,贵州贵阳
收稿日期:2023年9月18日;录用日期:2023年11月7日;发布日期:2023年11月14日
摘要
随着工业自动化和物流行业的迅速发展,自动引导车辆(AutomatedGuidedVehicle,AGV)在物流仓库中的路径规划已成为确保运输效率和准确性的关键环节。尽管近年来已经有很多策略被提出,但多AGV系统在复杂的物流环境中仍然频繁地出现碰撞、路径冲突以及控制迟延等问题。鉴于此,本研究提出了一种基于多智能体深度强化学习(MultiAgentDeepReinforcementLearning,MADRL)的路径规划方法,以期解决多AGV之间的相互协调问题并提高其路径规划效率。为验证所提方法的有效性,我们采用了与遗传算法(GeneticAlgorithm,GA)的比较实验。结果显示,基于MADRL的策略在整体运输效率上实现了28%的提升,并在碰撞事件上有了明显的减少。
关键词
路径规划,MADRL,AGV,仓储
Multi-AGVPathPlanninginWarehousingBasedonMulti-AgentDeepReinforcementLearning
MeifangWang,YueGuan
CollegeofBigDataandInformationEngineering,GuizhouUniversity,GuiyangGuizhou
Received:Sep.18th,2023;accepted:Nov.7th,2023;published:Nov.14th,2023
ABSTRACT
Withtherapidadvancementofindustrialautomationandthelogisticsindustry,thepathplanningofAutomatedGuidedVehicles(AGV)inlogisticswarehouseshasbecomeacriticalcomponenttoensuretransportationefficiencyandaccuracy.Althoughnumerousstrategieshavebeenproposedinrecentyears,multi-AGVsystemsstillfrequentlyencountercollisions,pathconflicts,andcontrollatenciesincomplexlogisticsenvironments.Inlightofthis,ourstudyintroducesapathplanningapproachbasedonMulti-AgentDeepReinforcementLearning(MADRL)aimingtoaddressthecoordinationissuesamongmultipleAGVsandtoenhancetheirpathplanningefficiency.Tovalidatetheeffectivenessoftheproposedmethod,weconductedcomparativeexperimentswiththeGeneticAlgorithm(GA).ResultsshowthattheMADRL-basedstrategyachieveda28%improvementinoveralltransportationefficiencyandasignificantreductionincollisionincidents.
Keywords:PathPlanning,MADRL,AGV,Warehousing
ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY4.0).
1.引言
自动引导车辆(AutomatedGuidedVehicle,AGV)已为材料搬运和仓储物流领域带来革命性变革[1][2]。在高度自动化的现代仓库中,AGV能够根据系统的调度,在货架之间快速移动,精确地定位并取得或存放货物,大大提高了出入库效率。其精准的导航系统和可编程路径确保了货物被高效、安全和准确地搬运。在当今工业4.0智能汽车制造厂中,如特斯拉、理想、比亚迪等公司广泛采用AGV来搬运汽车部件,从而确保了生产线的连续性和流畅性[3][4]。此外,在智能化的物流产业中,AGV能够为工作人员精确地搬运货物,显著提高了仓储效率[5]。最初仅用于制造车间中搬运笨重材料的AGV,如今已经逐渐演变成现代物流仓储解决方案的核心组成部分。在当今错综复杂的物流领域,AGV在加速流程、减少人工劳动和优化存储空间方面都显示出其不可替代的价值[6][7][8]。
然而在物流仓储中,多AGV同时进行路径规划还存在诸多挑战[9][10][11]。首先,AGVs之间可能会发生路径交叉和碰撞,尤其是在空间有限且结构复杂的仓库内,当AGV出现碰撞或锁死将会严重影响货物搬运效率[12]。其次,多个AGV的实时协同和调度,以满足高效率和低延迟的要求,也是一个难以解决的问题。传统的基于遗传算法(GeneticAlgorithm,GA)算法的路径规划方法很难应对这些动态和复杂的挑战[12][13][14]。而深度强化学习已经成为人工智能领域的一个重要技术,为智能体提供了通过与环境互动来学习最优策略的途径[15]。但是利用DRL进行小车路径规划任然存在状态空间和动作空间的维度灾难[16]。因此,面对多AGV情景,我们基于多智能体深度强化学习(MultiAgentDeepReinforcementLearning,MADRL)来对AGV的状态、动作、奖励进行建模。MADRL可以有效地整合多个AGV的集体潜力,使它们在一个共享的环境中进行有效的协同、规避碰撞和实现快速路径规划。
本文深入探讨了在物流仓储背景下利用MADRL进行多AGV路径规划的复杂性。鉴于物流行业长期面临的碰撞、路径冲突和控制迟延等挑战,我们的研究引入了一种新颖的基于MADRL的AGV路径规划策略。与经常采用预定义规则或静态算法的传统方法不同[17],我们的方法能够动态适应实时变化,确保最佳的AGV协调。此外,在我们的研究中,为了验证所提出的MADRL方法的有效性,我们与传统的GA进行了比较。实验结果显示,基于MADRL的路径规划策略在运输效率上实现了33%的显著提升,并且能够显著减少AGV之间的碰撞事件。
2.模型
2.1.仓储环境
·AGV:它们以一定的速度行驶并搬运包裹。
·自动分拣机:它依据包裹的收获地址发出运输指令,通知AGV将包裹运送到指定的货物缓存区。
·货物缓存区:在图中由绿色栅格代表,基于包裹的收货地址,在地图上均匀地划分出多个投递区域。每个投递区域都配备一个竖直向上容量有限的存储空间。当该空间内的包裹数目满时,这些包裹将被从仓库中转移出,以便进行后续的装车和发货。
·障碍:由一些固定物,如楼梯、门、工人活动区等构成,AGV不能到达此区域。
·充电站:它为蓝色栅格,用于提供给AGV进行充电,AGV工作时不能经过占用。当AGV点亮到达预警值时,将自动寻找最近空充电站进行充电。
Figure1.Multi-AGVhandlingscenariointhewarehouse
2.2.问题描述与建模
当自动分拣机分发出一个新的包裹,将基于包裹与周围的空AGV的曼哈顿距离进行任务派发,AGVi与包裹j的曼哈顿距离给出为:
2.3.数学公式化
公式(5)表示最小化包裹搬运总时长;公式(6)约束一个AGV只能搬运一个包裹,且一个包裹只能由一个AGV搬运;公式(7)约束包裹的搬运距离必须为正数;公式(8)和(9)约束AGVs的行驶范围,其不能超出仓库区域;公式(10)约束货物缓冲区的容量界限,单个缓冲区最多容纳N个包裹。
3.算法
在本章中,我们基于先前构建的数学模型,深入探讨多AGV路径规划的复杂性和连续性特征。为此,我们将其路径规划过程建模为分布式部分可观测马尔可夫决策过程(DecentralizedPartiallyObservableMarkovDecisionProcess,Dec-POMDP)[18],并借助MADRL算法进行有效求解。
3.1.强化学习环境建模
在AGV研究领域中,DRL为我们提供了一种新颖的方法来解决路径规划、任务分配和决策问题。回顾1954年,当Minsky首次描述强化学习的概念时,他提到的是智能体如何通过与环境的试错互动来优化报酬[19]。这种理念在AGV系统中找到了其实际应用场景。在复杂的物流环境中,AGV作为智能体,需要确定最佳的路径以避免障碍物、减少碰撞风险,并有效地完成货物运输任务。起初,AGV并不知道哪条路径最优或如何避免碰撞。这时,深度强化学习的方法允许AGV在其操作环境中不断尝试、学习并调整其策略。通过与环境的持续互动,AGV可以根据返回的奖励或惩罚来评估并调整其行动策略,从而找到最优的路径和决策策略。
Figure2.Corestructureofreinforcementlearning
·奖励函数R:定义了基于AGV的动作和其结果对系统整体效益的量化评价。它考虑了路径长度、碰撞风险、任务完成度等多个因素,旨在指导AGV作出能够最大化系统效益的决策。R具体如下表示:
3.2.MADRL算法
MADRL是一种深度增强学习方法,专门设计来处理多智能体环境中的学习任务。在MADRL中,每个智能体都使用深度神经网络来表示其策略,并与其他智能体同时学习和交互。由于多智能体环境的动态性和非静态性,MADRL需要考虑智能体之间的策略交互和可能的非平稳分布。因此,MADRL算法经常集成技术,如中央化学习与去中央化执行、多智能体信用分配等,以有效地促进多智能体之间的协作或竞争学习。
为了找出最优策略使AGV获得最大化累积奖励,需要通过最大化奖励目标函数来更新策略网络参数θ:
4.仿真实验
4.1.实验参数
在本论文的仿真实验部分,着重模拟一个基于多模态深度强化学习策略的多AGV仓库搬运场景。实验的计算任务部署在一个专业的计算环境中,该环境配备了AMD5600X作为中央处理器(CentralProcessingUnit,CPU)和RTX3080作为图形处理器(GraphicsProcessingUnit,GPU),确保了仿真的计算效率与实时性。神经网络模型的核心是一个六层全连接层,按层的节点数目分别为[64,128,128,256,128,64]。这种设计旨在捕捉仓库环境中的复杂特征并高效地为AGVs制定策略。每一层都采用了ReLU激活函数[21],以增强模型的非线性表示能力。场景方面,我们构建了一个面积为50m×50m的虚拟仓库,进一步栅格化为0.5m×0.5m的单元,得到一个细致的100×100网格地图。这种精细的栅格化可以为仿真提供足够的空间分辨率,确保AGV的移动策略与实际仓储操作紧密相符。
Table1.Experimentalsimulationparameters
4.2.结果分析
4.2.1.收敛性分析
4.2.2.性能分析
Figure3.Convergencestatusofaveragesystemrewardunderdifferentlearningrates
Figure4.Convergencestatusofaveragesystemrewardunderdifferentlearningrates
5.总结
在本研究中,针对物流仓库中多AGV的路径规划问题建立了多AGV搬运货物的数学模型,并提出了基于MADRL的解决方案。本研究中使用的MADRL策略基于特定的环境建模,模拟了真实的物流仓储条件。通过对智能体与环境的深度交互,可以有效地训练AGVs进行高效路径规划。经过与GA算法的实验比较,证明了MADRL在提高运输效率上具有显著优势。综合来看,MADRL为物流仓储中的多AGV协同路径规划提供了一个有效且实用的方法。在未来的研究中,我们期望进一步探索MADRL在更复杂的物流场景中的应用,特别是考虑到变化的仓库布局和动态的任务需求。