★北方工业大学电气与控制工程学院张尊栋,刘雨珂,刘小明
摘要:交通拥堵已经成为全世界范围内普遍存在的现象和亟待解决的难题,智能交通信号控制技术是缓解交通拥堵的重要手段。传统基于模型的自适应交通信号控制系统灵活性较低,往往依赖于大量的假设和经验方程,难以满足当前复杂多变交通系统的控制要求。随着计算机技术的进步、数据处理技术的发展和人工智能算法的成熟,结合深度强化学习方法的交通信号控制逐渐成为最主要的研究热点。
1引言
城市交通控制系统用于避免、减缓交通拥堵,在交叉口控制和主干路控制方面取得了很好的效果。随着城市规模的扩大和车辆保有量的增加,科研人员和工程师发现已有的控制方法难以实现整体的控制效果,交通拥堵问题日益突出[1]。
随着人工智能技术的进步,交通系统正逐步朝着智能化方向发展。传统的自适应交通信号控制通过现有经验构建模型或简化的交通模型求解最优的信号控制策略,往往依赖于大量的假设和经验方程,难以满足当前复杂多变交通系统控制的要求。Mikam等人[2]首次将强化学习用于交通信号控制。但强化学习方法在面对状态复杂、连续化问题时存在“维度爆炸”,而难以进行自主决策。伴随着强化学习和深度学习技术的发展,有学者提出将两者结合在一起形成深度强化学习方法(DeepReinforcementLearning,DRL)[3]。Li等人[4]采用深度强化学习技术对单交叉口控制问题进行了研究,并作出了改进。由于强化学习及深度强化学习应用在普通简单路口的控制中往往能够取得较好效果,因此多交叉口交通信号控制越来越成为人们的研究热点。
本文将简述深度强化学习基础理论并根据动作选择方式对其分类,进而介绍深度强化学习方法在单交叉口、多交叉口交通信号控制领域的应用,最后讨论交通信号控制未来的研究方向和挑战。希望本篇综述能为研究深度强化学习在交通中的应用提供参考。
2深度强化学习
深度学习强大的特征提取能力,结合强化学习的自主决策能力形成深度强化学习,使强化学习不再受数据空间维度问题,得以应用于高维、复杂的控制系统。根据优化过程中动作选取方式的不同,深度强化学习可以分为基于值的深度强化学习方法和基于策略梯度的深度强化学习方法。
2.1基于值的深度强化学习方法
基于价值的深度强化学习方法通过准确估计状态-动作的价值函数,选取最大值所对应的动作,隐式获得确定性策略。采用深度神经网络对值函数或者动作值函数进行近似,将应用范围拓展到高维度问题和连续空间问题。Watkins等人[5]提出的Q学习算法通过对Q值函数的估计,在当前状态下执行动作后转换到下一状态,智能体获取环境奖励并更新Q值函数。在有限的状态动作空间下,Q学习算法可以收敛到最优Q值函数。Mnih等人[6]首次提出将深度神经网络与Q学习结合的DQN算法,利用卷积神经网络近似Q值,随后又提出利用目标网络和经验回放稳定DQN的学习过程[3]。
然而,DQN每一次更新时都会采取最大化目标网络,导致对动作价值函数过估计问题。Hasselt等人[7]采取双网络结构,当前网络选取最优动作,目标网络对所选动作进行评估,将动作选择与策略评价分离,降低发生过估计的可能性。Wang等人[8]提出对抗架构DQN算法,直接估算状态值函数和动作优势函数,保证当前状态下各动作的优势函数相对排序不变,缩小Q值的范围同时去除多余的自由度,提高算法的稳定性。Nair等人[9]提出了一个对于深度强化学习的大规模分布式架构,充分利用计算资源。此类算法只能处理有限的状态动作空间问题,难以应对复杂环境,学习过程中易出现过拟合且收敛性较差,因此其适用于离散动作空间下的深度强化学习过程。
2.2基于策略梯度的深度强化学习方法
策略梯度算法使策略参数化,将神经网络的权重参数作为价值函数的参数,能通过分析所处的状态,直接输出下一步要采取的各种动作的概率,然后根据概率采取行动,每种动作都有相应的概率被选中。最经典的策略梯度算法REINFORCE[10]使用蒙特卡洛方法计算状态值函数,近似替代策略梯度的价值函数。
由于蒙特卡洛策略梯度方法基于完整的经验更新值函数参数,导致模型的学习效率较低。在线学习的置信域策略优化算法TPRO[11]与近端策略优化算法[12]根据经验或自适应方法选择超参数,使得更新步长约束在一定范围内,确保持续获得更优策略,防止策略崩溃问题。
TPRO与PPO算法在每次策略更新时采样大量样本进行训练,需要大量算力确保算法收敛,导致其难以应用于大规模场景下的强化学习过程。Lillicrap[13]提出深度确定性策略梯度算法DDPG,该方法使用非线性函数近似表示值函数,使得函数能够稳定收敛,解决了Q函数更新的发散问题。同时使用经验回放机制批处理学习,从而使训练过程更加稳定。Fujimoto等人[14]为解决DDPG对于Q值的高估,及超参数和其他参数调整方面存在脆弱性的问题,提出TD3算法,可缓解动作价值高估的影响,并消除方差累计问题,使得训练过程波动较小,同时避免了DDPG中可能发生的特性故障。
与基于价值的深度强化学习方法相比,基于策略的强化学习方法具有更好的收敛性,特别在利用神经网络逼近函数时[15],它可以很容易地处理大量甚至连续的状态动作空间。但其缺点在于算法方差较高、收敛速度较慢及学习步长难以确定。
2.3基于深度强化学习的交通信号控制模型设置
在基于深度强化学习的交通信号控制中,路网中的交通信号通常由一个智能体独立控制或多个智能体控制,智能体表示交通信号灯。智能体执行某动作后,环境会转换至一个新的状态,并根据状态的变化给出上一动作的奖励值,其控制框架如图1所示。深度强化学习的交通信号控制模型的关键问题是如何设置智能体,即奖励、状态和行动的定义[16]。
图1深度强化学习控制框架
2.3.1状态
2.3.2动作
2.3.3奖励
3基于深度强化学习的单交叉口信号控制优化
4基于深度强化学习的多交叉口信号控制优化
4.1基于博弈论的多智能体深度强化学习方法
博弈论是研究理性决策者之间策略交互的数学模型,是解决城市交通信号协调控制问题的合适方法,使控制策略能较好地适应交通需求水平的动态变化[44,45]。近年来,结合博弈论的交通信号协调控制方法受到越来越多研究学者的重视。博弈论中的Nash均衡为路网中多个交叉口信号灯间的协调提供了理论框架,但仍面临着由于维度爆炸而难以向更多交叉口扩展的难题,且各交叉口存在重要程度的差异性,使得在交通优化过程中,次要交叉口会为重要交叉口牺牲通行能力,导致目标冲突问题[46]。
近年来,许多研究者通过将MARL与博弈论相结合,使用博弈中的均衡解代替最优解,以求得相对有效且合理的交通信号控制策略[54]。Abdoos等人[54]提出了一种双模式智能体结构,通过独立和协作的过程有效地控制交通拥塞问题。在协作模式中,利用博弈论来确定智能体之间的协作机制,动态控制多个交叉口的交通信号。Guo等人[55]将博弈论与强化学习(RL)中的Q学习算法进行结合,提出了面向单交叉口信号灯的半合作NashQ学习算法和半合作StackelbergQ学习算法。Pan等人[56]融入博弈论的混合策略Nash均衡概念,改进IA-MARL算法的决策过程,提出了考虑博弈的多智能体强化学习(G-MARL)框架。Zhang等人[57]提出了基于Nash均衡的多智能体深度强化学习算法。Camponogara[58]利用随机博弈论和RL研究了两个交叉口信号灯之间的协调问题。Abolghasem[59]采用模糊Q学习和博弈论的方法,智能体根据以往经验和相邻智能体的策略进行决策。
4.2平均场多智能体深度强化学习方法
通过平均场相互作用来描述大量具有对称相互作用且不可区分参与者的行为。每个智能体都被表示为网格中的一个节点,该节点只受其邻居的平均效应的影响。多智能体相互作用被有效地转换为两个智能体间相互作用。根据代理所试图实现的目标,可以分成平均场博弈(MFG)和平均场控制(MFC)两种类型的平均场问题。
对于MFC,分析了大种群中合作博弈的最优解,Gu等人[60]提出了MFC与Q函数结合的IQ函数,通过将状态-空间替换为概率分布空间来提升强化学习。Carmona等人[61]基于MFC突出一个通用的强化学习框架,在此基础上实现了基于状态-动作值函数的通用无模型算法。
深度神经网络具有强大的泛化能力,已被广泛应用于直接逼近策略或值函数。利用神经网络作为函数逼近器,可以解决MARL中的非平稳问题。Yang等人[70]提出了MF-Q及MF-AC算法,分析得到了Nash均衡的一致性,并在高斯挤压、伊辛模型和战斗游戏的实验中证明了算法学习效果。该方法降低相互作用复杂性的同时,仍保留了任何一对智能体之间的全局相互作用,解决了维度爆炸问题,降低了环境的非平稳性。
4.3联网自动车辆环境下的多智能体深度强化学习方法
传感、通信、网络和计算技术的快速发展引发了新兴的概念,如联网自动车辆(CAV)。在CAV的范式中,未来的车辆可以通过大量的车载设备有效地监测其内部健康状况,以提高运输安全。此外,车辆将变得更加智能,能够完全自主驾驶,极大地改善了用户体验。DRL智能体通过与环交互,通过反复错来学习正确的操作。这样,基于深度强化学习的模型就不会受到人类行为的限制,从而产生一些超人的行为。
此外,CAV还可以通过与环境的交互来体验数字交通条件。当采取不当行动时,它们可能会产生或遇到一些角落的场景,如碰撞和近碰撞。通过这种方式,它们将受到惩罚,从而学会避免危险或容易崩溃的行为。因此,学习到的基于深度强化学习的模型通常承诺具有鲁棒性。深度强化学习已成功应用于许多CAV控制任务,如车道保持、车道改变、避障、合并和交叉。新兴的CAV技术为城市信号交叉口管理提供了新的机会。通过无线通信和先进的传感能力,CAV可以检测周围的交通环境,与基础设施实时共享车辆信息,可以精确控制CAV的各个轨迹。
另一个研究方向是根据实时信号相位和定时(SPaT)和交通条件完全控制CAV轨迹[78,79]。我们开发了一些基于CAV的模型/算法来控制个体车辆轨迹[80-82],其中CAV可以根据给定的SPaT调整其轨迹。一些研究采用传统方法获取最优轨迹,如模型预测控制[83,84]、DP[85,86]和近似模型[87,88]。然而,这些模型/算法中的大多数都是计算密集型的。因此,提出了具有给定边界的分析方法,以减少计算负担[89,90]。Zhoou等人[91]提出了一种简约的启发式算法,该算法通过控制详细的加速度剖面,可以有效地平滑接近信号交叉口的车辆流的所有轨迹。该算法用几段解析二次曲线来表示每一个无限维的车辆轨迹。因此,它有效地构建了大量的车辆轨迹,受物理限制、车辆跟踪安全和交通信号定时。
5总结与展望
本文针对深度强化学习在交通信号控制中的应用进行了总结,许多研究到目前为止获得了卓越的研究成果,但仍存在许多重大挑战和亟待解决的技术问题。下面对未来的研究方向进行探讨。
5.1协调
在多交叉口信号控制中需要协调智能体使其共识达成一致,特别是,在合作环境中实现共同目标需要连贯的动作选择,以便联合动作实现共同优化目标。在决策过程中找到共识可以通过智能体之间的信息交换实现,也可以通过构建模型实现。前者需要智能体通信机制,以便智能体可在各自目标的基础上进行协调。对于后者,智能体需要能够观察其他智能体的动作并推理其策略以构建模型。在预测模型基础上,智能体可以学习其他智能体的动作模式,并将动作应用到共识中从而实现协调。
5.2可计算性
对大量智能体进行训练的难度非常大,环境中的每个智能体都会给学习过程增加额外的复杂性,从而使计算量因智能体数量呈指数级增长。除了复杂性问题之外,众多可变因素也使得智能体需要对其他智能体的行为具有鲁棒性。但是,智能体可以利用智能体之间共享的分布式知识来加速学习过程。
5.3安全性
未来研究工作还集中在安全性方面,安全性是非常重要的属性,因为自主智能体要确保交通系统性能,同时还要在学习和执行动作期间确保安全。单智能体学习算法研究中涉及了安全概念,但其对多智能体学习的适用性有限,仍处于起步阶段。
综上所述,基于深度强化学习的多交叉口信号控制优化是研究领域现阶段研究的难点与重点之一,每个智能体都有一个需要优化的本地目标,然而,只有当智能体允许其他智能体能成功完成其任务时,才能实现全局最优。另一个可能方向是深度多智能体强化学习算法和进化方法之间的融合。进化算法已被用于多智能体强化学习的环境中,由于进化需要许多实体进行适应,因此多智能体强化学习场景非常适合进化计算。
现阶段大多数研究都集中在同质环境中的学习,在这些环境中智能体具有共同的兴趣并优化共同的目标。当智能体具有共同利益时,诸如非平稳性、部分可观察性和协调性之类的问题可能会减少。然而,异质性意味着智能体可能有自己的兴趣和目标,个人经验和知识,或者不同的技能和能力。在真实应用场景中,智能体需要利用异构信息做出决策。
随着交叉口数量的增加,基于深度强化学习的交通信号控制优化领域最根本问题是维度灾难,“状态-动作”空间和智能体相互作用的组合随着智能体数量呈指数级增长,这使得完全遍历空间难以实现。且当智能体只能获得对环境的部分观察或当环境具有连续性质时,这种情况会加剧。尽管深度神经网络作为函数近似器可以应对连续空间,并且可以很好地降低计算量,但仍然存在一些问题,比如如何充分探索大型和复杂路网,以及如何解决区域交通信号优化问题等。
作者简介:
张尊栋(1979-),男,讲师,博士,现任教于北方工业大学,研究方向为智能交通。
刘雨珂(1999-),女,硕士,现就读于北方工业大学,研究方向为智能交通。
刘小明(1974-),男,教授,博士,现任教于北方工业大学,研究方向为交通流理论、智能交通控制。
参考文献:
[1]WEIH,ZHENGG,GAYAHV,etal.Recentadvancesinreinforcementlearningfortrafffficsignalcontrol:Asurveyofmodelsandevaluation[J].SIGKDDExplor.Newsl.,2021,22(2):12-18.
[2]MIKAMIS,KAKAZUY.Geneticreinforcementlearningforcooperativetrafffficsignalcontrol[C]//ProceedingsoftheFirstIEEEConferenceonEvolutionaryComputation.IEEEWorldCongressonComputationalIntelligence.[S.l.:s.n.],1994:223-228vol.1.
[3]MNIHV,KAVUKCUOGLUK,SILVERD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].Nature,2015,518:529-533.
[4]LIL,LVY,WANGFY.Trafffficsignaltimingviadeepreinforcementlearning[J].IEEE/CAAJournalofAutomaticaSinica,2016,3(3):247-254.
[5]WATKINSJ,DAYANP.Q-learning[J].MachineLearning,1992,8:279-292.
[6]MNIHV,KAVUKCUOGLUK,SILVERD,etal.Playingatariwithdeepreinforcementlearning[J].ComputerScience,2013.
[7]VANHASSELTH,GUEZA,SILVERD.Deepreinforcementlearningwithdoubleq-learning[Z].[S.l.:s.n.],2016.
[9]NAIRA,SRINIVASANP,BLACKWELLS,etal.Massivelyparallelmethodsfordeepreinforcementlearning[J].ComputerScience,2015.
[10]WILLIAMSRJ.Simplestatisticalgradient-followingalgorithmsforconnectionistreinforcementlearning[J].MachineLearning,1992,8(3-4):229-256.
[11]SCHULMANJ,LEVINES,ABBEELP,etal.Trustregionpolicyoptimization[C]//ProceedingsofMachineLearningResearch:volume37Proceedingsofthe32ndInternationalConferenceonMachineLearning.[S.l.]:PMLR,2015:1889-1897.
[12]SCHULMANJ,WOLSKIF,DHARIWALP,etal.Proximalpolicyoptimizationalgorithms[J].AdvancesinNeuralInformationProcessingSystems,2017.
[13]LILLICRAPT,HUNTJ,PRITZELA,etal.Continuouscontrolwithdeepreinforcementlearning[J].CoRR,2015:09.
[14]FUJIMOTOS,VANHOOFH,MEGERD.Addressingfunctionapproximationerrorinactorcriticmethods[J].ArXiv,2018,abs/1802.09477.
[15]LIUB,CAIQ,YANGZ,etal.Neuralproximal/trustregionpolicyoptimizationattainsgloballyoptimalpolicy[M].[S.l.]:CurranAssociatesInc.,2019.
[16]YAUKLA,QADIRJ,KHOOHL,etal.Asurveyonreinforcementlearningmodelsandalgorithmsfortrafffficsignalcontrol[J].ACMComput.Surv.,2017,50(3).
[17]ABDOOSM,MOZAYANIN,BAZZANALC.Hierarchicalcontroloftrafffficsignalsusingq-learningwithtilecoding[J].AppliedIntelligence,2013,40:201-213.
[18]XUM,WUJ,HUANGL,etal.Network-widetrafffficsignalcontrolbasedonthediscoveryofcriticalnodesanddeepreinforcementlearning[J].JournalofIntelligentTransportationSystems,2020,24(1):1-10.
[19]ZHANGR,ISHIKAWAA,WANGW,etal.Usingreinforcementlearningwithpartialvehicledetectionforintelligenttrafffficsignalcontrol[J/OL].IEEETransactionsonIntelligentTransportationSystems,2021,22(1):404-415.
[20]CHUT,WANGJ,CODECàL,etal.Multi-AgentDeepReinforcementLearningforLarge-ScaleTrafffficSignalControl[J/OL].IEEETransactionsonIntelligentTransportationSystems,2020,21(3):1086-1095.
[21]XIED,WANGZ,CHENC,etal.Iedqn:Informationexchangedqnwithacentralizedcoordinatorfortrafffficsignalcontrol[C/OL]//2020InternationalJointConferenceonNeuralNetworks(IJCNN).2020:1-8.
[22]LIANGX,DUX,WANGG,etal.Adeepreinforcementlearningnetworkfortrafffficlightcyclecontrol[J/OL].IEEETransactionsonVehicularTechnology,2019,68(2):1243-1253.
[23]GONGY,ABDEL-ATYM,CAIQ,etal.Decentralizednetworkleveladaptivesignalcontrolbymulti-agentdeepreinforcementlearning[J/OL].TransportationResearchInterdisciplinaryPerspectives,1:100020.
[25]MAZ,CUIT,DENGW,etal.Adaptiveoptimizationoftrafffficsignaltimingviadeepreinforcementlearning[J/OL].JournalofAdvancedTransportation,2021,2021:1-14.
[26]ZHUY,CAIM,SCHWARZC,etal.Intelligenttrafffficlightviapolicy-baseddeepreinforcementlearning[J].InternationalJournalofIntelligentTransportationSystemsResearch,2021,20:734-744.
[27]SUNY,LAIJ,CAOL,etal.AFriend-or-Foeframeworkformulti-agentreinforcementlearningpolicygenerationinmixingcooperative–competitivescenarios[J].TransactionsoftheInstituteofMeasurementandControl,2022,44:2378-2395.
[28]LID,WUJ,XUM,etal.Adaptivetrafffficsignalcontrolmodelonintersectionsbasedondeepreinforcementlearning[J].JournalofAdvancedTransportation,2020,2020:1-14.
[29]SHABESTARYSMA,ABDULHAIB.Adaptivetrafffficsignalcontrolwithdeepreinforcementlearningandhighdimensionalsensoryinputs:Casestudyandcomprehensivesensitivityanalyses[J].IEEETransactionsonIntelligentTransportationSystems,2022,23:20021-20035.
[30]GUILLEN-PEREZA,CANOMD.Intelligentiotsystemsfortrafffficmanagement:Apracticalapplication[J].IETIntelligentTransportSystems,2021.
[31]WUT,ZHOUP,LIUK,etal.Multi-agentdeepreinforcementlearningforurbantrafffficlightcontrolinvehicularnetworks[J].IEEETransactionsonVehicularTechnology,2020,69:8243-8256.
[32]BOUKERCHEAFM,ZHONGD,SUNP.Anovelreinforcementlearning-basedcooperativetrafffficsignalsystemthroughmaxpressurecontrol[J].IEEETransactionsonVehicularTechnology,2021,71:1187-1198.
[33]SAKIBSMN,TAZRINT,FOUDAMM,etal.Anefffficientandlightweightpredictivechannelassignmentschemeformultibandb5g-enabledmassiveiot:Adeeplearningapproach[J].IEEEInternetofThingsJournal,2021,8:5285-5297.
[34]ARELI,LIUC,URBANIKT,etal.Reinforcementlearning-basedmulti-agentsystemfornetworktrafffficsignalcontrol[J].IetIntelligentTransportSystems,2010,4:128-135.
[35]GENDERSW,RAZAVISN.Usingadeepreinforcementlearningagentfortrafffficsignalcontrol[J].ArXiv,2016,abs/1611.01142.
[36]GENDERSW,RAZAVIS.Evaluatingreinforcementlearningstaterepresentationsforadaptivetrafffficsignalcontrol[J].ProcediaComputerScience,2018,130:26-33.
[37]GARGD,CHLIM,VOGIATZISG.Deepreinforcementlearningforautonomoustrafffficlightcontrol[C/OL]//20183rdIEEEInternationalConferenceonIntelligentTransportationEngineering(ICITE).2018:214-218.
[38]NISHIT,OTAKIK,HAYAKAWAK,etal.Trafffficsignalcontrolbasedonreinforcementlearningwithgraphconvolutionalneuralnets[C/OL]//201821stInternationalConferenceonIntelligentTransportationSystems(ITSC).2018:877-883.
[39]GAOJ,SHENY,LIUJ,etal.Adaptivetrafffficsignalcontrol:Deepreinforcementlearningalgorithmwithexperiencereplayandtargetnetwork[J].ArXiv,2017,abs/1705.02755.
[40]CHOECJ,BAEKS,WOONB,etal.Deepqlearningwithlstmfortrafffficlightcontrol[C/OL]//201824thAsia-PacificConferenceonCommunications(APCC).2018:331-336.
[41]WANCH,HWANGMC.Value-baseddeepreinforcementlearningforadaptiveisolatedintersectionsignalcontrol[J/OL].IETIntelligentTransportSystems,2018,12:1005-1010.
[42]XUN,ZHENGG,XUK,etal.Targetedknowledgetransferforlearningtrafffficsignalplans[C]//Pacific-AsiaConferenceonKnowledgeDiscoveryandDataMining.[S.l.:s.n.],2019.
[43]JANGI,KIMD,LEED,etal.Anagent-basedsimulationmodelingwithdeepreinforcementlearningforsmarttrafffficsignalcontrol[C/OL]//2018InternationalConferenceonInformationandCommunicationTechnologyConvergence(ICTC).2018:1028-1030.
[44]NamBuiKH,JUNGJJ.Cooperativegame-theoreticapproachtotrafffficflowoptimizationformultipleintersections[J].ComputersandElectricalEngineering,2018,71:1012-1024.
[45]ARAGON-GóMEZR,CLEMPNERJB.Traffffic-signalcontrolreinforcementlearningapproachforcontinuous-timemarkovgames[J].EngineeringApplicationsofArtificialIntelligence,2020,89:103415.
[46]RUIT,CHAIL,SHANGGUANW,etal.Multimodetravelrecommendationmethodforpassengersathubairportunderthe
constraintofpublictransporttimetable[C]//2021ChinaAutomationCongress(CAC).[S.l.:s.n.],2021:6106-6112.
[47]KYAMAKYAK,CHEDJOUJC,AL-MACHOTF,etal.Intelligenttransportationrelatedcomplexsystemsandsensors[J].Sensors,2021,21(6).
[48]CLEMPNERJB,POZNYAKAS.Modelingthemulti-trafffficsignal-controlsynchronization:Amarkovchainsgametheoryapproach[J].EngineeringApplicationsofArtificialIntelligence,2015,43:147-156.
[49]ZHAOY,LIANGY,HUJ,etal.Trafffficsignalcontrolforisolatedintersectionbasedoncoordinationgameandparetoefffficiency[C]//2019IEEEIntelligentTransportationSystemsConference(ITSC).[S.l.:s.n.],2019:3508-3513.
[50]ZHUY,HEZ,LIG.Abi-hierarchicalgame-theoreticapproachfornetwork-widetrafffficsignalcontrolusingtrip-baseddata[J/OL].IEEETransactionsonIntelligentTransportationSystems,2022,23(9):15408-15419.
[51]CHENC,WEIH,XUN,etal.Towardathousandlights:Decentralizeddeepreinforcementlearningforlarge-scaletrafffficsignalcontrol[C]//AAAI2020-34thAAAIConferenceonArtificialIntelligence:AAAI2020-34thAAAIConferenceonArtificialIntelligence.
[S.l.]:AAAIpress,2020:3414-3421.
[52]BUONIUL,BABUKAR,DESCHUTTERB.Multi-AgentReinforcementLearning:AnOverview[M].Berlin,Heidelberg:SpringerBerlinHeidelberg,2010:183-221.
[53]GRONAUERS,DIEPOLDK.Multi-agentdeepreinforcementlearning:asurvey[J].ArtificialIntelligenceReview,2021,55:895-943.
[54]ABDOOSM.ACooperativeMultiagentsystemfortrafffficsignalcontrolusinggametheoryandreinforcementlearning[J/OL].IEEEIntelligentTransportationSystemsMagazine,2021,13(4):6-16.
[55]GUOJ,HARMATII.Evaluatingsemi-cooperativenash/stackelbergq-learningfortrafffficroutesplaninasingleintersection[J].ControlEngineeringPractice,2020,102:104525.
[56]PANZ,QUZ,CHENY,etal.Adistributedassignmentmethodfordynamictrafffficassignmentusingheterogeneous-adviserbasedmulti-agentreinforcementlearning[J/OL].IEEEAccess,2020,8:154237-154255.
[57]ZHANGZ,QIANJ,FANGC,etal.Coordinatedcontrolofdistributedtrafffficsignalbasedonmultiagentcooperativegame[J/OL].Wirelesscommunicationsandmobilecomputing,2021,2021:1-13.
[58]CAMPONOGARAE,KRAUSW.Distributedlearningagentsinurbantrafffficcontrol[C]//PIRESFM,ABREUS.ProgressinArtifi-cialIntelligence.Berlin,Heidelberg:SpringerBerlinHeidelberg,2003:324-335.
[59]DAEICHIANA,HAGHANIA.Fuzzyq-learning-basedmulti-agentsystemforintelligenttrafffficcontrolbyagametheoryapproach[J].Arabianjournalforscienceandengineering,2018,43:3241-3247.
[60]GUH,GUOX,WEIX,etal.Dynamicprogrammingprinciplesformeanfieldcontrolswithlearning[J].arXiv,2019.
[61]CARMONAR,LAURIèREM,TANZ.Model-freemean-fieldreinforcementlearning:Mean-fieldmdpandmean-fieldq-learning[J].arXiv,2019.
[62]LASRYJM,LIONSPL.Meanfieldgames[J].Japanesejournalofmathematics,2007,2(1):229-260.
[63]HUANGM,MALHAMER,CAINESP.Largepopulationstochasticdynamicgames:Closed-loopmckean-vlasovsystemsandthenashcertaintyequivalenceprinciple[J].Commun.Inf.Syst.,2006,6.
[64]YANGJ,YEX,TRIVEDIR,etal.Deepmeanfieldgamesforlearningoptimalbehaviorpolicyoflargepopulations[C]//Internationalconferenceonlearningrepresentations.[S.l.:s.n.],2018.
[65]GUOX,HUA,XUR,etal.Learningmean-fieldgames[J].InAdvancesinNeuralInformationProcessingSystems,2019:4966-4976.
[66]ANAHTARCLB,KARIKSIZC,SALDIN.Q-learninginregularizedmean-fieldgames[J].arXiv,2020.
[67]FUZ,YANGZ,CHENY,etal.Actorcriticprovablyfindsnashequilibriaoflinear-quadraticmean-fieldgames[J].CoRR,2019,abs/1910.07498.
[68]BLUMELE.Thestatisticalmechanicsofstrategicinteraction[J].GamesandEconomicBehavior,1993,5(3):387-424.
[69]STANLEYH.Phasetransitionsandcriticalphenomena[M].[S.l.]:OxfordUniversityPress,1971.
[70]YANGY,LUOR,LIM,etal.MeanFieldMulti-AgentReinforcementLearning[C]//ProceedingsofMachineLearningResearch:vol.80Proceedingsofthe35thInternationalConferenceonMachineLearning.2018:5571-5580.
[71]HUS,LEUNGCW,LEUNGHF.Modellingthedynamicsofmultiagentq-learninginrepeatedsymmetricgames:AMeanFieldTheoreticApproach[M].CurranAssociatesInc.,2019.
[73]YANGK,GULERS,MENENDEZM.Isolatedintersectioncontrolforvariouslevelsofvehicletechnology:Conventional,connected,andautomatedvehicles[J/OL].TransportationResearchPartC:EmergingTechnologies,2016,72:109-129.
[74]LEEJ,PARKBB,YUNI.Cumulativetravel-timeresponsivereal-timeintersectioncontrolalgorithmintheconnectedvehicleenvironment[J].JournalofTransportationEngineering-asce,2013,139:1020-1029.
[75]GULERSI,MENéNDEZM,MEIERL.Usingconnectedvehicletechnologytoimprovetheefffficiencyofintersections[J].TransportationResearchPartC:emergingTechnologies,2014,46:121-131.
[76]FENGY,HEADKL,KHOSHMAGHAMS,etal.Areal-timeadaptivesignalcontrolinaconnectedvehicleenvironment[J/OL].TransportationResearchPartC:EmergingTechnologies,2015,55:460-473.
[77]LIW,BANX.Connectedvehiclesbasedtrafffficsignaltimingoptimization[J/OL].IEEETransactionsonIntelligentTransportationSystems,2019,20(12):4354-4366.
[78]XUB,BANXJ,BIANY,etal.Cooperativemethodoftrafffficsignaloptimizationandspeedcontrolofconnectedvehiclesatisolatedintersections[J/OL].IEEETransactionsonIntelligentTransportationSystems,2019,20(4):1390-1403.
[79]GUOQ,LIL,(Jeff)BanX.Urbantrafffficsignalcontrolwithconnectedandautomatedvehicles:Asurvey[J/OL].TransportationResearchPartC:EmergingTechnologies,2019,101:313-334.
[80]AHNK,RAKHAHA,PARKS.Ecodriveapplication:Algorithmicdevelopmentandpreliminarytesting[J/OL].TransportationResearchRecord,2013,2341(1):1-11.
[81]WANGM,DAAMENW,HOOGENDOORNSP,etal.Rollinghorizoncontrolframeworkfordriverassistancesystems.parti:Mathematicalformulationandnon-cooperativesystems[J/OL].TransportationResearchPartC:EmergingTechnologies,2014,40:271-289.
[82]WANGM,DAAMENW,HOOGENDOORNSP,etal.Rollinghorizoncontrolframeworkfordriverassistancesystems.partii:Cooperativesensingandcooperativecontrol[J/OL].TransportationResearchPartC:EmergingTechnologies,2014,40:290-311.
[83]ASADIB,VAHIDIA.Predictivecruisecontrol:Utilizingupcomingtrafffficsignalinformationforimprovingfueleconomyandreducingtriptime[J/OL].IEEETransactionsonControlSystemsTechnology,2011,19(3):707-714.
[84]KAMALMAS,MUKAIM,MURATAJ,etal.Modelpredictivecontrolofvehiclesonurbanroadsforimprovedfueleconomy[J/OL].IEEETransactionsonControlSystemsTechnology,2013,21(3):831-841.
[85]MAHLERG,VAHIDIA.Anoptimalvelocity-planningschemeforvehicleenergyefffficiencythroughprobabilisticpredictionoftraffffic-signaltiming[J/OL].IEEETransactionsonIntelligentTransportationSys-tems,2014,15(6):2516-2523.
[86]OZATAYE,ONORIS,WOLLAEGERJ,etal.Cloud-basedvelocityprofileoptimizationforeverydaydriving:Adynamicprogramming-basedsolution[J/OL].IEEETransactionsonIntelligentTransportationSystems,2014,15(6):2491-2505.
[87]HEX,LIUHX,LIUX.Optimalvehiclespeedtrajectoryonasignalizedarterialwithconsiderationofqueue[J/OL].TransportationResearchPartC:EmergingTechnologies,2015,61:106-120.
[88]WUX,HEX,YUG,etal.Energy-optimalspeedcontrolforelectricvehiclesonsignalizedarterials[J/OL].IEEETransactionsonIntelligentTransportationSystems,2015,16(5):2786-2796.
[89]OZATAYE,OZGUNERU,ONORIS,etal.Dynamicsystemsandcontrolconference:Volume1:Adaptivecontrol;advancedvehiclepropulsionsystems;aerospacesystems;autonomoussystems;batterymodeling;biochemicalsystems;controlovernetworks;controlsystemsdesign;cooperativeanddecentralizedcontrol;dynamicsystemmodeling;dynamicalmodelinganddiagnosticsinbiomedicalsystems;dynamicsandcontrolinmedicineandbiology;estimationandfaultdetection;estimationandfaultdetectionforvehicleapplications;fluidpowersystems;humanassistivesystemsandwearablerobots;human-in-the-loopsystems;intelligenttransportationsystems;learningcontrolanalyticalsolutiontotheminimumfuelconsumptionoptimizationproblemwiththeexistenceofatrafffficlight[C].[S.l.:s.n.],2012:837-846.
[90]WANN,VAHIDIA,LUCKOWA.Optimalspeedadvisoryforcon-nectedvehiclesinarterialroadsandtheimpactonmixedtraffffic[J].TransportationResearchPartC:EmergingTechnologies,2016,69:548-563.
[91]ZHOUF,LIXP,MAJQ.ParsimoniousshootingheuristicfortrajectorydesignofconnectedautomatedtrafficpartI:Theoreticalanalysiswithgeneralizedtimegeography[J].TransportationResearchPartB:Methodological,2017,95:394-420.
[92]LIZ,ELEFTERIADOUL,RANKAS.Signalcontroloptimizationforautomatedvehiclesatisolatedsignalizedintersections[J].Transporta-tionResearchPartC:EmergingTechnologies,2014,49:1-18.
[93]POURMEHRABM,ELEFTERIADOUL,RANKAS,etal.Optimizingsignalizedintersectionsperformanceunderconventionalandautomatedvehiclestraffffic[J/OL].IEEETransactionsonIntelligentTransportationSystems,2020,21(7):2864-2873.
[94]FENGY,YUC,LIUHX.Spatiotemporalintersectioncontrolinaconnectedandautomatedvehicleenvironment[J/OL].TransportationResearchPartC:EmergingTechnologies,2018,89:364-383.
[95]YUC,FENGY,LIUHX,etal.Integratedoptimizationoftrafffficsignalsandvehicletrajectoriesatisolatedurbanintersections[J/OL].TransportationResearchPartB:Methodological,2018,112:89-112.
[96]SOLEIMANIAMIRIS,GHIASIA,LIX,etal.Ananalyticaloptimizationapproachtothejointtrajectoryandsignaloptimizationproblemforconnectedautomatedvehicles[J/OL].TransportationResearchPartC:EmergingTechnologies,2020,120:102759.