OpenAI多智能体强化学习环境(multiagentparticleenvs)详解gingkg

multiagent-particle-envs是OpenAI开源的多智能体学习环境。

被捕食者:在捕食者的拦截下,利用森林及障碍物来尽可能的靠近食物。

食物:被捕食者的目标,靠近可获得奖励,奖励大小与靠近的距离有关。

树林:可以对进入自身内部的智能体提供掩护,敌方无法获取单位的位置坐标,除非两个智能体位于同一个树林

地标:不可通过的阻碍物。

被捕食者:2个,通过靠近食物来获取奖励,速度较快,数量较少。

捕食者:4个,需要有一定协同能力,通过阻碍被捕食者获取奖励,速度较慢,但数量较多。

原论文中6个智能体分别用MADDPG算法来训练。即训练成本会随着智能体的数量增加,由于交流功能的存在,训练成本和智能体数量并不为线性关系。

见文件:multiagent-particle-envs/multiagent/scenarios/simple_world_comm.py

捕食者的观测状态为1*34的向量,具体为自身的速度(x和y两个方向,2)+自身的位置(x和y两个方向,2)+所有地标与自己的相对位置(地标位置-自身位置,10)+其他智能体与自己的相对位置(其他智能体位置-自身位置,10)+被捕食者的速度(4)+自身是否在树林里(2)+交流信息(4),数据格式float32,Box(34,)。非领导者的交流信息直接继承领导者的。

array([0.,0.,-0.81360341,0.31675768,0.25026168,-0.12137332,1.26442749,-0.7671077,0.90388104,-1.00294841,0.70155893,-0.62365125,1.09197528,-0.92503425,1.31906775,0.53801265,1.30256252,-0.5290839,1.3105693,-0.16847554,1.34816312,-0.82404067,0.61383961,-1.30914401,0.,0.,0.,0.,-1.,-1.,0.,0.,0.,0.])被捕食者的观测状态为1*28的向量,具体为自身的速度(x和y两个方向,2)+自身的位置(x和y两个方向,2)+所有地标与自己的相对位置(地标位置-自身位置,10)+其他智能体与自己的相对位置(其他智能体位置-自身位置,10)+其他被捕食者的速度(2)+自身是否在树林里(2),数据格式float32,Box(28,)。array([0.,0.,-0.1997638,-0.99238633,-0.36357793,1.18777069,0.65058787,0.54203631,0.29004143,0.3061956,0.08771932,0.68549276,0.47813566,0.38410976,-0.61383961,1.30914401,0.70522814,1.84715666,0.68872291,0.78006011,0.69672969,1.14066847,0.,0.,-1.,-1.,0.,0.])

领导者:MultiDiscrete2,1*9维的向量。第一位无操作,2-5位给定智能体x,y正负方向上的加速度,6-9位为交流信息。

np.array([0,1,0,1,0,1,1,1,1],dtype=np.float32)非领导捕食者:Discrete(5),1*9维的向量。第一位无操作,2-5位给定智能体x,y正负方向上的加速度。

np.array([0,1,0,1,0],dtype=np.float32)

举个例子(无碰撞情况),方便理解,对于领导者初始状态为:

[0.0.0.286648310.451448-1.17817321-1.143711520.36545598-1.0833245-1.062849310.20773417-0.941551890.4072022-0.10401275-1.15910727-0.19673305-1.02704632-0.78517681-0.25047813-0.36542734-1.31392343-0.07968565-0.96594893-0.95037937-1.20233330.0.0.0.-1.-1.0.0.0.0.]即,速度为(0,0);位置为(0.28664831,0.451448)。

采取的动作为:

np.array([0,1,0,1,0,1,1,1,1],dtype=np.float32)环境默认的周期t=0.1。

#x方向的加速度a=1-0#乘以比例系数(暂不清楚有何物理意义)a=a*3#考虑速度阻尼,上一时刻的速度v=0v=v*(1-0.25)#计算下一时刻的速度,此处有一个系数mass,默认为1(暂不清楚有何物理意义)v=v+(a/mass)*t#判断速度是否大于限定最大速度,如果大于,按最大速度在x,y方向上做分解#计算位置p=p+v*t

THE END
1.伯克利开源工具库RLib现已支持大规模多智能体强化学习开源AI 前线导读:近日,UC 伯克利的研究团队 RISELab 在其 Github 的项目 Ray Rlib 0.6.0 中添加了面向多智能体强化学习(multi-agent Reinforcement Learning)的支持。本文由团队成员 Eric Liang 首发于 RISELab 团队主页,AI 前线翻译整理。本文主要是关于多智能体强化学习的简明教程,以及在 RLib 中的设计思路。 https://www.infoq.cn/article/DLEqWRPc-Pcek5EQ6But
2.探秘多智能体强化学习MADDPG算法原理及简单实现探秘多智能体强化学习-MADDPG算法原理及简单实现 明天就是端午节了,首先祝兄弟姐妹们端午节安康! 之前接触的强化学习算法都是单个智能体的强化学习算法,但是也有很多重要的应用场景牵涉到多个智能体之间的交互,比如说,多个机器人的控制,语言的交流,多玩家的游戏等等。本文,就带你简单了解一下Open-AI的MADDPG(Multi-https://cloud.tencent.com/developer/news/246458
3.多智能体强化学习(MARL)框架一种新型的多智能体强化学习(MARL)框架——基于分层共识的多智能体强化学习(HC-MARL),由北京航空航天大学的研究团队提出。以下是核心内容概要:多智能体协作系统的重要性:解决单智能体无法完成的复杂任务。应用领域包括工业自动化、自动驾驶、能源管理和多人在线游戏。现有挑战:集中训练与分散执行(CTDE)框架的https://baijiahao.baidu.com/s?id=1804553133774179903&wfr=spider&for=pc
4.多智能体强化学习多智能体强化学习的在于,每一个Agent的动作都会影响环境的下一个状态,从而影响所有Agent。 Rewards 有n个Agent,所以每一轮都有n个奖励。使用R i R^iRi表示第i个Agent的奖励 在合作关系中,每个Agent获得的奖励都相等。在竞争的关系下,一个agent获得的奖励是另一个agent受的损失。 https://blog.csdn.net/qq_38689352/article/details/119646555
5.清华大学汪玉中文主页多智能体强化学习算法 得益于人工智能技术的发展和算力的不断提升,单智能体的感知和推理能力得到了大幅度增强。一般来说,提升系统智能性有两条途径,(1)不断提升单体智能,(2)利用协同智能,也就是利用多智能体系统。多智能体系统可以通过共享信息、资源调度、配合行动等手段配合完成任务,达到比单体系统更高的效率,目http://web.ee.tsinghua.edu.cn/wangyu/zh_CN/yjfx/2129/content/1304.htm
6.qlearning多智能体强化学习多智能体概念qlearning多智能体强化学习 多智能体概念 最近在学习多智能体的强化学习,看了几篇高质量基础论文,发现还是很有必要将强化学习的体系简单过一遍,然后再有针对性地练习代码。 1.强化学习简介 1.1 强化学习概念 强化学习与监督学习、非监督学习都属于机器学习,是人工智能的范畴。值得一提的是深度学习也是机器学习的一种https://blog.51cto.com/u_16099283/11852182
7.多智能体强化学习方法综述【摘要】:在自动驾驶、团队配合游戏等现实场景的序列决策问题中,多智能体强化学习表现出了优秀的潜力。然而,多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此,概述了多智能体强化学习的概念与方法,并整理了当前研究的主要趋势和研究方向。研究趋势包括CTDE范式、具有循环神经单元的智能体https://www.cnki.com.cn/Article/CJFDTotal-XXDU202401003.htm
8.科学网—[转载]群视角下的多智能体强化学习方法综述多智能体系统是分布式人工智能领域的前沿研究概念,传统的多智能体强化学习方法主要聚焦群体行为涌现、多智能体合作与协调、智能体间交流与通信、对手建模与预测等主题,但依然面临环境部分可观、对手策略非平稳、决策空间维度高、信用分配难理解等难题,如何设计满足智能体数量规模比较大、适应多类不同应用场景的多智能体强https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
9.多智能体强化学习入门本书之前介绍的算法都是单智能体强化学习算法,其基本假设是动态环境是稳态的(stationary),即状态转移概率和奖励函数不变,并依此来设计相应的算法。而如果环境中还有其他智能体做交互和学习,那么任务则上升为多智能体强化学习(multi-agent reinforcement learning,MARL),如图 20-1 所示。图https://hrl.boyuai.com/chapter/3/%E5%A4%9A%E6%99%BA%E8%83%BD%E4%BD%93%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%A5%E9%97%A8/
10.强化学习技术赋能智慧交通与电网让多智能体“见微知著”“这也意味着我们现在能够同时控制多个智能体,例如在交通信号灯、电网以及无人驾驶车辆等场景中的应用。这些系统都涉及大量智能体的协同运作。而这项工作的社会效应在于,它是首次由华人主导的多智能体强化学习应用,打破了此前该领域被西方机构垄断的局面。”论文通讯作者,北京大学人工智能研究院杨耀东研究员介绍道。http://www.xinhuanet.com/tech/20240904/1eeb042bdd5f4c6187fe0e2aa31196db/c.html
11.多智能体强化学习及其在游戏AI上的应用与展望多智能体强化学习及其在游戏AI上的应用与展望 近年来,人工智能技术在很多领域都取得了亮眼成就,并逐步从感知智能向决策智能迈进。强化学习是实现决策智能的重要路径,而现实世界中往往存在着多智能体的交互,也催生了多智能体强化学习的发展。这篇文章主要对多智能体强化学习进行整体阐述,并对其在游戏AI上的应用进行探讨https://www.gameres.com/890381.html
12.多智能体强化学习算法总结参考文章:多智能体强化学习(一) IQL、VDN、QMIX、QTRAN算法详解 - 知乎 (zhihu.com) "虚假奖励"(spurious reward signals)与“懒惰智能体”(lazy agent):当一个智能体 表现优秀的时候,另一个智能体 会“偷懒”,因为 的探索会导致整体奖励的下降。 https://www.jianshu.com/p/4467b7583206
13.多智能体机器学习本书主要介绍了多智能体机器人强化学习的相关内容。全书共6章,首先介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后,介绍了双人矩阵博弈问题、多人随机博弈学习问题,并通过3种博弈游戏详细介绍了纳https://book.douban.com/subject/27095590/
14.基于多智能体深度强化学习的体系任务分配方法为了应对在未来复杂的战场环境下,由于通信受限等原因导致的集中式决策模式难以实施的情况,提出了一个基于多智能体深度强化学习方法的分布式作战体系任务分配算法,该算法为各作战单元均设计一个独立的策略网络,并采用集中式训练、分布式执行的方法对智能体的策略网络进行训练,结果显示,经过学习训练后的各作战单元具备一定的https://www.elecfans.com/d/2085562.html
15.多智能体机器学习强化学习方法中文pdf扫描版[29MB]电子书下载《多智能体机器学习:强化学习方法》共6章,首先介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后,介绍了双人矩阵博弈问题、多人随机博弈学习问题,并通过3种博弈游戏详细介绍了纳什均衡、学习算法、https://www.jb51.net/books/693051.html
16.基于多智能体深度强化学习的无人机集群自主决策AET对人工操纵无人机来说,同时操控多架无人机完成多项任务且无人机之间形成有效配合是相当困难的,注意力分散或者操控失误都会造成较大的安全风险。无人机的操控还受到电磁干扰和远程控制距离的限制,因此,无人机灵活自主决策能力显得尤为重要。近年来,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)http://www.chinaaet.com/article/3000149669
17.深度强化学习实战:用OpenAIGym构建智能体第6章涵盖多种实现Q-Learning的方式,包括使用深度神经网络的动作-值函数近似、经验回放、目标网络和必要的相关实用工具,以及常用于训练和测试深度强化学习智能体的组件。学完本章,你能实现一个基于深度Q-Learning网络的智能体,做出最优化离散控制的决策,可以训练智能体玩一些Atari游戏,并观察它的性能。 第7章介绍如何https://www.epubit.com/bookDetails?id=UB83082546ee4de
18.告别偏科,能玩转多模态多任务多领域的强化智能体终于来了来自Hugging Face、法国国家信息与自动化研究所(INRIA)和波尔多大学的四位研究者提出了智能体中的「六边形战士」——Jack of All Trades (JAT)。JAT 是一个基于 Transformer 的多模态通用强化学习智能体框架。在此框架下,智能体能够通过同一套参数应对不同复杂度的多种任务,化身既会打游戏,又能控制机器人的全能高https://m.thepaper.cn/newsDetail_forward_27266388