ADL120《深度强化学习》开始报名

本期CCF学科前沿讲习班《深度强化学习》,邀请到了本领域10位来自于著名高校与企业的重量级专家学者做主题报告。他们将对强化学习多个方面的最新进展进行深入浅出的讲解,对强化学习的基础算法、深度强化学习算法、多智能体强化学习、基于强化学习的博弈、强化学习训练系统、以及强化学习在机器人和共享出行中的应用进行系统性介绍,帮助学员理解强化学习任务的基本概念,主要思想,以及面临的挑战,掌握该领域包括单智能体、多智能体和博弈强化学习的一系列前沿技术,并通过实际案例了解强化学习的应用前景,开阔科研视野,增强实践能力。

学术主任:俞扬南京大学

主办单位:中国计算机学会

活动日程:

2021年10月15日(周五)

8:50-9:00

开班仪式

9:00-9:15

全体合影

9:15-10:45

专题讲座1:强化学习的特征表示与算法设计

徐昕国防科技大学

10:45-11:00

休息

11:00-12:30

专题讲座2:智能决策与多智能体强化学习

高阳南京大学

12:30-14:00

午餐

14:00-15:30

专题讲座3:从捉迷藏游戏谈起(TheHide-and-SeekGameandBeyond)

吴翼清华大学

15:30-15:45

15:45-17:15

专题讲座4:单智能体强化学习

章宗长南京大学

2021年10月16日(周六)

9:00-12:15(中间休息15分钟)

专题讲座5:基于模型的强化学习

张伟楠上海交通大学

12:15-13:30

13:30-16:45

(中间休息15分钟)

专题讲座6:多智能体深度强化学习

张崇洁清华大学

2021年10月17日(周日)

9:00-10:30

专题讲座7:智能体的博弈与强化学习

张海峰中科院自动化所

10:30-10:45

10:45-12:15

专题讲座8:机器人强化学习的理论、挑战和应用

吴锋中国科技大学

13:30-15:00

专题讲座9:大规模深度强化学习训练系统:从单智能体到多智能体

温颖上海交通大学

15:00-15:15

15:15-16:45

专题讲座10:强化学习在共享出行中的应用

Zhiwei(Tony)Qin滴滴AILabs

16:45-17:00

小结

特邀讲者:

报告题目:强化学习的特征表示与算法设计

报告摘要:报告分析了强化学习在求解大规模序贯优化决策问题时面临的理论和技术难点,阐述了强化学习在特征表示理论和方法方面的主要研究思路和进展,包括线性特征构造、流形特征学习、深度特征学习等,结合不同的特征表示和学习问题,介绍和讨论了强化学习算法设计的研究进展,包括TD学习预测、值迭代、策略迭代和Actor-Critic算法等。最后对有关应用和发展趋势进行了介绍和分析。

报告题目:智能决策与多智能体强化学习

报告摘要:序贯决策与协同决策是智能决策的关键问题,而多智能体强化学习是解决“序贯+协同决策”的主要技术。本报告从机器学习、博弈论两个维度介绍了多智能体强化学习技术的特点。同时,汇报课题组在博弈约简、均衡迁移、分布式博弈等方面的研究进展。最后,总结多智能体强化学习范式目前存在的挑战。

讲者简介:吴翼,清华大学交叉信息研究院助理教授,2019年于加州大学伯克利分校获得博士学位,曾任OpenAI多智能体团队研究员。2014年本科毕业于清华大学交叉信息研究院计算机科学实验班。研究方向为深度强化学习与多智能体强化学习,代表作包括OpenAIHide-and-SeekProject,MADDPG算法,ValueIterationNetwork等,曾获NIPS2016最佳论文奖。

报告题目:从捉迷藏游戏谈起(TheHide-and-SeekGameandBeyond)

报告摘要:通过开放的物理模拟器,和简单捉迷藏游戏规则,我们发现通过多智能体深度强化学习,可以让智能体通过自我对抗和博弈,逐渐学会6种,不同的人类可以理解的,套路和反套路。通过捉迷藏游戏的展示和分析,我们总结了多智能体深度强化学习的特点和潜在的缺陷,也提出了诸多的待解决的开放问题。对于其中的一些开放问题,我们也进行了进一步的研究,并尝试用新的学习算法和框架来尝试解决这些开放挑战。

报告题目:单智能体强化学习

报告题目:基于模型的强化学习

报告题目:多智能体深度强化学习

报告摘要:Duetothecomplexandcombinatorialnatureofreal-worldapplications,deepreinforcementlearningisshiftingfromsingle-agenttomulti-agentsettings.Thistutorialwillfocusoncooperativemulti-agentreinforcementlearning(MARL).Wewillfirstdescribeitsunderlyingmodelformulti-agentdecision-makingunderuncertainty,calledDecentralizedPartiallyObservableMarkovDecisionProcesses(Dec-POMDPs),anddiscusschallengesincooperativeMARL,includingscalability,creditassignment,uncertainty,diversity,andexploration.WewillthenintroduceapopularparadigmofcentralizedtrainingwithdecentralizedexecutionandpresentfactorizedMARLmethods,includinglinearandnon-linearvaluefactorization,toaddressthescalabilityandcreditassignmentofMARLchallenges.Finally,wediscusssomeextensionsoffactorizedMARLmethodstoaddressotherMARLchallenges.

讲者简介:张海峰,中国科学院自动化研究所副研究员。于北京大学计算机系获得本科、博士学位,曾在英国伦敦大学学院(UCL)从事博士后研究工作。致力于多智能体和强化学习的学术研究和平台研发工作,研究兴趣包括智能体策略评估、多智能体强化学习算法等,研究成果发表在ICML、IJCAI、AAAI、AAMAS、WSDM、CIKM、《软件学报》等国内外知名学术会议、期刊;负责研发的平台包括北京大学Botzone智能体博弈系统(www.botzone.org.cn)和中科院自动化所“及第”多智能体开源开放平台(www.jidiai.cn),并举办“IJCAI中国麻将智能体竞赛”、“RLChina智能体挑战赛”等智能体竞赛。

报告题目:智能体的博弈与强化学习

报告题目:机器人强化学习的理论、挑战和应用

报告题目:大规模深度强化学习训练系统:从单智能体到多智能体

讲者简介:

秦志伟(Tony)博士,业界决策智能专家,致力于网约车交易市场中核心策略优化的研究。他从美国哥伦比亚大学获得运筹学博士,曾在沃尔玛全球电子商务任职研究科学家,近几年主要聚焦在强化学习及其在运筹优化,智能交通,在线营销上的应用。他在机器学习,数据挖掘和运筹优化的顶级会议和期刊发表近30篇论文,并是多个会议和期刊(NeurIPS,ICML,KDD,AAAI,TR-C,TransportationScience等)的评审专家。他带领团队获得了INFORMS2019年DanielH.WagnerPrize(运筹学杰出应用奖),并入选NeurIPS2018BestDemoAwards。Tony拥有10多项美国专利,涵盖智慧交通,供应链管理,和推荐系统。

报告题目:强化学习在共享出行中的应用

报告摘要:

俞扬,博士,南京大学教授,国家万人计划青年拔尖人才。主要研究领域为机器学习、强化学习,专注于开放环境强化学习的理论、技术、与落地应用。获2020CCF-IEEE“青年科学家奖”,入选2018年IEEEIntelligentSystems杂志评选的“国际人工智能10大新星”,获2018亚太数据挖掘"青年成就奖”,受邀在IJCAI’18作关于强化学习的"青年亮点"报告。获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。

地点:北京中国科学院计算技术研究所一层报告厅(北京市海淀区中关村科学院南路6号)

THE END
1.人工智能三大算法机器学习深度学习与强化学习的融合与应用前景人工智能三大算法的概述 人工智能(AI)作为一个多学科交叉领域,其核心在于模拟人类智能行为。随着技术的发展,人们提出了许多不同类型的人工智能方法,其中机器学习、深度学习和强化学习是其中最为重要的三个子集,它们分别代表了从基础到高级别的人工智能技术。 机器学习https://www.xstkmqmgl.cn/zhi-neng/481943.html
2.多智能体强化学习知乎mob6454cc70863a的技术博客多智能体强化学习知乎,系统简介基于ROBO-MAS多智能体自主协同高频投影定位系统通过采用ROBO-MAS桌面型群体智能机器人,在小型实验场地内通过高频光电投影定位技术实现机器人位置感知和数据通讯,实现“开放式群体智能研究和多智能体自主协同”的研究目标。系统为群体智能研https://blog.51cto.com/u_16099271/12897860
3.深度强化学习离线强化学习(OfflineReinforcementLearnin应用场景:在线强化学习适用于那些需要实时决策和快速适应环境变化的任务,比如机器人控制、自动驾驶等。 离线强化学习更侧重于利用预先收集好的数据进行策略学习,而在线强化学习则更侧重于通过与环境的交互实时地学习和优化策略。https://blog.csdn.net/qq_40718185/article/details/139231769
4.机器学习——强化学习与深度强化学习腾讯云开发者社区近年来,强化学习(Reinforcement Learning, RL)在多个领域取得了巨大的进展。从早期简单的迷宫导航问题到今天 AlphaGo 击败围棋世界冠军,强化学习的潜力得到了充分展现。而随着深度学习的引入,深度强化学习(Deep Reinforcement Learning, DRL)更是将这一技术推向了前.https://cloud.tencent.com/developer/article/2455966
5.科学网—[转载]群视角下的多智能体强化学习方法综述多智能体深度强化学习方法结合了深度学习、强化学习与多智能体系统理论等技术,赋予智能体更强的感知、推理、决策和学习能力,并在许多应用场景中展现出强大的潜力。目前,国内外相关领域学者从不同视角对多智能体强化学习的相关研究进行了综述分析。Yang等人[1]借助博弈理论相关知识,研究了基于博弈(特别是元博弈)理论的https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
6.2020届计算机科学方向毕业设计(论文)阶段性汇报深度学习在视频分析中的应用 在本次汇报中,我将介绍毕设课题选定的视频分析具体任务:时序动作检测(Temporal Action Proposal)的相关内容,包括任务背景、最近研究成果、数据情况以及切入点等。我还将汇报过去一阶段的工作内容和下一阶段的工作计划。 范舟 基于强化学习的推荐与广告合并算法设计 https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
7.基于深度强化学习的水面无人艇路径跟踪方法6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。 7.为了解决上述技术问题,本发明采用了如下的技术方案: https://www.xjishu.com/zhuanli/54/202210772926.html/
8.ICLR上新强化学习扩散模型多模态语言模型,你想了解的前沿本周,全球最负盛名的人工智能盛会之一 ICLR 大会将在奥地利维也纳举办。所以,今天的“科研上新”将为大家带来多篇微软亚洲研究院在 ICLR 2024 上的精选论文解读,涉及领域涵盖深度强化学习、多模态语言模型、时间序列扩散模型、无监督学习等多个前沿主题。 https://www.msra.cn/zh-cn/news/features/new-arrival-in-research-11
9.语义分割和强化学习在自动驾驶中的应用基于“语义分割和强化学习在自动驾驶中的应用”的文献综述,评价各主流技术的性能、优点和缺陷 - 飞桨AI Studiohttps://aistudio.baidu.com/aistudio/projectdetail/5456947
10.深度学习技术在自动驾驶中的应用AET在过去的十年里,自动驾驶汽车技术取得了越来越快的进步,主要得益于深度学习和人工智能领域的进步。作者就自动驾驶中使用的深度学习技术的现状以及基于人工智能的自驱动结构、卷积和递归神经网络、深度强化学习范式进行了详细的阐述。并对这些方法在自动驾驶场景感知、路径规划、行为仲裁和运动控制算法进行综述,同时就目前自动http://www.chinaaet.com/article/3000110152
11.论文精读与思考:深度强化学习的组合优化研究进展论文基本信息 作者:李凯文、张涛、王锐等 作者单位:国防科技大学 期刊:自动化学报 时间:2021年11月组合优化问题 链接:基于深度强化学习的组合优化研究进展 (aas.nhttps://www.jianshu.com/p/3887528006d0
12.机器学习,能为5G通信技术带来哪些新挑战?2、机器学习技术介绍 随着人工智能技术的发展,为传统方法无法解决的难题提供了新的思路,作为人工智能技术的一个主要分支,机器学习通过从以前的数据中学习并提取特征来解决复杂的问题。 机器学习主要分为三个分支:监督学习、无监督学习和强化学习。图一说明了人工智能(Artificial Intelligence,AI)、机器学习(Machine Learninhttps://www.xakpw.com/single/31167
13.AlphaGo背后的公司,11年从亏损6个亿到盈利6千万!基于学习到的奖励和从不同任务中获得的大量经验数据集,使用批量强化学习离线学习机器人策略,这种方法可以训练agent执行具有挑战性的操作任务,如堆叠刚性物体。 堆叠的新基准 最近,DeepMind推出了RGB堆叠,作为基于视觉的机器人操作任务的新基准。 在这里,机器人必须学会如何抓住不同的物体,并使它们相互平衡。这不同于以前https://www.niaogebiji.com/article-81978-1.html
14.达摩院决策智能实验室杨超:SafeRL介绍及在电网调度中的应用我们可以把强化学习和数学建模两种方法进行结合,以让每一时刻都不违反约束,我们以知识模型作为 safety layer 来进行安全约束保障。通过与求解的深度结合,可以使 policy 更好地感知到约束集区域,配合可行性检验、warm-start 机制以及冗余约束识别,从而尽可能减少 safety layer 的调用频次及求解耗时。 https://www.thepaper.cn/newsDetail_forward_18423330