ADL120《深度强化学习》开始报名|离线强化学习和在线强化学习结合_在线学习

本期CCF学科前沿讲习班《深度强化学习》，邀请到了本领域10位来自于著名高校与企业的重量级专家学者做主题报告。他们将对强化学习多个方面的最新进展进行深入浅出的讲解，对强化学习的基础算法、深度强化学习算法、多智能体强化学习、基于强化学习的博弈、强化学习训练系统、以及强化学习在机器人和共享出行中的应用进行系统性介绍，帮助学员理解强化学习任务的基本概念，主要思想，以及面临的挑战，掌握该领域包括单智能体、多智能体和博弈强化学习的一系列前沿技术，并通过实际案例了解强化学习的应用前景，开阔科研视野，增强实践能力。

学术主任：俞扬南京大学

主办单位：中国计算机学会

活动日程：

2021年10月15日（周五）

8:50-9:00

开班仪式

9:00-9:15

全体合影

9:15-10:45

专题讲座1：强化学习的特征表示与算法设计

徐昕国防科技大学

10:45-11:00

休息

11:00-12:30

专题讲座2：智能决策与多智能体强化学习

高阳南京大学

12:30-14:00

午餐

14:00-15:30

专题讲座3：从捉迷藏游戏谈起(TheHide-and-SeekGameandBeyond)

吴翼清华大学

15:30-15:45

15:45-17:15

专题讲座4：单智能体强化学习

章宗长南京大学

2021年10月16日（周六）

9:00-12:15(中间休息15分钟)

专题讲座5：基于模型的强化学习

张伟楠上海交通大学

12:15-13:30

13:30-16:45

(中间休息15分钟)

专题讲座6：多智能体深度强化学习

张崇洁清华大学

2021年10月17日（周日）

9:00-10:30

专题讲座7：智能体的博弈与强化学习

张海峰中科院自动化所

10:30-10:45

10:45-12:15

专题讲座8：机器人强化学习的理论、挑战和应用

吴锋中国科技大学

13:30-15:00

专题讲座9：大规模深度强化学习训练系统：从单智能体到多智能体

温颖上海交通大学

15:00-15:15

15:15-16:45

专题讲座10：强化学习在共享出行中的应用

Zhiwei(Tony)Qin滴滴AILabs

16:45-17:00

小结

特邀讲者：

报告题目：强化学习的特征表示与算法设计

报告摘要：报告分析了强化学习在求解大规模序贯优化决策问题时面临的理论和技术难点，阐述了强化学习在特征表示理论和方法方面的主要研究思路和进展，包括线性特征构造、流形特征学习、深度特征学习等，结合不同的特征表示和学习问题，介绍和讨论了强化学习算法设计的研究进展，包括TD学习预测、值迭代、策略迭代和Actor-Critic算法等。最后对有关应用和发展趋势进行了介绍和分析。

报告题目：智能决策与多智能体强化学习

报告摘要：序贯决策与协同决策是智能决策的关键问题，而多智能体强化学习是解决“序贯+协同决策”的主要技术。本报告从机器学习、博弈论两个维度介绍了多智能体强化学习技术的特点。同时，汇报课题组在博弈约简、均衡迁移、分布式博弈等方面的研究进展。最后，总结多智能体强化学习范式目前存在的挑战。

讲者简介：吴翼，清华大学交叉信息研究院助理教授，2019年于加州大学伯克利分校获得博士学位，曾任OpenAI多智能体团队研究员。2014年本科毕业于清华大学交叉信息研究院计算机科学实验班。研究方向为深度强化学习与多智能体强化学习，代表作包括OpenAIHide-and-SeekProject，MADDPG算法，ValueIterationNetwork等，曾获NIPS2016最佳论文奖。

报告题目：从捉迷藏游戏谈起(TheHide-and-SeekGameandBeyond)

报告摘要：通过开放的物理模拟器，和简单捉迷藏游戏规则，我们发现通过多智能体深度强化学习，可以让智能体通过自我对抗和博弈，逐渐学会6种，不同的人类可以理解的，套路和反套路。通过捉迷藏游戏的展示和分析，我们总结了多智能体深度强化学习的特点和潜在的缺陷，也提出了诸多的待解决的开放问题。对于其中的一些开放问题，我们也进行了进一步的研究，并尝试用新的学习算法和框架来尝试解决这些开放挑战。

报告题目：单智能体强化学习

报告题目：基于模型的强化学习

报告题目：多智能体深度强化学习

报告摘要：Duetothecomplexandcombinatorialnatureofreal-worldapplications,deepreinforcementlearningisshiftingfromsingle-agenttomulti-agentsettings.Thistutorialwillfocusoncooperativemulti-agentreinforcementlearning(MARL).Wewillfirstdescribeitsunderlyingmodelformulti-agentdecision-makingunderuncertainty,calledDecentralizedPartiallyObservableMarkovDecisionProcesses(Dec-POMDPs),anddiscusschallengesincooperativeMARL,includingscalability,creditassignment,uncertainty,diversity,andexploration.WewillthenintroduceapopularparadigmofcentralizedtrainingwithdecentralizedexecutionandpresentfactorizedMARLmethods,includinglinearandnon-linearvaluefactorization,toaddressthescalabilityandcreditassignmentofMARLchallenges.Finally,wediscusssomeextensionsoffactorizedMARLmethodstoaddressotherMARLchallenges.

讲者简介：张海峰，中国科学院自动化研究所副研究员。于北京大学计算机系获得本科、博士学位，曾在英国伦敦大学学院（UCL）从事博士后研究工作。致力于多智能体和强化学习的学术研究和平台研发工作，研究兴趣包括智能体策略评估、多智能体强化学习算法等，研究成果发表在ICML、IJCAI、AAAI、AAMAS、WSDM、CIKM、《软件学报》等国内外知名学术会议、期刊；负责研发的平台包括北京大学Botzone智能体博弈系统（www.botzone.org.cn）和中科院自动化所“及第”多智能体开源开放平台（www.jidiai.cn），并举办“IJCAI中国麻将智能体竞赛”、“RLChina智能体挑战赛”等智能体竞赛。

报告题目：智能体的博弈与强化学习

报告题目：机器人强化学习的理论、挑战和应用

报告题目：大规模深度强化学习训练系统：从单智能体到多智能体

讲者简介：

秦志伟（Tony）博士，业界决策智能专家，致力于网约车交易市场中核心策略优化的研究。他从美国哥伦比亚大学获得运筹学博士，曾在沃尔玛全球电子商务任职研究科学家，近几年主要聚焦在强化学习及其在运筹优化，智能交通，在线营销上的应用。他在机器学习，数据挖掘和运筹优化的顶级会议和期刊发表近30篇论文，并是多个会议和期刊(NeurIPS,ICML,KDD,AAAI,TR-C,TransportationScience等)的评审专家。他带领团队获得了INFORMS2019年DanielH.WagnerPrize（运筹学杰出应用奖），并入选NeurIPS2018BestDemoAwards。Tony拥有10多项美国专利，涵盖智慧交通，供应链管理，和推荐系统。

报告题目：强化学习在共享出行中的应用

报告摘要：

俞扬，博士，南京大学教授，国家万人计划青年拔尖人才。主要研究领域为机器学习、强化学习，专注于开放环境强化学习的理论、技术、与落地应用。获2020CCF-IEEE“青年科学家奖”，入选2018年IEEEIntelligentSystems杂志评选的“国际人工智能10大新星”，获2018亚太数据挖掘"青年成就奖”，受邀在IJCAI’18作关于强化学习的"青年亮点"报告。获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。

地点：北京中国科学院计算技术研究所一层报告厅（北京市海淀区中关村科学院南路6号）

THE END

ADL120《深度强化学习》开始报名

今天来讨论下离线强化学习方法

AI生成式强化学习如何应用于生成式AI？

强化学习图鉴｜你与最优策略之间，可能还差一本离线强化学习秘籍

基于集成网络的离线到在线强化学习

深度学习在计算广告中的应用随着机器学习特别是深度学习的不断发展，其广泛应用于计算广告投放流程的各个阶段。笔者最近对深度

强化学习研究综述.docx

AWAC：使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

UCL汪军专访：从生命体决策出发，探索智能决策的安全与风险算法智能体

强化学习（七）时序差分离线控制算法QLearning刘建平Pinard

ADL120《深度强化学习》开始报名

RLDS：在强化学习中生成共享和使用数据集的生态系统

深度强化学习