ADL120《深度强化学习》开始报名

本期CCF学科前沿讲习班《深度强化学习》,邀请到了本领域10位来自于著名高校与企业的重量级专家学者做主题报告。他们将对强化学习多个方面的最新进展进行深入浅出的讲解,对强化学习的基础算法、深度强化学习算法、多智能体强化学习、基于强化学习的博弈、强化学习训练系统、以及强化学习在机器人和共享出行中的应用进行系统性介绍,帮助学员理解强化学习任务的基本概念,主要思想,以及面临的挑战,掌握该领域包括单智能体、多智能体和博弈强化学习的一系列前沿技术,并通过实际案例了解强化学习的应用前景,开阔科研视野,增强实践能力。

学术主任:俞扬南京大学

主办单位:中国计算机学会

活动日程:

2021年10月15日(周五)

8:50-9:00

开班仪式

9:00-9:15

全体合影

9:15-10:45

专题讲座1:强化学习的特征表示与算法设计

徐昕国防科技大学

10:45-11:00

休息

11:00-12:30

专题讲座2:智能决策与多智能体强化学习

高阳南京大学

12:30-14:00

午餐

14:00-15:30

专题讲座3:从捉迷藏游戏谈起(TheHide-and-SeekGameandBeyond)

吴翼清华大学

15:30-15:45

15:45-17:15

专题讲座4:单智能体强化学习

章宗长南京大学

2021年10月16日(周六)

9:00-12:15(中间休息15分钟)

专题讲座5:基于模型的强化学习

张伟楠上海交通大学

12:15-13:30

13:30-16:45

(中间休息15分钟)

专题讲座6:多智能体深度强化学习

张崇洁清华大学

2021年10月17日(周日)

9:00-10:30

专题讲座7:智能体的博弈与强化学习

张海峰中科院自动化所

10:30-10:45

10:45-12:15

专题讲座8:机器人强化学习的理论、挑战和应用

吴锋中国科技大学

13:30-15:00

专题讲座9:大规模深度强化学习训练系统:从单智能体到多智能体

温颖上海交通大学

15:00-15:15

15:15-16:45

专题讲座10:强化学习在共享出行中的应用

Zhiwei(Tony)Qin滴滴AILabs

16:45-17:00

小结

特邀讲者:

报告题目:强化学习的特征表示与算法设计

报告摘要:报告分析了强化学习在求解大规模序贯优化决策问题时面临的理论和技术难点,阐述了强化学习在特征表示理论和方法方面的主要研究思路和进展,包括线性特征构造、流形特征学习、深度特征学习等,结合不同的特征表示和学习问题,介绍和讨论了强化学习算法设计的研究进展,包括TD学习预测、值迭代、策略迭代和Actor-Critic算法等。最后对有关应用和发展趋势进行了介绍和分析。

报告题目:智能决策与多智能体强化学习

报告摘要:序贯决策与协同决策是智能决策的关键问题,而多智能体强化学习是解决“序贯+协同决策”的主要技术。本报告从机器学习、博弈论两个维度介绍了多智能体强化学习技术的特点。同时,汇报课题组在博弈约简、均衡迁移、分布式博弈等方面的研究进展。最后,总结多智能体强化学习范式目前存在的挑战。

讲者简介:吴翼,清华大学交叉信息研究院助理教授,2019年于加州大学伯克利分校获得博士学位,曾任OpenAI多智能体团队研究员。2014年本科毕业于清华大学交叉信息研究院计算机科学实验班。研究方向为深度强化学习与多智能体强化学习,代表作包括OpenAIHide-and-SeekProject,MADDPG算法,ValueIterationNetwork等,曾获NIPS2016最佳论文奖。

报告题目:从捉迷藏游戏谈起(TheHide-and-SeekGameandBeyond)

报告摘要:通过开放的物理模拟器,和简单捉迷藏游戏规则,我们发现通过多智能体深度强化学习,可以让智能体通过自我对抗和博弈,逐渐学会6种,不同的人类可以理解的,套路和反套路。通过捉迷藏游戏的展示和分析,我们总结了多智能体深度强化学习的特点和潜在的缺陷,也提出了诸多的待解决的开放问题。对于其中的一些开放问题,我们也进行了进一步的研究,并尝试用新的学习算法和框架来尝试解决这些开放挑战。

报告题目:单智能体强化学习

报告题目:基于模型的强化学习

报告题目:多智能体深度强化学习

报告摘要:Duetothecomplexandcombinatorialnatureofreal-worldapplications,deepreinforcementlearningisshiftingfromsingle-agenttomulti-agentsettings.Thistutorialwillfocusoncooperativemulti-agentreinforcementlearning(MARL).Wewillfirstdescribeitsunderlyingmodelformulti-agentdecision-makingunderuncertainty,calledDecentralizedPartiallyObservableMarkovDecisionProcesses(Dec-POMDPs),anddiscusschallengesincooperativeMARL,includingscalability,creditassignment,uncertainty,diversity,andexploration.WewillthenintroduceapopularparadigmofcentralizedtrainingwithdecentralizedexecutionandpresentfactorizedMARLmethods,includinglinearandnon-linearvaluefactorization,toaddressthescalabilityandcreditassignmentofMARLchallenges.Finally,wediscusssomeextensionsoffactorizedMARLmethodstoaddressotherMARLchallenges.

讲者简介:张海峰,中国科学院自动化研究所副研究员。于北京大学计算机系获得本科、博士学位,曾在英国伦敦大学学院(UCL)从事博士后研究工作。致力于多智能体和强化学习的学术研究和平台研发工作,研究兴趣包括智能体策略评估、多智能体强化学习算法等,研究成果发表在ICML、IJCAI、AAAI、AAMAS、WSDM、CIKM、《软件学报》等国内外知名学术会议、期刊;负责研发的平台包括北京大学Botzone智能体博弈系统(www.botzone.org.cn)和中科院自动化所“及第”多智能体开源开放平台(www.jidiai.cn),并举办“IJCAI中国麻将智能体竞赛”、“RLChina智能体挑战赛”等智能体竞赛。

报告题目:智能体的博弈与强化学习

报告题目:机器人强化学习的理论、挑战和应用

报告题目:大规模深度强化学习训练系统:从单智能体到多智能体

讲者简介:

秦志伟(Tony)博士,业界决策智能专家,致力于网约车交易市场中核心策略优化的研究。他从美国哥伦比亚大学获得运筹学博士,曾在沃尔玛全球电子商务任职研究科学家,近几年主要聚焦在强化学习及其在运筹优化,智能交通,在线营销上的应用。他在机器学习,数据挖掘和运筹优化的顶级会议和期刊发表近30篇论文,并是多个会议和期刊(NeurIPS,ICML,KDD,AAAI,TR-C,TransportationScience等)的评审专家。他带领团队获得了INFORMS2019年DanielH.WagnerPrize(运筹学杰出应用奖),并入选NeurIPS2018BestDemoAwards。Tony拥有10多项美国专利,涵盖智慧交通,供应链管理,和推荐系统。

报告题目:强化学习在共享出行中的应用

报告摘要:

俞扬,博士,南京大学教授,国家万人计划青年拔尖人才。主要研究领域为机器学习、强化学习,专注于开放环境强化学习的理论、技术、与落地应用。获2020CCF-IEEE“青年科学家奖”,入选2018年IEEEIntelligentSystems杂志评选的“国际人工智能10大新星”,获2018亚太数据挖掘"青年成就奖”,受邀在IJCAI’18作关于强化学习的"青年亮点"报告。获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。

地点:北京中国科学院计算技术研究所一层报告厅(北京市海淀区中关村科学院南路6号)

THE END
1.学习笔记总结来说,在线强化学习是实时与环境交互进行学习,离线强化学习是使用预先收集的数据集进行学习,而连续强化学习则是处理连续状态和动作空间的学习问题。 研究重点 1. 在线强化学习(Online Reinforcement Learning): - 探索与利用的平衡:在线学习中,智能体需要在探索新行动和利用已知信息之间取得平衡。研究者关注如何设计有https://blog.csdn.net/hzlalb/article/details/136870080
2.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
3.系统回顾深度强化学习预训练,在线离线等研究这一篇就够了一个可行的解决方案是离线强化学习。离线强化学习的目的是从离线数据中获得一个奖励最大化的 RL 策略。其所面临的一个基本挑战是分布偏移问题,即训练数据和测试期间看到的数据之间的分布差异。现有的离线强化学习方法关注如何在使用函数近似时解决这一挑战。例如,策略约束方法明确要求学到的策略避免采取数据集中未见的http://baijiahao.baidu.com/s?id=1749447690356041311&wfr=spider&for=pc
4.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习算法图一:离线转在线强化学习算法框架:(a)乐观探索策略;(b)缓冲回放区;(c)策略评估;(d)基于元适应的策略提升 离线强化学习,即智能体从先前收集的数据集中学习的过程,已被广泛研究并在机器人控制、推荐系统、智慧医疗等领域取得了巨大成功。然而,由于受到离线数据集质量的限制,离线强化学习智能体的性能通常是次优的。http://icfs.jlu.edu.cn/info/1007/3101.htm
5.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
6.离线强化学习因此,离线强化学习(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。离线强化学习和在线策略算法、离线策略算法的区别如图 18-1 所示。图18-1 离线强化学习和在线策略算法、离线策略算法的区别https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
7.科学网—[转载]强化学习在资源优化领域的应用随着强化学习在围棋、游戏等序列化决策领域大放异彩、在多智能体协作等领域取得较好表现,它的一些优秀特性也得到了资源优化领域的关注。首先,基于强化学习的解决方案决策非常高效。虽然强化学习策略的训练非常耗时,但是这些训练工作可以离线进行,实际中只需要利用训练好的模型进行推理,因而在绝大部分情况下可以做到近似实时https://blog.sciencenet.cn/blog-3472670-1312677.html
8.叶志豪:介绍强化学习及其在NLP上的应用分享总结雷峰网接下来,讲一下强化学习和监督学习的区别,主要的区别可以归纳为两点。和监督学习比较,强化学习的信号是一个奖励信号,有样本、有标签,然后就是输入的不同。因为我们常见的,像我们的输入模型,它们都是独立分布的,但是对强化学习来说,一般它是一个序列,也就是说它的每一个动作的输出和它的输入是有关系的,它两次的https://www.leiphone.com/news/201807/sbyafpzV4BgvjLT1.html
9.清华北大等发布SelfPlay强化学习最新综述澎湃号·湃客麻将同样基于不完全信息做出决策,此外,麻将的牌数更多,获胜牌型也更为复杂,对 AI 更具挑战性。Suphx 通过监督学习和自我博弈强化学习成为首个达到与人类专家水平的算法。NAGA 和腾讯设计的 LuckyJ 同样也在在线平台上达到了人类专家水平。 场景三:电子游戏 https://www.thepaper.cn/newsDetail_forward_28688973
10.基于深度强化学习的水面无人艇路径跟踪方法6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。 7.为了解决上述技术问题,本发明采用了如下的技术方案: https://www.xjishu.com/zhuanli/54/202210772926.html/