ADL120《深度强化学习》开始报名

本期CCF学科前沿讲习班《深度强化学习》,邀请到了本领域10位来自于著名高校与企业的重量级专家学者做主题报告。他们将对强化学习多个方面的最新进展进行深入浅出的讲解,对强化学习的基础算法、深度强化学习算法、多智能体强化学习、基于强化学习的博弈、强化学习训练系统、以及强化学习在机器人和共享出行中的应用进行系统性介绍,帮助学员理解强化学习任务的基本概念,主要思想,以及面临的挑战,掌握该领域包括单智能体、多智能体和博弈强化学习的一系列前沿技术,并通过实际案例了解强化学习的应用前景,开阔科研视野,增强实践能力。

学术主任:俞扬南京大学

主办单位:中国计算机学会

活动日程:

2021年10月15日(周五)

8:50-9:00

开班仪式

9:00-9:15

全体合影

9:15-10:45

专题讲座1:强化学习的特征表示与算法设计

徐昕国防科技大学

10:45-11:00

休息

11:00-12:30

专题讲座2:智能决策与多智能体强化学习

高阳南京大学

12:30-14:00

午餐

14:00-15:30

专题讲座3:从捉迷藏游戏谈起(TheHide-and-SeekGameandBeyond)

吴翼清华大学

15:30-15:45

15:45-17:15

专题讲座4:单智能体强化学习

章宗长南京大学

2021年10月16日(周六)

9:00-12:15(中间休息15分钟)

专题讲座5:基于模型的强化学习

张伟楠上海交通大学

12:15-13:30

13:30-16:45

(中间休息15分钟)

专题讲座6:多智能体深度强化学习

张崇洁清华大学

2021年10月17日(周日)

9:00-10:30

专题讲座7:智能体的博弈与强化学习

张海峰中科院自动化所

10:30-10:45

10:45-12:15

专题讲座8:机器人强化学习的理论、挑战和应用

吴锋中国科技大学

13:30-15:00

专题讲座9:大规模深度强化学习训练系统:从单智能体到多智能体

温颖上海交通大学

15:00-15:15

15:15-16:45

专题讲座10:强化学习在共享出行中的应用

Zhiwei(Tony)Qin滴滴AILabs

16:45-17:00

小结

特邀讲者:

报告题目:强化学习的特征表示与算法设计

报告摘要:报告分析了强化学习在求解大规模序贯优化决策问题时面临的理论和技术难点,阐述了强化学习在特征表示理论和方法方面的主要研究思路和进展,包括线性特征构造、流形特征学习、深度特征学习等,结合不同的特征表示和学习问题,介绍和讨论了强化学习算法设计的研究进展,包括TD学习预测、值迭代、策略迭代和Actor-Critic算法等。最后对有关应用和发展趋势进行了介绍和分析。

报告题目:智能决策与多智能体强化学习

报告摘要:序贯决策与协同决策是智能决策的关键问题,而多智能体强化学习是解决“序贯+协同决策”的主要技术。本报告从机器学习、博弈论两个维度介绍了多智能体强化学习技术的特点。同时,汇报课题组在博弈约简、均衡迁移、分布式博弈等方面的研究进展。最后,总结多智能体强化学习范式目前存在的挑战。

讲者简介:吴翼,清华大学交叉信息研究院助理教授,2019年于加州大学伯克利分校获得博士学位,曾任OpenAI多智能体团队研究员。2014年本科毕业于清华大学交叉信息研究院计算机科学实验班。研究方向为深度强化学习与多智能体强化学习,代表作包括OpenAIHide-and-SeekProject,MADDPG算法,ValueIterationNetwork等,曾获NIPS2016最佳论文奖。

报告题目:从捉迷藏游戏谈起(TheHide-and-SeekGameandBeyond)

报告摘要:通过开放的物理模拟器,和简单捉迷藏游戏规则,我们发现通过多智能体深度强化学习,可以让智能体通过自我对抗和博弈,逐渐学会6种,不同的人类可以理解的,套路和反套路。通过捉迷藏游戏的展示和分析,我们总结了多智能体深度强化学习的特点和潜在的缺陷,也提出了诸多的待解决的开放问题。对于其中的一些开放问题,我们也进行了进一步的研究,并尝试用新的学习算法和框架来尝试解决这些开放挑战。

报告题目:单智能体强化学习

报告题目:基于模型的强化学习

报告题目:多智能体深度强化学习

报告摘要:Duetothecomplexandcombinatorialnatureofreal-worldapplications,deepreinforcementlearningisshiftingfromsingle-agenttomulti-agentsettings.Thistutorialwillfocusoncooperativemulti-agentreinforcementlearning(MARL).Wewillfirstdescribeitsunderlyingmodelformulti-agentdecision-makingunderuncertainty,calledDecentralizedPartiallyObservableMarkovDecisionProcesses(Dec-POMDPs),anddiscusschallengesincooperativeMARL,includingscalability,creditassignment,uncertainty,diversity,andexploration.WewillthenintroduceapopularparadigmofcentralizedtrainingwithdecentralizedexecutionandpresentfactorizedMARLmethods,includinglinearandnon-linearvaluefactorization,toaddressthescalabilityandcreditassignmentofMARLchallenges.Finally,wediscusssomeextensionsoffactorizedMARLmethodstoaddressotherMARLchallenges.

讲者简介:张海峰,中国科学院自动化研究所副研究员。于北京大学计算机系获得本科、博士学位,曾在英国伦敦大学学院(UCL)从事博士后研究工作。致力于多智能体和强化学习的学术研究和平台研发工作,研究兴趣包括智能体策略评估、多智能体强化学习算法等,研究成果发表在ICML、IJCAI、AAAI、AAMAS、WSDM、CIKM、《软件学报》等国内外知名学术会议、期刊;负责研发的平台包括北京大学Botzone智能体博弈系统(www.botzone.org.cn)和中科院自动化所“及第”多智能体开源开放平台(www.jidiai.cn),并举办“IJCAI中国麻将智能体竞赛”、“RLChina智能体挑战赛”等智能体竞赛。

报告题目:智能体的博弈与强化学习

报告题目:机器人强化学习的理论、挑战和应用

报告题目:大规模深度强化学习训练系统:从单智能体到多智能体

讲者简介:

秦志伟(Tony)博士,业界决策智能专家,致力于网约车交易市场中核心策略优化的研究。他从美国哥伦比亚大学获得运筹学博士,曾在沃尔玛全球电子商务任职研究科学家,近几年主要聚焦在强化学习及其在运筹优化,智能交通,在线营销上的应用。他在机器学习,数据挖掘和运筹优化的顶级会议和期刊发表近30篇论文,并是多个会议和期刊(NeurIPS,ICML,KDD,AAAI,TR-C,TransportationScience等)的评审专家。他带领团队获得了INFORMS2019年DanielH.WagnerPrize(运筹学杰出应用奖),并入选NeurIPS2018BestDemoAwards。Tony拥有10多项美国专利,涵盖智慧交通,供应链管理,和推荐系统。

报告题目:强化学习在共享出行中的应用

报告摘要:

俞扬,博士,南京大学教授,国家万人计划青年拔尖人才。主要研究领域为机器学习、强化学习,专注于开放环境强化学习的理论、技术、与落地应用。获2020CCF-IEEE“青年科学家奖”,入选2018年IEEEIntelligentSystems杂志评选的“国际人工智能10大新星”,获2018亚太数据挖掘"青年成就奖”,受邀在IJCAI’18作关于强化学习的"青年亮点"报告。获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。

地点:北京中国科学院计算技术研究所一层报告厅(北京市海淀区中关村科学院南路6号)

THE END
1.学习笔记在线强化学习离线强化学习连续强化学习的区别(4)智能体使用这些反馈来更新其策略(policy),即在定状态下选择行动的规则。在线学习的特点是智能体在每一时刻都基于最新的数据进行学习,需要同时处理探索(exploration,即尝试新行动以发现未知信息)和利用(exploitation,即利用现有知识采取最佳行动)的平衡。 2. 离线强化学习(Offline Reinforcement Learning):https://blog.csdn.net/hzlalb/article/details/136870080
2.NeurIPS2022离线强化学习新范式!京东&清华解耦式学习算法离线强化学习算法 (Offline RL) 是当前强化学习最火的子方向之一。离线强化学习不与环境交互,旨在从以往记录的数据中学习目标策略。在面临数据收集昂贵或危险等问题,但是可能存在大量数据领域(例如,机器人、工业控制、自动驾驶),离线强化学习对比到在线强化学习(Online RL)尤其具有吸引力。在利用贝尔曼策略评估算子https://baijiahao.baidu.com/s?id=1748460613920583591&wfr=spider&for=pc
3.万字专栏总结离线强化学习(OfflineRL)总结(原理数据集离线强化学习(Offline RL)作为深度强化学习的子领域,其不需要与模拟环境进行交互就可以直接从数据中学习一套策略来完成相关任务,被认为是强化学习落地的重要技术之一。本文详细的阐述了强化学习到离线强化学习的发展过程,并就一些经典的问题进行了解释和说明。 https://cloud.tencent.com/developer/article/2119884
4.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
5.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
6.科学网—[转载]强化学习在资源优化领域的应用随着强化学习在围棋、游戏等序列化决策领域大放异彩、在多智能体协作等领域取得较好表现,它的一些优秀特性也得到了资源优化领域的关注。首先,基于强化学习的解决方案决策非常高效。虽然强化学习策略的训练非常耗时,但是这些训练工作可以离线进行,实际中只需要利用训练好的模型进行推理,因而在绝大部分情况下可以做到近似实时https://blog.sciencenet.cn/blog-3472670-1312677.html
7.2020届计算机科学方向毕业设计(论文)阶段性汇报本文将信息流推荐系统与用户的多步交互过程建模为马尔科夫决策过程,并基于强化学习算法设计动态决定信息流推荐中广告间隔的模型,以优化广告收入与用户参与度指标的综合长期目标。针对在推荐系统场景中部署在线强化学习模型的挑战,本文使用推荐系统的历史日志数据离线训练强化学习策略,并通过实验对相应算法的可行性及效果进行https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
8.多目标排序在快手短视频推荐中的实践的离线学习方法,如一些非梯度优化算法:PSO(粒子群算法)、ES(进化策略)等,即每次产生一组超参数(a,b,,h),算一下该组参数对应的评估目标:组合AUC 多轮迭代收敛后,选择AUC加权和最大的。 上述离线方法都有具有和Learn2Rank类似的缺陷,为了解决该问题,我们这边开发了在线自动调参框架。自动在线调参的工作机制https://maimai.cn/article/detail?fid=1603183032&efid=T7RIoRo14AcJUC_PIXWVhA
9.从搜索到智能客服:阿里开放强化学习技术演进与实践书籍机器之心近日,阿里开放了一本描述强化学习在实践中应用的书籍《强化学习在阿里的技术演进与业务创新》,这本书重点描述了阿里巴巴在推动强化学习输出产品及商业化的实践过程。例如在在搜索场景中对用户的浏览购买行为进行 MDP 建模、在推荐场景中使用深度强化学习与自适应在线学习帮助每?个用户迅速发现宝贝、在智能客服中赋予阿里https://www.jiqizhixin.com/articles/2018-02-06-3
10.探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff同样的思想也可以应用到强化学习算法中。在下面的章节中,基于附加奖励的探索奖励方法大致分为两类:一是发现全新的状态,二是提高智能体对环境的认知。 1、基于计数的探索策略 如果将状态的新颖程度作为内在奖励的条件,那就需要寻找一种方法来衡量当前状态是新颖的还是经常出现的。一种直观的方法是统计一个状态出现的次https://www.zhuanzhi.ai/document/8c25cb38ff7b6a2acc8610b42ff00fdd
11.基于深度强化学习的水面无人艇路径跟踪方法6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。 7.为了解决上述技术问题,本发明采用了如下的技术方案: https://www.xjishu.com/zhuanli/54/202210772926.html/