ADL120《深度强化学习》开始报名

本期CCF学科前沿讲习班《深度强化学习》,邀请到了本领域10位来自于著名高校与企业的重量级专家学者做主题报告。他们将对强化学习多个方面的最新进展进行深入浅出的讲解,对强化学习的基础算法、深度强化学习算法、多智能体强化学习、基于强化学习的博弈、强化学习训练系统、以及强化学习在机器人和共享出行中的应用进行系统性介绍,帮助学员理解强化学习任务的基本概念,主要思想,以及面临的挑战,掌握该领域包括单智能体、多智能体和博弈强化学习的一系列前沿技术,并通过实际案例了解强化学习的应用前景,开阔科研视野,增强实践能力。

学术主任:俞扬南京大学

主办单位:中国计算机学会

活动日程:

2021年10月15日(周五)

8:50-9:00

开班仪式

9:00-9:15

全体合影

9:15-10:45

专题讲座1:强化学习的特征表示与算法设计

徐昕国防科技大学

10:45-11:00

休息

11:00-12:30

专题讲座2:智能决策与多智能体强化学习

高阳南京大学

12:30-14:00

午餐

14:00-15:30

专题讲座3:从捉迷藏游戏谈起(TheHide-and-SeekGameandBeyond)

吴翼清华大学

15:30-15:45

15:45-17:15

专题讲座4:单智能体强化学习

章宗长南京大学

2021年10月16日(周六)

9:00-12:15(中间休息15分钟)

专题讲座5:基于模型的强化学习

张伟楠上海交通大学

12:15-13:30

13:30-16:45

(中间休息15分钟)

专题讲座6:多智能体深度强化学习

张崇洁清华大学

2021年10月17日(周日)

9:00-10:30

专题讲座7:智能体的博弈与强化学习

张海峰中科院自动化所

10:30-10:45

10:45-12:15

专题讲座8:机器人强化学习的理论、挑战和应用

吴锋中国科技大学

13:30-15:00

专题讲座9:大规模深度强化学习训练系统:从单智能体到多智能体

温颖上海交通大学

15:00-15:15

15:15-16:45

专题讲座10:强化学习在共享出行中的应用

Zhiwei(Tony)Qin滴滴AILabs

16:45-17:00

小结

特邀讲者:

报告题目:强化学习的特征表示与算法设计

报告摘要:报告分析了强化学习在求解大规模序贯优化决策问题时面临的理论和技术难点,阐述了强化学习在特征表示理论和方法方面的主要研究思路和进展,包括线性特征构造、流形特征学习、深度特征学习等,结合不同的特征表示和学习问题,介绍和讨论了强化学习算法设计的研究进展,包括TD学习预测、值迭代、策略迭代和Actor-Critic算法等。最后对有关应用和发展趋势进行了介绍和分析。

报告题目:智能决策与多智能体强化学习

报告摘要:序贯决策与协同决策是智能决策的关键问题,而多智能体强化学习是解决“序贯+协同决策”的主要技术。本报告从机器学习、博弈论两个维度介绍了多智能体强化学习技术的特点。同时,汇报课题组在博弈约简、均衡迁移、分布式博弈等方面的研究进展。最后,总结多智能体强化学习范式目前存在的挑战。

讲者简介:吴翼,清华大学交叉信息研究院助理教授,2019年于加州大学伯克利分校获得博士学位,曾任OpenAI多智能体团队研究员。2014年本科毕业于清华大学交叉信息研究院计算机科学实验班。研究方向为深度强化学习与多智能体强化学习,代表作包括OpenAIHide-and-SeekProject,MADDPG算法,ValueIterationNetwork等,曾获NIPS2016最佳论文奖。

报告题目:从捉迷藏游戏谈起(TheHide-and-SeekGameandBeyond)

报告摘要:通过开放的物理模拟器,和简单捉迷藏游戏规则,我们发现通过多智能体深度强化学习,可以让智能体通过自我对抗和博弈,逐渐学会6种,不同的人类可以理解的,套路和反套路。通过捉迷藏游戏的展示和分析,我们总结了多智能体深度强化学习的特点和潜在的缺陷,也提出了诸多的待解决的开放问题。对于其中的一些开放问题,我们也进行了进一步的研究,并尝试用新的学习算法和框架来尝试解决这些开放挑战。

报告题目:单智能体强化学习

报告题目:基于模型的强化学习

报告题目:多智能体深度强化学习

报告摘要:Duetothecomplexandcombinatorialnatureofreal-worldapplications,deepreinforcementlearningisshiftingfromsingle-agenttomulti-agentsettings.Thistutorialwillfocusoncooperativemulti-agentreinforcementlearning(MARL).Wewillfirstdescribeitsunderlyingmodelformulti-agentdecision-makingunderuncertainty,calledDecentralizedPartiallyObservableMarkovDecisionProcesses(Dec-POMDPs),anddiscusschallengesincooperativeMARL,includingscalability,creditassignment,uncertainty,diversity,andexploration.WewillthenintroduceapopularparadigmofcentralizedtrainingwithdecentralizedexecutionandpresentfactorizedMARLmethods,includinglinearandnon-linearvaluefactorization,toaddressthescalabilityandcreditassignmentofMARLchallenges.Finally,wediscusssomeextensionsoffactorizedMARLmethodstoaddressotherMARLchallenges.

讲者简介:张海峰,中国科学院自动化研究所副研究员。于北京大学计算机系获得本科、博士学位,曾在英国伦敦大学学院(UCL)从事博士后研究工作。致力于多智能体和强化学习的学术研究和平台研发工作,研究兴趣包括智能体策略评估、多智能体强化学习算法等,研究成果发表在ICML、IJCAI、AAAI、AAMAS、WSDM、CIKM、《软件学报》等国内外知名学术会议、期刊;负责研发的平台包括北京大学Botzone智能体博弈系统(www.botzone.org.cn)和中科院自动化所“及第”多智能体开源开放平台(www.jidiai.cn),并举办“IJCAI中国麻将智能体竞赛”、“RLChina智能体挑战赛”等智能体竞赛。

报告题目:智能体的博弈与强化学习

报告题目:机器人强化学习的理论、挑战和应用

报告题目:大规模深度强化学习训练系统:从单智能体到多智能体

讲者简介:

秦志伟(Tony)博士,业界决策智能专家,致力于网约车交易市场中核心策略优化的研究。他从美国哥伦比亚大学获得运筹学博士,曾在沃尔玛全球电子商务任职研究科学家,近几年主要聚焦在强化学习及其在运筹优化,智能交通,在线营销上的应用。他在机器学习,数据挖掘和运筹优化的顶级会议和期刊发表近30篇论文,并是多个会议和期刊(NeurIPS,ICML,KDD,AAAI,TR-C,TransportationScience等)的评审专家。他带领团队获得了INFORMS2019年DanielH.WagnerPrize(运筹学杰出应用奖),并入选NeurIPS2018BestDemoAwards。Tony拥有10多项美国专利,涵盖智慧交通,供应链管理,和推荐系统。

报告题目:强化学习在共享出行中的应用

报告摘要:

俞扬,博士,南京大学教授,国家万人计划青年拔尖人才。主要研究领域为机器学习、强化学习,专注于开放环境强化学习的理论、技术、与落地应用。获2020CCF-IEEE“青年科学家奖”,入选2018年IEEEIntelligentSystems杂志评选的“国际人工智能10大新星”,获2018亚太数据挖掘"青年成就奖”,受邀在IJCAI’18作关于强化学习的"青年亮点"报告。获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。

地点:北京中国科学院计算技术研究所一层报告厅(北京市海淀区中关村科学院南路6号)

THE END
1.什么是人工智能领域的ReinforcementLearning现实世界中强化学习的应用广泛而深远,从自动驾驶、机器人控制,到游戏玩家和推荐系统,都能看到它的身影。以 AlphaGo 为例,这是一个结合了蒙特卡洛树搜索和深度神经网络的深度强化学习系统,它学会了在围棋游戏中战胜世界级的人类选手。这一成就不仅展示了深度强化学习的强大能力,也激发了更多领域对强化学习技术的探索和https://open.alipay.com/portal/forum/post/159101016
2.ReinforcementLearning)和在线强化学习(OnlineReinforcementLearnin训练过程:在离线强化学习中,模型使用这些离线数据进行训练,目标是从这些数据中学习到一个良好的策略,而不需要与真实环境进行交互。 应用场景:离线强化学习适用于那些收集数据困难或成本高昂的场景,以及对实时反馈不敏感的任务。 在线强化学习: 数据获取:在线强化学习是在实际环境中与代理程序交互,通过与环境的交互来获取https://blog.csdn.net/qq_40718185/article/details/139231769
3.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
4.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
5.离线强化学习图18-1 离线强化学习和在线策略算法、离线策略算法的区别 18.2 批量限制 Q-learning 算法 图18-1 中的离线强化学习和离线策略强化学习很像,都要从经验回放池中采样进行训练,并且离线策略算法的策略评估方式也多种多样。因此,研究者们最开始尝试将离线策略算法直接照搬到离线的环境下,仅仅是去掉算法中和环境交互的https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
6.科学网—[转载]强化学习在资源优化领域的应用随着强化学习在围棋、游戏等序列化决策领域大放异彩、在多智能体协作等领域取得较好表现,它的一些优秀特性也得到了资源优化领域的关注。首先,基于强化学习的解决方案决策非常高效。虽然强化学习策略的训练非常耗时,但是这些训练工作可以离线进行,实际中只需要利用训练好的模型进行推理,因而在绝大部分情况下可以做到近似实时https://blog.sciencenet.cn/blog-3472670-1312677.html
7.2020届计算机科学方向毕业设计(论文)阶段性汇报本文将信息流推荐系统与用户的多步交互过程建模为马尔科夫决策过程,并基于强化学习算法设计动态决定信息流推荐中广告间隔的模型,以优化广告收入与用户参与度指标的综合长期目标。针对在推荐系统场景中部署在线强化学习模型的挑战,本文使用推荐系统的历史日志数据离线训练强化学习策略,并通过实验对相应算法的可行性及效果进行https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
8.多目标排序在快手短视频推荐中的实践多目标精排:从手工融合到Learn To Rank 复杂多目标:Ensemble Sort和在线自动调参 重排序:Listwise、强化学习和端上重排序 总结和展望 01 快手短视频推荐场景介绍 1. 关于快手 快手主要的流量形态 有4个页面: ① 发现页:致力于让用户看见更大的世界,分为单列和双列两种形态。 https://maimai.cn/article/detail?fid=1603183032&efid=T7RIoRo14AcJUC_PIXWVhA
9.从搜索到智能客服:阿里开放强化学习技术演进与实践书籍机器之心近日,阿里开放了一本描述强化学习在实践中应用的书籍《强化学习在阿里的技术演进与业务创新》,这本书重点描述了阿里巴巴在推动强化学习输出产品及商业化的实践过程。例如在在搜索场景中对用户的浏览购买行为进行 MDP 建模、在推荐场景中使用深度强化学习与自适应在线学习帮助每?个用户迅速发现宝贝、在智能客服中赋予阿里https://www.jiqizhixin.com/articles/2018-02-06-3
10.强化学习究竟是什么?它与机器学习技术有什么联系?▌3.最常用的深度学习算法原理是什么? Q-learning和SARSA是两种最常见的不理解环境强化学习算法,这两者的探索原理不同,但是开发原理是相似的。Q-learning是一种离线学习算法,智能体需要从另一项方案中学习到行为a*的价值;SARSA则是一种在线学习算法,智能体可从现有方案指定的当前行为来学习价值。这两种方法都很容易https://m.elecfans.com/article/662224.html
11.探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff同样的思想也可以应用到强化学习算法中。在下面的章节中,基于附加奖励的探索奖励方法大致分为两类:一是发现全新的状态,二是提高智能体对环境的认知。 1、基于计数的探索策略 如果将状态的新颖程度作为内在奖励的条件,那就需要寻找一种方法来衡量当前状态是新颖的还是经常出现的。一种直观的方法是统计一个状态出现的次https://www.zhuanzhi.ai/document/8c25cb38ff7b6a2acc8610b42ff00fdd
12.基于深度强化学习的水面无人艇路径跟踪方法6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。 7.为了解决上述技术问题,本发明采用了如下的技术方案: https://www.xjishu.com/zhuanli/54/202210772926.html/
13.在对齐AI时,为什么在线方法总是优于离线方法?根据人类反馈的强化学习(RLHF)随着大型语言模型(LLM)发展而日渐成为一种用于 AI 对齐的常用框架。不过近段时间,直接偏好优化(DPO)等离线方法异军突起 —— 无需主动式的在线交互,使用离线数据集就能直接对齐 LLM。这类方法的效率很高,也已经得到实证研究的证明。但这也引出了一个关键问题: https://m.thepaper.cn/newsDetail_forward_27434433
14.深度强化学习实战:用OpenAIGym构建智能体全书先简要介绍智能体和学习环境的一些入门知识,概述强化学习和深度强化学习的基本概念和知识点,然后重点介绍 OpenAI Gym 的相关内容,随后在具体的 Gym 环境中运用强化学习算法构建智能体。本书还探讨了这些算法在游戏、自动驾驶领域的应用。本书适合想用 OpenAI Gym 构建智能体的读者阅读,也适合对强化学习和深度强化https://www.epubit.com/bookDetails?id=UB83082546ee4de
15.深度强化学习针对控制的强化学习实践:设计、测试和部署 产品 了解深度强化学习使用的产品。 Reinforcement Learning Toolbox Deep Learning Toolbox Parallel Computing Toolbox Simulink Simscape 30天免费试用 快速入门 有疑问吗? 请与深度强化学习专家交流。 发邮件给我们https://ww2.mathworks.cn/solutions/deep-learning/deep-reinforcement-learning.html
16.机器学习学术速递[7.26]腾讯云开发者社区【1】 Model Selection for Offline Reinforcement Learning: Practical Considerations for Healthcare Settings 标题:离线强化学习的模型选择:医疗设置的实际考虑 作者:Shengpu Tang,Jenna Wiens 机构:Department of Electrical Engineering and Computer Science, University of Michigan, Ann Arbor, MI, USA 备注:33 pahttps://cloud.tencent.com/developer/article/1852823
17.人工智能技术研究人工智能技术创新自动离线强化学习 自动算法选择与动态调参 自动表示学习 样本高效强化学习 环境学习Environment Learning 知识驱动离散环境学习 知识驱动连续环境学习 数据驱动基于ML的环境学习 数据驱动基于因果的环境学习 AI基础架构 系统框架System Architecture 异构计算Heterogeneous Computing https://www.4paradigm.com/about/research.html