ADL120《深度强化学习》开始报名

本期CCF学科前沿讲习班《深度强化学习》,邀请到了本领域10位来自于著名高校与企业的重量级专家学者做主题报告。他们将对强化学习多个方面的最新进展进行深入浅出的讲解,对强化学习的基础算法、深度强化学习算法、多智能体强化学习、基于强化学习的博弈、强化学习训练系统、以及强化学习在机器人和共享出行中的应用进行系统性介绍,帮助学员理解强化学习任务的基本概念,主要思想,以及面临的挑战,掌握该领域包括单智能体、多智能体和博弈强化学习的一系列前沿技术,并通过实际案例了解强化学习的应用前景,开阔科研视野,增强实践能力。

学术主任:俞扬南京大学

主办单位:中国计算机学会

活动日程:

2021年10月15日(周五)

8:50-9:00

开班仪式

9:00-9:15

全体合影

9:15-10:45

专题讲座1:强化学习的特征表示与算法设计

徐昕国防科技大学

10:45-11:00

休息

11:00-12:30

专题讲座2:智能决策与多智能体强化学习

高阳南京大学

12:30-14:00

午餐

14:00-15:30

专题讲座3:从捉迷藏游戏谈起(TheHide-and-SeekGameandBeyond)

吴翼清华大学

15:30-15:45

15:45-17:15

专题讲座4:单智能体强化学习

章宗长南京大学

2021年10月16日(周六)

9:00-12:15(中间休息15分钟)

专题讲座5:基于模型的强化学习

张伟楠上海交通大学

12:15-13:30

13:30-16:45

(中间休息15分钟)

专题讲座6:多智能体深度强化学习

张崇洁清华大学

2021年10月17日(周日)

9:00-10:30

专题讲座7:智能体的博弈与强化学习

张海峰中科院自动化所

10:30-10:45

10:45-12:15

专题讲座8:机器人强化学习的理论、挑战和应用

吴锋中国科技大学

13:30-15:00

专题讲座9:大规模深度强化学习训练系统:从单智能体到多智能体

温颖上海交通大学

15:00-15:15

15:15-16:45

专题讲座10:强化学习在共享出行中的应用

Zhiwei(Tony)Qin滴滴AILabs

16:45-17:00

小结

特邀讲者:

报告题目:强化学习的特征表示与算法设计

报告摘要:报告分析了强化学习在求解大规模序贯优化决策问题时面临的理论和技术难点,阐述了强化学习在特征表示理论和方法方面的主要研究思路和进展,包括线性特征构造、流形特征学习、深度特征学习等,结合不同的特征表示和学习问题,介绍和讨论了强化学习算法设计的研究进展,包括TD学习预测、值迭代、策略迭代和Actor-Critic算法等。最后对有关应用和发展趋势进行了介绍和分析。

报告题目:智能决策与多智能体强化学习

报告摘要:序贯决策与协同决策是智能决策的关键问题,而多智能体强化学习是解决“序贯+协同决策”的主要技术。本报告从机器学习、博弈论两个维度介绍了多智能体强化学习技术的特点。同时,汇报课题组在博弈约简、均衡迁移、分布式博弈等方面的研究进展。最后,总结多智能体强化学习范式目前存在的挑战。

讲者简介:吴翼,清华大学交叉信息研究院助理教授,2019年于加州大学伯克利分校获得博士学位,曾任OpenAI多智能体团队研究员。2014年本科毕业于清华大学交叉信息研究院计算机科学实验班。研究方向为深度强化学习与多智能体强化学习,代表作包括OpenAIHide-and-SeekProject,MADDPG算法,ValueIterationNetwork等,曾获NIPS2016最佳论文奖。

报告题目:从捉迷藏游戏谈起(TheHide-and-SeekGameandBeyond)

报告摘要:通过开放的物理模拟器,和简单捉迷藏游戏规则,我们发现通过多智能体深度强化学习,可以让智能体通过自我对抗和博弈,逐渐学会6种,不同的人类可以理解的,套路和反套路。通过捉迷藏游戏的展示和分析,我们总结了多智能体深度强化学习的特点和潜在的缺陷,也提出了诸多的待解决的开放问题。对于其中的一些开放问题,我们也进行了进一步的研究,并尝试用新的学习算法和框架来尝试解决这些开放挑战。

报告题目:单智能体强化学习

报告题目:基于模型的强化学习

报告题目:多智能体深度强化学习

报告摘要:Duetothecomplexandcombinatorialnatureofreal-worldapplications,deepreinforcementlearningisshiftingfromsingle-agenttomulti-agentsettings.Thistutorialwillfocusoncooperativemulti-agentreinforcementlearning(MARL).Wewillfirstdescribeitsunderlyingmodelformulti-agentdecision-makingunderuncertainty,calledDecentralizedPartiallyObservableMarkovDecisionProcesses(Dec-POMDPs),anddiscusschallengesincooperativeMARL,includingscalability,creditassignment,uncertainty,diversity,andexploration.WewillthenintroduceapopularparadigmofcentralizedtrainingwithdecentralizedexecutionandpresentfactorizedMARLmethods,includinglinearandnon-linearvaluefactorization,toaddressthescalabilityandcreditassignmentofMARLchallenges.Finally,wediscusssomeextensionsoffactorizedMARLmethodstoaddressotherMARLchallenges.

讲者简介:张海峰,中国科学院自动化研究所副研究员。于北京大学计算机系获得本科、博士学位,曾在英国伦敦大学学院(UCL)从事博士后研究工作。致力于多智能体和强化学习的学术研究和平台研发工作,研究兴趣包括智能体策略评估、多智能体强化学习算法等,研究成果发表在ICML、IJCAI、AAAI、AAMAS、WSDM、CIKM、《软件学报》等国内外知名学术会议、期刊;负责研发的平台包括北京大学Botzone智能体博弈系统(www.botzone.org.cn)和中科院自动化所“及第”多智能体开源开放平台(www.jidiai.cn),并举办“IJCAI中国麻将智能体竞赛”、“RLChina智能体挑战赛”等智能体竞赛。

报告题目:智能体的博弈与强化学习

报告题目:机器人强化学习的理论、挑战和应用

报告题目:大规模深度强化学习训练系统:从单智能体到多智能体

讲者简介:

秦志伟(Tony)博士,业界决策智能专家,致力于网约车交易市场中核心策略优化的研究。他从美国哥伦比亚大学获得运筹学博士,曾在沃尔玛全球电子商务任职研究科学家,近几年主要聚焦在强化学习及其在运筹优化,智能交通,在线营销上的应用。他在机器学习,数据挖掘和运筹优化的顶级会议和期刊发表近30篇论文,并是多个会议和期刊(NeurIPS,ICML,KDD,AAAI,TR-C,TransportationScience等)的评审专家。他带领团队获得了INFORMS2019年DanielH.WagnerPrize(运筹学杰出应用奖),并入选NeurIPS2018BestDemoAwards。Tony拥有10多项美国专利,涵盖智慧交通,供应链管理,和推荐系统。

报告题目:强化学习在共享出行中的应用

报告摘要:

俞扬,博士,南京大学教授,国家万人计划青年拔尖人才。主要研究领域为机器学习、强化学习,专注于开放环境强化学习的理论、技术、与落地应用。获2020CCF-IEEE“青年科学家奖”,入选2018年IEEEIntelligentSystems杂志评选的“国际人工智能10大新星”,获2018亚太数据挖掘"青年成就奖”,受邀在IJCAI’18作关于强化学习的"青年亮点"报告。获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。

地点:北京中国科学院计算技术研究所一层报告厅(北京市海淀区中关村科学院南路6号)

THE END
1.什么是人工智能领域的ReinforcementLearning在详细讲解强化学习(Reinforcement Learning,简称 RL)之前,让我们明确一件事:强化学习是机器学习的一个重要分支,它关注于如何让智能体(agent)通过与环境(environment)的交互来学习最优策略,以实现某种目标的最大化。这个学习过程涉及智能体在环境中采取行动,然后从环境中接收反馈(奖励或惩罚),以此来调整其行为。 https://open.alipay.com/portal/forum/post/159101016
2.学习笔记在线强化学习离线强化学习连续强化学习的区别(4)总结来说,在线强化学习是实时与环境交互进行学习,离线强化学习是使用预先收集的数据集进行学习,而连续强化学习则是处理连续状态和动作空间的学习问题。 研究重点 1. 在线强化学习(Online Reinforcement Learning): - 探索与利用的平衡:在线学习中,智能体需要在探索新行动和利用已知信息之间取得平衡。研究者关注如何设计有https://blog.csdn.net/hzlalb/article/details/136870080
3.强化学习的基本概念强化学习是机器学习领域的一个分支,通过不断的与环境交互,不断的积累经验,最后让Agent学会如何在目标环境中取得最高的得分。在本篇文章中,笔者将介绍一些强化学习的基础知识,文https://www.jianshu.com/p/28625d3a60e6
4.请问强化学习的offpolicy/on而Online learning 实际上有两种含义,在两种意义下都和强化学习有关系,但是和on/off policy的概念没https://www.zhihu.com/question/312824554/answer/603466661
5.离线在线强化学习方法研究学位摘要:强化学习作为人工智能的重要分支,在智能决策与智能控制领域具有广阔的应用前景。强化学习可以分为在线强化学习和离线强化学习,其中,在线强化学习通过边交互边学习的方式,不断优化智能体的策略,但是这种方法需要耗费昂贵的交互成本和承担交互风险。离线强化学习则是使用固定的经验数据集进行训练。因此,离线强化学习可以https://d.wanfangdata.com.cn/thesis/D03195458
6.离线强化学习因此,离线强化学习(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。离线强化学习和在线策略算法、离线策略算法的区别如图 18-1 所示。图18-1 离线强化学习和在线策略算法、离线策略算法的区别https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
7.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型,在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。本文尝试列举一些常见的原因,为大家排查问题提供一点思路。1.离线、在线特征不一致离线https://blog.51cto.com/u_14499/11815202
8.科学网—[转载]强化学习在资源优化领域的应用强化学习在资源优化领域的应用王金予, 魏欣然, 石文磊, 张佳微软亚洲研究院,北京 100080 摘要:资源优化问题广泛存在于社会、经 ,科学网https://blog.sciencenet.cn/blog-3472670-1312677.html
9.AIR学术李升波:将强化学习用于自动驾驶:技术挑战与发展趋势或使用模型,或使用预先采集的数据,先离线训练一个最优策略,然后部署到自动驾驶汽车,实现在线控制应用。第二,同时训练和应用策略,即SOTI方法:这是利用强化学习的探索试错机制,通过在线探索环境产生数据,实现自动驾驶策略的在线自我更新。这类方法要求强化学习算法必须进行在线部署,从而进行在线地探索和在线地训练。https://air.tsinghua.edu.cn/info/1008/1323.htm
10.具身智能与强化学习前沿进展2023智源大会精彩回顾导读今年是具身智能值得纪念的一年,从谷歌发布具身多模态大模型,展示了智能体与环境智能交互的能力;再到特斯拉的人形机器人引发人们对具身智能和未来通用机器人的想象。那么,具身智能究竟“走”到哪里了?在2023北京智源大会“具身智能与强化学习”论坛中,我们邀请了领https://view.inews.qq.com/k/20230620A098UV00?no-redirect=1&web_channel=wap&openApp=false
11.深度强化学习使用MATLAB 和 Simulink 将深度强化学习应用于控制和决策应用。https://ww2.mathworks.cn/solutions/deep-learning/deep-reinforcement-learning.html
12.ICLR上新强化学习扩散模型多模态语言模型,你想了解的前沿本周,全球最负盛名的人工智能盛会之一 ICLR 大会将在奥地利维也纳举办。所以,今天的“科研上新”将为大家带来多篇微软亚洲研究院在 ICLR 2024 上的精选论文解读,涉及领域涵盖深度强化学习、多模态语言模型、时间序列扩散模型、无监督学习等多个前沿主题。 https://www.msra.cn/zh-cn/news/features/new-arrival-in-research-11
13.强化学习路径规划是离线的还是在线的离线。强化学习是机器学习领域中的一个分支,运动规划由路径规划和轨迹规划组成,强化学习路径规划是离线的,离线学习的目的是从离线数据中获得一个奖励最大化的RL策略。https://zhidao.baidu.com/question/1714100022221076420.html
14.基于深度强化学习的水面无人艇路径跟踪方法6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。 7.为了解决上述技术问题,本发明采用了如下的技术方案: https://www.xjishu.com/zhuanli/54/202210772926.html/
15.大语言模型的拐杖——RLHF基于人类反馈的强化学习强化学习从人类反馈(RLHF)是一种先进的AI系统训练方法,它将强化学习与人类反馈相结合。它是一种通过将人类训练师的智慧和经验纳入模型训练过程中,创建更健壮的学习过程的方法。该技术涉及使用人类反馈创建奖励信号,然后通过强化学习来改善模型的行为。http://wehelpwin.com/article/4042
16.强化学习的10个现实应用通过强化学习,金融贸易不再像从前那样由分析师做出每一个决策,真正实现机器的自动决策。例如,IBM构建有一个强大的、面向金融交易的强化学习平台,该平台根据每一笔金融交易的损失或利润来调整奖励函数。 Reinforcement Learning in NLP (Natural Language Processing) https://www.flyai.com/article/750
17.强化学习(一)入门介绍腾讯云开发者社区本讲将对强化学习做一个整体的简单介绍和概念引出,包括什么是强化学习,强化学习要解决什么问题,有一些什么方法。一、强化学习强化学习(Reinforcement Learning, RL)又称为增强学习、评价学习等,和深度学习一样是机器学习的一种范式和方法论之一,智能体从一系列随机https://cloud.tencent.com/developer/article/1707034
18.「数字天空科技招聘」数字天空科技怎么样?数字天空科技 · 强化学习算法研究员 影响力129 访客993四川成都 个人简介 游戏行业研发,任职数字天空科技强化学习算法研究员职位,常驻四川;近期有993位访问者,在脉脉形成影响力129;在2020-6至今,任数字天空科技公司强化学习算法研究员职位;在2019-5至2020-6,任字节跳动公司iOS开发工程师职位;在2018-8至2018-10,.https://maimai.cn/brand/home/1ahq1EPmY