让强化学习走出游戏环境——俞扬,2020年CCFIEEE CS青年科学家奖获得者

CCF理事长梅宏教授(左一)、百度校园品牌部总监李轩涯博士(右一)为俞扬教授颁奖

俞扬,2004年获得南京大学计算机系学士学位,2011年在周志华教授的指导下获得南京大学博士学位。研究方向为机器学习,目前主要集中在强化学习理论与应用技术的研究。

启发到本质:从演化学习出发

演化学习的理论基础,是俞扬博士生期间的主要研究方向。演化学习借助启发式的演化算法,来解决机器学习中难以求解的问题,这一类方法在实践上常有较好的结果,但启发式的算法设计容易使得对算法的理解流于表象,难以洞悉算法工作原理的本质。演化学习算法的启发式设计导致分析十分困难,理论长期落后于实践,理论研究的一点进展对应用研究作用不大,难以获得应用领域认可,因此演化学习的理论研究往往是一个不讨巧的方向。

在各种机器学习任务中,强化学习从采样到学习都需要自主完成,长流程导致其学习问题复杂,也使其成为演化学习方法最能有效发挥作用的领域之一。同时,强化学习的设定更加接近生物在自然界中与环境打交道的过程,领域内常自喻是“真正的人工智能”。2011年获得博士学位留校担任专职助理研究员的俞扬深受吸引,开始研究强化学习。

理想到面包:强化学习从冷到热

留校任教后,俞扬希望劝说研究生一同开展强化学习的研究,但强化学习在企业中的应用前景常常引起学生条件反射般的疑问:强化学习有企业要用吗?不幸的是,当时这个问题的回答是否定的,仅凭“真正的人工智能”这一愿景很难打动要找工作的研究生。

另一方面,当时没有企业在使用强化学习技术的现象背后,其实有着充分的理由。强化学习的训练过程需要自主地与环境交互,经历大量的试错,最终找到最优的策略。然而在开放的实际环境中试错会产生代价,甚至发生致命的损失,因此强化学习的研究仅仅停留在游戏环境中——一个几乎没有试错代价的封闭场所。与此同时,仅依赖历史数据的监督学习技术,则在图像识别、预测等应用上大放异彩,各大互联网企业大力投入应用。

虚拟到现实:释放强化学习的力量

演化学习理论研究的经历让俞扬认为,技术领域的研究最终是为了迈向现实。AlphaGo对于人工智能领域发展的一个重要意义在于,许多企业,尤其是互联网头部企业也希望跟进与尝试强化学习技术的应用。

如果能像监督学习技术一样,从现实场景的历史数据中就能学到一个好的决策模型,那么强化学习就能用起来。有了这个想法后,俞扬面前摆着两条技术路径的岔路口,一条是直接在数据上学习策略;一条是首先从数据上学习环境模型,再从环境模型中学习策略。然而以往对于环境模型学习的理论分析显示出,环境模型的误差会导致策略误差平方级增长,学一个好的环境可能比直接学策略还要困难,但是环境学习一旦成功,在策略的泛化能力和应用过程上都具有无可比拟的优势,因此俞扬选择下注环境学习的路径。

2017年与淘宝搜索团队讨论后,俞扬向阿里提交了“虚拟淘宝”项目申请,试图从历史数据中学习出一个有虚拟用户的环境,有了这个环境,便可以实现“0成本”训练强化学习。但项目申请提交后,很快收到了阿里评审专家的质疑:用户行为如此复杂,从未有方法成功模拟,项目能行得通吗?确实,在当时没有任何成功案例,也没有任何信心,但这是俞扬唯一能够预见可行的途径,成功只有这一条路,只能硬着头皮试试看。

在调整了多种环境学习的方案后,有一种方案显示出了可行性:即在AAAI2019发表的MAIL方法,通过环境和智能体的对偶性和对抗学习同时训练环境模型和策略模型。2018年完成了方案的线上验证,实验显示出,在环境模型获得了4%性能提升后,现实业务在A/B测试获得了2%的性能提升。这一结果第一次展示出环境学习途径在真实场景应用的可行性。接下来,在与滴滴出行、菜鸟仓库等多个真实开放场景下,这一技术路径均得到验证,并且也通过场景打磨了算法。

MAIL及其改进方法的成功,还停留在实验验证上,其背后的理论依据尚不清楚。2020年,俞扬和学生的工作证明了MAIL中的对抗成分,首次将以往平方级放大的环境误差减少为线性级,误差可减少100倍以上,论文在NeurIPS2020发表。以往最优秀的算法为了控制误差,而不得不对环境模型的使用加以限制,在新的理论中变得不再需要。

合作到责任:引领国际竞争,推动区域发展

2020年也是强化学习走出游戏环境的启动年,在国际上,DeepMind、Google、Berkeley等机构的学者也把目光放在如何走出游戏环境上,推动“离线强化学习”、“数据驱动强化学习”方向的研究,并建立了测评环境。可以预见在未来几年中,走出游戏环境将成为强化学习领域的主流方向之一。

THE END
1.强化学习在实际环境运用中存在的问题以及解决方案强化学习泛化问题?深度强化学习模型的本质是“试错”式的学习方式。所以强化学习模型在训练的过程中需要大量的交互数据才能学习到有效的策略,体现低样本效率问题。并且在现实环境中,强化学习的应用不同于我们学习该方法时的情况有所不同。相比于在虚拟环境中通过在线交互机制实时获得即时奖励(例如解决走迷宫、摆锤等问题)。智能体与现https://blog.csdn.net/z2036709353/article/details/143321070
2.强化学习与多任务推荐第二阶段,学习 policy 优化播放时长目标,同时满足和第一阶段学习到的 policy 的距离约束。我们在理论上得到了第二阶段问题的最优解并提出新的优化 loss。通过在 KuaiRand 数据集的离线评估和快手 App 在线 A/B 测试,我们证明 TSCAC 显著优于 Pareto 优化以及 State of the Art 约束强化学习算法。TSCAC 算法已https://www.51cto.com/article/772510.html
3.科学网—[转载]强化学习在资源优化领域的应用摘要:资源优化问题广泛存在于社会、经济的运转中,积累了海量的数据,给强化学习技术在这一领域的应用奠定了基础。由于资源优化问题覆盖广泛,从覆盖广泛的资源优化问题中划分出3类重要问题,即资源平衡问题、资源分配问题和装箱问题。并围绕这3类问题总结强化学习技术的最新研究工作,围绕各研究工作的问题建模、智能体设计等https://blog.sciencenet.cn/blog-3472670-1312677.html
4.2020届计算机科学方向毕业设计(论文)阶段性汇报推荐系统与用户进行多步交互的过程可以建模为马尔科夫决策过程并使用强化学习算法训练推荐策略,但在真实的工业界场景中,在线上进行强化学习模型的训练成本极高。本课题希望使用推荐系统与用户交互的历史数据离线训练强化学习算法,并探讨这一模式的问题解决方式。 https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
5.高级工程师个人专业技术工作总结(通用21篇)在工程建设的具体实施过程中,本人认真学习合同,严格遵守合同,对合同中规定质量责任,划分界限,材料设备的采购,图纸设计,工艺使用的认可和批准制度都有较好的贯彻执行。通过研究各方面提出来的与合同实施有关的问题,对涉及到工程进度的有关问题及时提出解决办法并通过监理工程师去实施,必要时对施工手段、施工资源、施工https://www.oh100.com/a/202210/5471479.html
6.强化学习与自动驾驶在电商中的应用主要是利用强化学习去做推荐。 推荐系统涉及到许多强化学习的内容,尤其是如何去学习离线的数据。推荐系统可以通过收集数据,推荐给客户较为满意的商品,以此获得更高的reward。 2. 强化学习问题构建 这部分的内容主要围绕强化学习问题的构建展开。 https://www.jianshu.com/p/be915d014084
7.机器学习探究Q一.AI序列决策问题 AI序列决策问题是指在人工智能领域中,智能体需要在一个序列的环境中做出一系列决策,以达到某个目标或最大化某种累积奖励的问题。这类问题通常涉及到强化学习,其中智能体通过与环境的交互来学习最优的行为策略。 1.序列决策问题的特点: https://developer.aliyun.com/article/1496910
8.强化学习求解组合最优化问题的研究综述[3]刘永娟.基于萤火虫算法的车间调度问题研究与应用[D].2022. [4]刘洋.基于Linux的时间敏感网络CQF整形器的设计与实现[D].2022. [5]张予惟.基于强化学习的不对称信息下展示广告实时竞价研究[D].2022. [6]郝世诚.光伏发电系统MPPT控制方法的研究[D].2022. https://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjkxyts202202002
9.替代离线RL?Transformer进军决策领域,“序列建模”成关键研究者首先研究了如何通过在语言建模框架中提出顺序决策问题来改变对强化学习的观点。虽然强化学习中的传统工作使用了依赖 Bellman 备份的特定框架,但用序列建模来作为替代对轨迹进行建模使其能够使用强大且经过充分研究的架构(如 Transformer)来生成行为。 为了说明这一点,研究者研究了离线强化学习,从固定的数据集上训练https://www.thepaper.cn/newsDetail_forward_13934432
10.强化学习求解组合最优化问题的研究综述计算机科学与探索 Journal of Frontiers of Computer Science and Technology 1673-9418/2022/16(02)-0261-19 doi: 10.3778/j.issn.1673-9418.2107040 强化学习求解组合最优化问题的研究综述 王扬,陈智斌+,吴兆蕊,高远 昆明理工大学 理学院,昆明 650000 + 通信作者 E-mail: chenzhibin311@126.com 摘要:组合最https://engine.scichina.com/doi/pdf/E2EC56036ABD430FAC17BA13DB04FD51
11.强化学习的两大话题之一,仍有极大探索空间探索VS 利用,这是强化学习中至关重要的话题。我们希望强化学习中的智能体尽快找到最佳策略。然而,在没有充分探索的情况下就盲目地选择某个策略会带来一定的问题,因为这会导致模型陷入局部最优甚至完全不收敛。目前的强化学习算法朝着回报值最大化的方向优化,而探索仍然更像是一个开放性话题。 https://www.zhuanzhi.ai/document/943c26fdef26d9c1c660b9ee8367c1a3
12.实践活动总结20篇三、认真学习,强化党员宗旨意识 xx党总支全体党员干部,特别是副处级以上领导干部坚持理论与实际相结合、集中学习与个人自学相结合、讨论交流与调查研究相结合、对照学习与查摆问题相结合的方式,对党的十八大报告、《党章》、十二届全国人大一次会议上的讲话、党的十八届中央纪委二次全会上的讲话、党的十八届二中全会第https://www.jy135.com/huodongzongjie/1115952.html
13.基于深度强化学习的水面无人艇路径跟踪方法6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。 7.为了解决上述技术问题,本发明采用了如下的技术方案: https://www.xjishu.com/zhuanli/54/202210772926.html/
14.强化学习(一)入门介绍腾讯云开发者社区本讲将对强化学习做一个整体的简单介绍和概念引出,包括什么是强化学习,强化学习要解决什么问题,有一些什么方法。一、强化学习强化学习(Reinforcement Learning, RL)又称为增强学习、评价学习等,和深度学习一样是机器学习的一种范式和方法论之一,智能体从一系列随机的操作开始,与环境进行交互,不断尝试并从错误中进行学https://cloud.tencent.com/developer/article/1707034