让强化学习走出游戏环境——俞扬,2020年CCFIEEE CS青年科学家奖获得者

CCF理事长梅宏教授(左一)、百度校园品牌部总监李轩涯博士(右一)为俞扬教授颁奖

俞扬,2004年获得南京大学计算机系学士学位,2011年在周志华教授的指导下获得南京大学博士学位。研究方向为机器学习,目前主要集中在强化学习理论与应用技术的研究。

启发到本质:从演化学习出发

演化学习的理论基础,是俞扬博士生期间的主要研究方向。演化学习借助启发式的演化算法,来解决机器学习中难以求解的问题,这一类方法在实践上常有较好的结果,但启发式的算法设计容易使得对算法的理解流于表象,难以洞悉算法工作原理的本质。演化学习算法的启发式设计导致分析十分困难,理论长期落后于实践,理论研究的一点进展对应用研究作用不大,难以获得应用领域认可,因此演化学习的理论研究往往是一个不讨巧的方向。

在各种机器学习任务中,强化学习从采样到学习都需要自主完成,长流程导致其学习问题复杂,也使其成为演化学习方法最能有效发挥作用的领域之一。同时,强化学习的设定更加接近生物在自然界中与环境打交道的过程,领域内常自喻是“真正的人工智能”。2011年获得博士学位留校担任专职助理研究员的俞扬深受吸引,开始研究强化学习。

理想到面包:强化学习从冷到热

留校任教后,俞扬希望劝说研究生一同开展强化学习的研究,但强化学习在企业中的应用前景常常引起学生条件反射般的疑问:强化学习有企业要用吗?不幸的是,当时这个问题的回答是否定的,仅凭“真正的人工智能”这一愿景很难打动要找工作的研究生。

另一方面,当时没有企业在使用强化学习技术的现象背后,其实有着充分的理由。强化学习的训练过程需要自主地与环境交互,经历大量的试错,最终找到最优的策略。然而在开放的实际环境中试错会产生代价,甚至发生致命的损失,因此强化学习的研究仅仅停留在游戏环境中——一个几乎没有试错代价的封闭场所。与此同时,仅依赖历史数据的监督学习技术,则在图像识别、预测等应用上大放异彩,各大互联网企业大力投入应用。

虚拟到现实:释放强化学习的力量

演化学习理论研究的经历让俞扬认为,技术领域的研究最终是为了迈向现实。AlphaGo对于人工智能领域发展的一个重要意义在于,许多企业,尤其是互联网头部企业也希望跟进与尝试强化学习技术的应用。

如果能像监督学习技术一样,从现实场景的历史数据中就能学到一个好的决策模型,那么强化学习就能用起来。有了这个想法后,俞扬面前摆着两条技术路径的岔路口,一条是直接在数据上学习策略;一条是首先从数据上学习环境模型,再从环境模型中学习策略。然而以往对于环境模型学习的理论分析显示出,环境模型的误差会导致策略误差平方级增长,学一个好的环境可能比直接学策略还要困难,但是环境学习一旦成功,在策略的泛化能力和应用过程上都具有无可比拟的优势,因此俞扬选择下注环境学习的路径。

2017年与淘宝搜索团队讨论后,俞扬向阿里提交了“虚拟淘宝”项目申请,试图从历史数据中学习出一个有虚拟用户的环境,有了这个环境,便可以实现“0成本”训练强化学习。但项目申请提交后,很快收到了阿里评审专家的质疑:用户行为如此复杂,从未有方法成功模拟,项目能行得通吗?确实,在当时没有任何成功案例,也没有任何信心,但这是俞扬唯一能够预见可行的途径,成功只有这一条路,只能硬着头皮试试看。

在调整了多种环境学习的方案后,有一种方案显示出了可行性:即在AAAI2019发表的MAIL方法,通过环境和智能体的对偶性和对抗学习同时训练环境模型和策略模型。2018年完成了方案的线上验证,实验显示出,在环境模型获得了4%性能提升后,现实业务在A/B测试获得了2%的性能提升。这一结果第一次展示出环境学习途径在真实场景应用的可行性。接下来,在与滴滴出行、菜鸟仓库等多个真实开放场景下,这一技术路径均得到验证,并且也通过场景打磨了算法。

MAIL及其改进方法的成功,还停留在实验验证上,其背后的理论依据尚不清楚。2020年,俞扬和学生的工作证明了MAIL中的对抗成分,首次将以往平方级放大的环境误差减少为线性级,误差可减少100倍以上,论文在NeurIPS2020发表。以往最优秀的算法为了控制误差,而不得不对环境模型的使用加以限制,在新的理论中变得不再需要。

合作到责任:引领国际竞争,推动区域发展

2020年也是强化学习走出游戏环境的启动年,在国际上,DeepMind、Google、Berkeley等机构的学者也把目光放在如何走出游戏环境上,推动“离线强化学习”、“数据驱动强化学习”方向的研究,并建立了测评环境。可以预见在未来几年中,走出游戏环境将成为强化学习领域的主流方向之一。

THE END
1.机器学习中的优化与正则化:深入理解L1和L2正则化这篇文章我们将探讨机器学习中两个核心议题——优化和正则化。 其中,正则化是减少过拟合的关键方法之一。在本文中,我们将从拉格朗日乘数法、权重衰减以及贝叶斯概率三个角度来解析L1和L2正则化,并解释它们如何帮助我们改善模型性能。 正则化的概念及其重要性 https://www.jianshu.com/p/3139940a9807
2.MindSporeQ:MindSpore的IR设计理念是什么? A:函数式:一切皆函数,易于微分实现;无副作用,易于实现自动并行化分析;JIT编译能力:图形IR,控制流依赖和数据流合一,平衡通用性/易用性;图灵完备的IR:更多的转换Python灵活语法,包括递归等。 Q:MindSpore会出强化学习框架么? http://mindspore.cn/doc/faq/zh-CN/r1.2/supported_features.html
3.2020届计算机科学方向毕业设计(论文)阶段性汇报推荐系统与用户进行多步交互的过程可以建模为马尔科夫决策过程并使用强化学习算法训练推荐策略,但在真实的工业界场景中,在线上进行强化学习模型的训练成本极高。本课题希望使用推荐系统与用户交互的历史数据离线训练强化学习算法,并探讨这一模式的问题解决方式。 https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
4.对于强化学习的梳理强化学习可以不用神经网络吗强化学习是属于机器学习的一种,机器学习主要分监督学习、非监督学习、半监督学习、增强学习。 强化学习的核心逻辑,那就是智能体(Agent)可以在环境(Environment)中根据奖励(Reward)的不同来判断自己在什么状态(State)下采用什么行动(Action),从而最大限度地提高累积奖励。 https://blog.csdn.net/qq_38169383/article/details/105902333
5.详解经典强化学习算法,搞定“阿尔法狗”下围棋在线策略方法和离线策略方法依据策略学习的方式对强化学习算法进行划分(图5)。 图5 在线策略方法和离线策略方法 在线策略方法试图评估并提升和环境交互生成数据的策略,而离线策略方法评估和提升的策略与生成数据的策略是不同的。 这表明在线策略方法要求智能体与环境交互的策略和要提升的策略必须是相同的。 https://cloud.tencent.com/developer/article/2280864
6.驱动力优化(精选十篇)作为教师,不仅应该在学生回答正确问题的时候对其进行鼓励,还应该对其良好的学习态度、敢于回答问题的勇气进行鼓励,让每位同学都能从教师的鼓励中找到学习的动力,体验成功的愉悦。教师也会因为对学生的正面激励,在学生心中留下好的印象,从侧面提高学生对英语学科的学习热情。 https://www.360wenmi.com/f/cnkeyymau1xw.html
7.项目管理课程设计总结赏析八篇创新理论中RTC算子,即资源(Resources)、时间(Time)、成本(Cost)算子,它是将资源、时间和成本因素进行一系列变化的思维试验。创新理论给出的思考问题的方法不是僵化的、静止的,也不是盲目的、漫无边际的,而是力求揭示事物的本质、因果、联系、整体和局部、过去和未来,同时又是灵活的、富有想象力的,这些都是创新思维https://fzkxyj.fabiao.com/haowen/12505.html
8.FEM前沿研究:智能工业数据解析与优化—论文—科学网通过机器学习、数理学习、信息学习、强化学习等数据解析技术,对系统优化过程进行动态解析,挖掘优化空间结构特征和寻优路径对优化目标的影响规律等,实现优化空间的可视化,用于指导解空间的降维和寻优路径的自学习。将数据解析引入到系统优化方法中能够显著提高优化的效率,为解决大规模实际复杂工程管理难题提供有效的优化求解https://news.sciencenet.cn/htmlpaper/2021/7/20217151683757164957.shtm
9.识别过程范文9篇(全文)用精益理论来分析,首先需要识别出不同客户群体所关注的人才价值;然后围绕这些人才价值,来识别核心的价值流;消除人才培养过程中由于价值不清、目标不明导致的时间浪费、所学知识与社会脱节、学习效率低下等各种系统浪费;进而能让价值连续流动,大学生四年学习过程中,学校应该整合资源,在不同阶段,连续不断的提供相应的https://www.99xueshu.com/w/ikeyoefsbpd0.html
10.AI求职百题斩2019深度学习面试题型介绍及解析汇总合集有些平台是专门为深度学习研究和应用进行开发的,有些平台对分布式计算、GPU 等构架都有强大的优化,能否用这些平台 / 软件做其他事情?比如有些深度学习软件是可以用来求解二次型优化;有些深度学习平台很容易被扩展,被运用在强化学习的应用中。 CNN 中术语解释 CNN 网络的主要参数有下面这么几个: https://paper.yanxishe.com/blogDetail/14696
11.什么是自动泊车系统?自动泊车路径规划和跟踪技术分析离线阶段算法pipeline 先来粗略浏览下AVM算法Pipeline包含那些算子: 2D AVM 2D AVM Pipeline 3D AVM 3D AVM Pipeline 基于畸变表的鱼眼相机去畸变 1.1鱼眼相机畸变模型 普通相机和广角相机的投影方式一般为透视投影,即通过三角形相似原理,将相机坐标系下三维世界中的物体投影到平面上,这是基于理想的透视投影模型(无畸变https://m.elecfans.com/article/2020392.html
12.生成式问答中减轻幻觉;浅谈cudagraph在llm推理中的应用为了克服这些问题,公司探索了数据驱动的离线强化学习路径,通过历史数据构建虚拟环境,减少对仿真的依赖,从而降低智能化改造的门槛。目前,公司推出了离线强化学习平台“仙启(REVIVE)”,在多个领域实现了突破,如L3级城市水务智能化方案和高精尖设备的制造控制等,显著提升了控制精度和稳定性。http://news.miracleplus.com/share_link/38892
13.机器学习20231摘要:尽管目标驱动导航已经有了一些成功的应用,但是现有的基于深度强化学习的方法仍然存在数据效率低的问题.原因之一是目标信息与感知模块解耦并直接作为决策条件引入,导致场景表示的目标无关特征在学习过程中扮演对手角色。针对这一问题,提出了一种新的目标引导的基于变换的强化学习(GTRL)方法,将目标物理状态作为场景编码http://arxivdaily.com/thread/36165