强化学习(ReinforcementLearning,RL)是实现强人工智能的方法之一,在智能体(Agent)与环境的交互过程中,通过学习策略(Policy)以最大化回报或实现特定的目标。在实际应用场景中,RL面临一个重要的问题:agent无法得到足够多的、有效的奖励(Reward),或者说agent得到的是稀疏奖励(SparseReward),进而导致agent学习缓慢甚至无法进行有效学习。
人类在日常生活中其实每天能够收获的奖励很少,但是也在持续的学习,改进自己的知识和能力,我们当然希望agent也能如此,也能够在得到稀疏奖励的情况下持续的进行有益的学习。本文重点探讨的就是在存在稀疏奖励的情况下引导agent继续学习或探索的强化学习问题。
目前解决稀疏奖励下的强化学习主要有两类方法:一是,利用数据改进agent的学习,包括已有数据、外部数据等;二是,改进模型,提升模型在大状态、大动作空间下处理复杂问题的能力。具体的,利用数据改进agent学习的方法包括好奇心驱动(CuriosityDriven)、奖励重塑(RewardShaping)、模仿学习(ImitationLearning)、课程学习(CurriculumLearning)等等。改进模型的方法主要是执行分层强化学习(HierarchicalReinforcementLearning),使用多层次的结构分别学习不同层次的策略来提高模型解决复杂问题的能力,以及元学习(Meta-Learning)的方法。
一、利用数据改进agent的学习
1.好奇心驱动(CuriosityDriven)
论文:EpisodicCuriositythroughReachability
本文是Google、Deepmind和苏黎世联邦理工学院的研究人员提出「好奇心驱动」的强化学习新方法,发表在ICLR2019中。该方法改变了agent「好奇心」的生成方式和奖励机制,将agent对环境信息观察的记忆信息引入奖励机制中,有效降低了agent「原地兜圈」、「拖延」等不良行为,提升了强化学习模型的性能。
本文引入「好奇心(Curiosity)」的基本思路是:只对那些需要花费一定努力才能达到的结果给予奖励(这部分结果一定是在已经探索过的环境部分之外)。以探索环境所需要的步骤数量来衡量这些努力。为了估计步骤数量,本文训练了一个神经网络近似器:给定两个观测值,预测将它们分开需要执行多少步。图1给出了通过可达性(Reachability)来说明行动的新颖性(Novelty)的概念。图中的节点是观测值,边是可能的转换。蓝色的节点已经在记忆内存中,绿色的节点可以在k=2步内从记忆内存中到达(不新颖),橙色的节点距离较远—需要超过k步才能到达(新颖)。
本文方法的工作原理如下。Agent在一个周期(Episode)开始时从一个空的记忆内存开始,在每一步都将当前观察结果与记忆中的观察结果进行比较,以通过可达性来确定新颖性。如果当前观察确实是新颖的,即从记忆中的观察到达到阈值需要更多的步骤,则agent会奖励自己并将当前观察添加到记忆内存中。这个过程一直持续到当前周期结束,且将内存清空。
图1.通过可达性来定义新颖性
1.1周期好奇性(EpisodicCuriosity)
在存在稀疏奖励r_t的情况下,本文引入一个周期好奇性(EpisodicCuriosity,EC)模块。EC模块的目的是在生成奖励r_t的同时生成一个奖励红利:b,从而得到增强奖励:
从RL的角度分析,该增强奖励是一个密集奖励(DenseReward)。在这样的密集奖励下学习,速度更快、更稳定,往往能获得更好的最终任务累积奖励S。
EC模块的输入是当前的环境o,输出为奖励红利b。EC模块包括参数组件和非参数组件。其中,参数组件包括一个嵌入网络E和一个比较网络C。E和C同时训练以预测可达网络,具体见图2。
图2.左:可达(R)网络架构。右图:R网络内部结构。R网络是根据agent在行动中遇到的一系列观察结果进行训练的。
此外,图2中的EC模块中还包括两个非参数组件:一个周期性一个记忆缓冲区M和一个奖励红利估计函数B。完整的EC模块见图3。该模块将当前的观测值作为输入,并计算出一个奖励红利。对于新的观测值,该奖励红利会更高。这个红利随后与任务奖励相加,用于训练RL的agent。
图3.利用EC模块进行奖励红利计算
嵌入网络和比较器网络(Embeddingandcomparatornetworks)。这两个网络被设计成共同作用于估计一个观测值o_i从另一个观测值o_j作为可达性网络的一部分的在k步内可到达的情况:
R网络是一个用逻辑回归来作为训练损失(logisticregressionlost)的分类器网络:如果两个观测值在k步内可以相互到达的概率低,它预测的值接近于0。当这个概率高时,它预测的值接近于1。在周期好奇性里面,这两个网络是分开使用的,以节省计算和内存。
周期性记忆(Episodicmemory)。记忆缓冲区M存储了使用嵌入网络E计算得到的当前事件中过去观测值的嵌入,记忆缓冲区的容量K有限,以避免内存和性能问题。每一个计算步骤中,当前观察的嵌入可能会被添加到内存中。超出容量时怎么办?作者发现一个在实践中行之有效的解决方案是用当前元素替换内存中的随机元素。这样一来,内存中的新元素仍然比旧元素多,但旧元素并没有被完全忽略。
在计算红利的算法中,比较器网络使用下列数值填充可达性缓冲区:
其中,e是记忆缓存中的嵌入值。然后,从可达性缓冲区计算出内存缓冲区和当前嵌入的相似度分数为:
其中,F为聚合函数。理论上,F=max是一个很好的选择,然而,在实践中,它很容易出现来自参数嵌入和比较器网络的离群值。本文发现以90%作为最大值的稳健替代效果很好。
计算好奇性红利如下:
其中,参数α的选择取决于任务奖励的尺度,参数β决定了奖励信号,一般β=0.5适合于固定周期,β=1适合于周期长度变化的场景。
当计算得到的红利b大于预先确定的阈值,将b增加到内存中。引入阈值检查的原因是,如果每一个观测嵌入都被添加到内存缓冲区,那么当前步骤的观测总是可以从上一步到达。因此,奖励将永远不会被授予。最后,本文还探索了训练可达性网络的两种设置:使用随机策略和与任务解决策略一起使用(在线训练)。
1.2实验分析
本文在不同的环境中验证了所提出的方法,包括VizDoom,DMLab和MuJoCo。VizDoom中的实验验证了本文能够正确复现之前最先进的好奇心方法ICM(Pathak等人,2017)[1]。DMLab中的实验能够广泛测试本文方法的泛化性能以及其它基线算法—DMLab提供了方便的程序级生成功能,使作者能够在数百个级别上训练和测试RL方法。最后,在MuJoCo中的实验展示了本文方法的通用性。三种环境下的任务见图4。
图4.实验中考虑的任务实例。(a)VizDoom静态迷宫目标,(b)DMLab随机迷宫目标,(c)DMLab钥匙门谜题,(d)MuJoCo第一人称视角的好奇心蚂蚁运动。
图5.任务奖励作为VizDoom任务训练步骤的函数(越高越好)。
图5给出了将任务奖励作为VizDoom任务训练步骤的函数变化曲线。通过分析,作者得出以下几点结论。首先,本文对PPO+ICM基线算法的复现是正确的,结果符合文献[4]。其次,本文方法在最终性能上与PPO+ICM基线不相上下,三个子任务的成功率都很快达到100%。最后,在收敛速度方面,本文算法明显快于PPO+ICM—本文方法达到100%成功率与PPO+ICM相比至少快2倍。
图6.任务奖励作为DMLab任务训练步骤的函数(越高越好)。
作者发现,即使对于普通的PPO算法来说,标准任务「Sparse」其实也是相对容易完成的。原因是agent的起点和目标在地图上的采样是相互独立的,例如有时两者恰好在同一个房间,这就简化了任务。由图6,在使用20M4重复步数的相同环境交互的情况下,本文方法在三个环境中的表现都优于基线方法PPO+ICM。「Sparse」环境相对简单,所有方法都能合理的完成目标任务。在「VerySparse」和「Sparse+Doors」的环境下,本文方法相对于PPO和PPO+ICM的优势更加明显。
在MuJoCo实验中,通过引入EC模块,MuJoCo蚂蚁学会了基于第一人称视角的好奇心移动。标准的MuJoCo环境是一个带有统一或重复纹理的平面—没有什么视觉上的好奇心。为了解决这个问题,作者将400x400的地板铺成4x4大小的方块。每个周期开始时,都会从一组190个纹理中随机分配一个纹理给每块方块。蚂蚁在400x400的地板的中间的200x200的范围内随机初始化一个位置。一个周期持续1000步。如果蚂蚁质量中心的z坐标高于1.0或低于0.2,则周期提前结束(即满足标准终止条件)。为了计算好奇心奖励,作者只使用安装在蚂蚁上的第一人称视角摄像头(这样就可以使用与VizDoom和DMLab中相同架构的好奇心模块)。
此外,作者还进行了一个实验,任务奖励极其稀少--称之为「EscapeCircle」。奖励的发放方式如下:在半径为10的圆圈内奖励为0,从10开始,每当agent通过半径为10+0.5k的同心圆时,给予一次性奖励1。最终的实验结果见表1。本文方法明显优于基线(优于最佳基线10倍)。
表1.MuJoCo蚂蚁学习运动
2.奖励重塑(RewardShaping)
论文:Reward-FreeExplorationforReinforcementLearning
2.1算法分析
本文提出的方法包括如下步骤:(1)学习到一个策略ψ,允许以合理的概率访问所有「重要」的状态;(2)通过执行策略ψ收集到足够多的数据;(3)使用收集到的数据计算经验转移矩阵;(4)对于每个奖励函数r,利用转移矩阵和奖励r激活规划算法找到近似最优的策略。其中,探索阶段执行前两个步骤,规划求解阶段执行后两个步骤。
探索的目标是访问所有可能的状态,以便agent能够收集足够的信息,以便最终找到最优策略。然而,在马尔可夫决策过程(Markovdecisionprocess,MDP)中,无论agent采取何种策略,都有可能出现某些状态很难达到的情况。首先,图1给出了「重要」状态的概念。图1中共5个状态,s0为初始状态。agent仅能从s0迁移到其它状态,无论agent采取什么动作其它状态都会消失,也就是都会产生状态转移。对于状态s0,使用蓝色箭头表示如果采取a1行动时的过渡,用红色箭头表示如果采取a2行动时的过渡。行动后箭头上的数字是过渡概率。在这个例子中,s4是不重要的,因为它永远不可能达到。
图1.重要状态示意图
3.模仿学习(ImitationLearning)
论文:SQIL:ImitationLearningviaReinforcementLearningwithSparseRewards
本文是对强化学习中行为克隆(BehavioralCloning,BC)方法的改进,最新接收于ICLR2020。本文使用了一个简单、稳定的奖励:将与示范状态下的示范动作相匹配的动作奖励+1,而其它动作奖励为0,引入Soft-Q-Learning算法,提出了适用于高维、连续、动态环境的模仿学习算法。
基于行为克隆的标准方法是利用监督学习来贪婪地模仿演示的动作,而不推理动作的后果。由此产生的复合错误可能会导致agent逐渐偏离了所演示的状态。因此,行为克隆面对的最大问题是,当agent偏离到标准分布之外的状态时,agent不知道如何回到所标准的演示状态。
为了解决这个问题,该论文利用生成对抗网络(generativeadversarialimitationlearning,GAIL)引入行为克隆的基本思想就是训练agent不仅要模仿演示的动作,而且要访问演示的状态。
直观地讲,对抗式方法通过为agent提供(1)在演示状态下模仿演示行动的激励,以及(2)在遇到新的、分布外的状态时采取引导其回到演示状态的行动的激励来鼓励长时段的模仿(Long-horizonimitation)。本文所提出的方法是在不进行对抗性训练的情况下实现(1)和(2),即使用恒定的奖励(ConstantReward)代替学习的奖励。
3.1方法描述
本文使用Soft-QLearning(SQIL)来实例化方法[6],使用专家演示来初始化代理的经验记忆缓存区,在演示经验中设置奖励为常数r=+1,在agent与环境交互时收集的所有新经验中设置奖励为常数r=0。此外,由于SQIL并没有采取策略强化型学习,所以agent不一定要访问演示状态才能获得积极的奖励。相反,agent可以通过重播最初添加到其经验记忆缓存区中的演示来获得积极奖励。因此,SQIL可以用于高维、连续的随机环境中。具体SQIL的算法流程见算法1:
其中δ^2计算公式为:
在具有连续状态空间S和离散行动空间A的无限边际马尔科夫决策过程(infinite-horizonMarkovDecisionProcess,MDP)中,假设专家遵循的政策Π能够最大化奖励R(s;a)。政策Π形成基于动作actions的波茨曼分布(Boltzmanndistribution)
其中,Q表示SoftQ函数,给定软贝尔曼误差,Q值为奖励和动态变化的函数值:
在本文的的模仿任务环境(imitationsetting)中,奖励和动态变化都是未知的。专家通过在环境中推演政策并产生状态转换(s,a,s’)∈D_demo,生成一组固定的演示D_demo。
用标准行为克隆训练模仿策略,相当于拟合一个参数模型,使负对数似然损失最小化:
本文使用一个SoftQ函数Q_θ来表示政策,而不直接显式地对政策进行建模:
由此,可以通过最大似然目标函数训练Q_θ:
3.2实验分析
本文在四个基于图像的游戏—赛车(CarRacing)、Pong、Breakout和太空入侵者(SpaceInvaders)—以及三个基于状态的任务—Humanoid、HalfCheetah和LunarLander上对SQIL与基线算法BC和GAIL进行了实验。
表1中的结果显示,当初始状态没有变化时,SQIL和行为克隆(BC)的表现同样好。该任务非常简单,即使BC也能获得高额奖励。在无扰动条件下(右列),尽管BC有众所周知的缺点,但BC的表现仍大幅超过GAIL。这表明GAIL中的对抗式优化会大幅阻碍学习。当从S_0^train开始时,SQIL的表现比BC好得多,表明SQIL能够泛化到新的初始状态分布,而BC不能。
表1.训练后100集的平均奖励
图1.基于图像的任务结果
图1给出了几个基于图像的任务结果。图1中的结果显示,SQIL在Pong、Breakout和SpaceInvaders上的表现优于BC。BC存在复合误差,而SQIL则没有。
图2给出在低维MuJoCo中实现连续控制的SQIL实例。这个SQIL的实例与MuJoCo的Humanoid(17DoF)和HalfCheetah(6DoF)任务的GAIL进行了比较。结果显示,SQIL在这两个任务上的表现都优于BC,并且与GAIL的表现相当,这说明SQIL可以成功地部署在具有连续动作的问题上,并且SQIL即使在少量演示的情况下也能表现良好。
图2.SQIL:连续10次训练的最佳表现
4.课程学习(CurriculumLearning)
论文:Automatedcurriculathroughsetter-solverinteractions
4.1方法描述
本文模型由三个主要部分组成:解算器(Solver)-用来训练的目标条件agent;设定器(Setter,S)—用来为agent生成目标课程的生成模型;判断器(Judge,J)—可以预测agent目前目标可行性的判别模型。训练机制见图1。解算器agent使用分布式学习设置对设置者生成的目标进行训练,以计算策略梯度。对于设定器训练来说,有三个概念很重要:目标有效性、目标可行性和目标覆盖率。如果存在一个解算器agent策略,它实现这个目标的概率是非零,则称这个目标是有效的。这个概念与解算器的现行政策无关。可行性表达了目标目前是否可以由解算器实现。具体来说,如果解算器实现目标的概率为f,则称该目标具有可行性f∈[0,1]。因此,可行性目标的集合将随着解算器的学习而演变。判断器是一个可行性的学习模型,通过监督学习对解算器的结果进行训练。最后,目标覆盖率表示设定器产生的目标的可变性(熵)。
图1.训练机制
4.1.1解算器(Solver)的奖励和损失
4.1.2判断器(Judge)的损失
判断器被训练成一个二元分类器来预测奖励。本文使用交叉熵损失函数来训练判断器,输入分布则由设定器定义,标签是通过在这些目标上测试解算器获得的:
4.1.3设定器(Setter)的损失
本文为设定器定义了三种损失,体现了目标有效性、可行性和覆盖率的概念。
有效性(Validity):描述为能够增加设定器生成解算器已经实现的目标的概率的生成性损失,具体为:
其中,g是解算器实现的目标中的样本,不管它在该周期中的任务是什么。ξ是少量的噪声,以避免过度拟合。p()表示在固定的高斯先验知识下对S的潜在状态进行抽样的概率。
可行性(Feasibility):描述鼓励设定器选择与判断器当前对解算器的可行性估计最为匹配的目标的损失,具体为:
该损失均匀地采样一个期望的可行性f(以训练设定器在一定难度范围内提供目标),然后试图使设定器产生判断器评定为与该期望可行性相匹配的目标。
覆盖率(Coverage):描述鼓励设定器选择更加多样化目标的损失。该损失有助于使设定器覆盖尽可能多的目标空间。具体为:
该损失使设定器的条件熵的平均值最大化。设置器被训练成使总损失最小化
4.2实验分析
本文所采用的实验环境为:
(2)网格世界的炼金术(Grid-worldalchemy)。二维网格世界环境,包含各种双色物体(图2c)。每个周期对物体的颜色随机取样。解算器可以在网格中移动,并可以走过一个物体来拾取它。它一旦拿起一个物体,就无法放下。如果它已经携带了另一个对象,两个对象将系统性地组合成一个新的对象。解算器接收一个目标对象作为输入,如果它产生一个类似的对象,就会得到奖励。
在每个实验中,无论使用什么设置器进行训练,作者都在一个固定的任务测试分布上进行评估,以便在不同条件下有一个公平的比较。在这两种环境中,有效任务的空间(可以由专家完成)在设定器可表达的任务空间中占据很小的体积。
图2.实验环境
在复杂的任务环境中,通过基于难度的探索来发现期望的行为可能并不可行。一个任务可能有很多困难的方式,其中大部分与最终希望代理实现的目标无关。通过针对期望目标分布与期望目标损失,设定器可以推动解算器更高效地掌握期望任务(图3a)。作者首先在3D寻色环境中进行探索。实验目标是12种亮色对的分布。在没有设定器的情况下发现这些亮色对是非常困难的。因此,只对期望的分布进行训练的结果是没有学习。无目标的setter-solver设置最终可以学习这些任务。在炼金术任务中,情况有些不同(图3b)。
本文实验所选择的分布是困难的任务:该分布包括了房间中一半的物体。然而,由于设定器面临着学习条件生成分布(它是内置在期望分布中的)的困难挑战,作者发现从期望分布中学习(如果有的话)会导致更早的学习。这也再次强调了学习生成目标的复杂性,特别是当有效的目标分布是以复杂的、非线性的方式存在于环境状态中时。
图3.在已知目标分布的情况下的理想目标分布。((b)和(c)的性能分别是过去5000次和1000次实验的平均数)。
4.3实验结果
本文通过理论分析和实验验证了setter-solver方法的有效性,以及使其能够在不同环境的复杂任务中工作的扩展。本文的工作是这一思想的起点,作者认为,本文概述的策略是一个非常有意义的研究方向,有希望能够实现在日益复杂的任务中自动设计agent的学习课程。
二、改进模型
5.分层强化学习(HierarchicalReinforcementLearning)
论文:HierarchicalReinforcementLearningwithAdvantage-BasedAuxiliaryRewards
分层强化学习(HierarchicalReinforcementLearning,HRL)是一种用于解决具有稀疏和延迟奖励的长时段问题(Long-horizonproblems)的有效方法。
本文提出了一个引入基于先进函数的辅助奖励的HRL框架(HRLwithAdvantagefunction-basedAuxiliaryRewards,HAAR),HAAR能够基于高层政策的优势函数对低层技能训练设置辅助奖励。引入这种辅助奖励,可以实现在不使用特定任务知识的情况下,高效、同步地学习高层政策和低层技能。
5.1方法描述
图1.HAAR示意图
图1给出了HAAR的工作流程。在i时刻,agent的状态(s_i)^h采取了一个使用独热向量(one-hotvector)表征的高层动作(a_i)^h。π_l为使用动作(a_i)^h和状态(s_i)^l作为输入的神经网络,输出一个低层动作(a_i)^l。不同的低层技能表示为(a_i)^h分别输入到该神经网络中。神经网络π_l可以表征低层技能。选中的低层技能执行k个步骤:
之后,高层政策输出新的动作。高层奖励(r_t)^h为k个步骤的环境反馈累积值:
基于高层的先进函数的计算低层奖励(r_t)^l。HAAR的算法如下:
单靠稀疏的环境奖励很难提供足够的监督以使低层技能适应下游任务。本文引入高层优势函数(high-leveladvantagefunction)设置低层技能的辅助奖励。针对状态(s_t)^h的动作(a_t)^h的函数定义为:
为了鼓励选定的低层技能能够达到数值较大的状态,本文将估计的高层优势函数设置为对低层技能的辅助奖励。
为了简化计算,本文对优势函数进行一步估算(one-stepestimation)。由于低层的技能是任务无关的(task-agnostic)且不区分高层状态,本文将总的辅助奖励平均分配给每一个低层步长:
5.2实验分析
本文使用文献[8]提出的基准分层任务进行实验。实验设计的观察空间使得低层技能不受任务的限制,而高层的政策则尽可能的更具普遍性。低层只能访问agent存储在s_l中的关节角度。这种低层观察的选择需要在预训练阶段获得最少的领域知识,这样才能将技能成功迁移到不同的领域集合中。与其他HRL实验不同,agent无法访问任何直接显示其绝对坐标的信息(x、y坐标或自顶向下的视图,如HRL研究实验中常用的那样)。这使得本文实验中的任务对agent来说更难,但缺可以减轻对环境的过度适应,并向π_h和π_l引入潜在的可迁移性。
图2给出了本文实验环境的图示。其中,图2(a)为蚂蚁迷宫(AntMaze)。蚂蚁到达如图2(a)所示的迷宫中的指定位置会得到奖励,随机化蚂蚁的起始位置以获得均匀的状态采样;图2(b)为游泳者迷宫(SwimmerMaze)。游泳者在如图2(b)所示的迷宫中到达目标位置时将获得奖励;图2(c)为蚂蚁聚集(AntGather)。蚂蚁因收集分布在有限区域的食物而受到奖励,同时因触碰炸弹而受到惩罚。
图2.本文用的环境集合
作者使用几个效果较好的HRL方法作为基线方法进行对比实验,包括:SNN4HRL[9]、HAC[10]、HIRO[11]和非分层方法TPRO[7]。
由图3的实验结果可以看出,HAAR明显优于其它基线方法。所有曲线的结果取超过5次的平均值,阴影误差条表示95%的置信区间。SNN4HRL在游泳者迷宫任务中的成功率高于蚂蚁迷宫任务,这是因为即使低层的技能没有得到很好的调整,游泳者也不会被绊倒。然而,在游泳者迷宫中,HAAR仍然优于SNN4HRL。在不到200次迭代之后,HAAR达到了几乎100%的成功率。
图3.蚂蚁迷宫、游泳者迷宫和蚂蚁聚集任务的成功率或平均回报率的学习曲线。
图4:(a)蚂蚁初始低层技能的可视化图,(b)蚂蚁迷宫辅助奖励训练后的低层技能,(c)在蚂蚁迷宫中用HAAR训练蚂蚁后的样本轨迹。
本文使用TRPO进行在线策略训练,样本效率不高,计算能力成为HAAR在非常复杂的环境下应用的主要瓶颈。将非政策性训练与本文提出的层级结构结合起来可能有助于提高样本效率。由于低层技能初始化方案对性能有着显著的影响,探索低层技能初始化方案的最佳工作方式也是未来的研究方向。
6.元学习(Meta-Learning)
论文:LearningtoGeneralizefromSparseandUnderspecifiedRewards
6.1方法分析
图1.算法图示
MeRL在处理未指定奖励时的思路是:实现意外成功的虚假轨迹和程序对agent的泛化性能是有害的。为了解决这一问题,MeRL优化了一个更加复杂的辅助奖励函数,该函数可以根据动作轨迹的特征区分意外成功和有目的成功。通过元学习,在保持验证集上最大化训练代理的性能,优化辅助奖励。图2为MeRL的原理图示。
图2.MeRL原理图:利用辅助奖励模型得到的奖励信号训练agent,利用agent的泛化误差训练辅助奖励。
图2表示,智能体在学习过程中应该能够学习一个辅助的奖励函数,这个函数是基于在一个保持有效的集合上(包括元学习奖励、环境和智能体本身的奖励)都能使用该奖励函数训练的良好的策略。换言之,我们希望学习到有助于政策更好地推广的奖励功能。
本文提出了两种具体的方法来实现这一思想。(1)基于基于梯度的MetaLearning(MAML)(Finnetal.,2017)(算法1)[2](关于MAML算法我们也有介绍);(2)使用BayesOpt(Snoeketal.,2012)作为无梯度黑盒优化器(算法2)[3]。使用经典MAML实现的方法记做MeRL。作者将使用BayesOpt优化算法的方法记做(BayesianOptimizationReward-Learning,BoRL)。
首先,我们来介绍MeRL方法。MeRL的完整算法如下:
在MeRL的每次迭代中,同时更新策略参数θ和辅助奖励参数。训练策略π_θ以最大化目标函数:
使用训练数据集和辅助奖励优化该目标函数,以使验证数据集上的元训练目标O_val最大化
MeRL要求O_val可微。为了解决这个问题,本文只使用缓冲区(B_val)^+中包含D_val上下文成功轨迹的样本来计算O_val。由于无法访问真实程序(groundtruthprograms),在非交互环境中使用波束搜索(BeamSearch)、在交互环境中使用贪婪解码,使用未指定奖励的训练策略生成成功的轨迹。验证目标是使用训练目标上一个梯度步骤更新后获得的策略计算的,因此,辅助奖励通过更新的策略参数θ'影响验证目标,如下所示:
其次,我们介绍BoRL。BoRL算法的完整流程如下:
在BoRL的每次实验中,通过最大化使用验证目标上的后验分布计算的获取函数来采样辅助奖励参数。在对奖励参数进行采样后,在固定迭代次数下优化训练数据集上的O_RER目标。训练结束后,在验证数据集上评估策略,以更新后验分布。BoRL不要求验证目标函数O_val相对于辅助奖励参数是可微的,因此可以直接优化所关心的评价指标。
BoRL比MeRL更具灵活性,因为可以使用BoRL优化验证集中的任何不可微目标,但MeRL只能用于可微目标。BoRL算法相对于MeRL算法的另一个优点是,与基于局部梯度的优化算法相比,它对奖励参数进行全局优化。然而,由于可以访问要优化的目标的梯度,MeRL比BoRL在计算效率上要高得多。此外,MeRL能够在整个策略优化过程中适应辅助奖励,而BoRL只能表达在策略优化过程中保持不变的奖励函数。
6.2实验分析
作者在两个弱监督语义分析基准任务WIKITABLEQUESTIONS[12]和WIKISQL[13]上评估了本文方法。用一个简单的指令跟踪环境进行实验,这个环境是一个大小为NxN的简单迷宫,迷宫中随机分布着K个致命陷阱。位于迷宫四角之一的球门。具体如图3。向盲agent输入一系列(左、右、上、下)指令。它勾勒出一条最优路径,agent可以通过该路径达到目标而不被困住。如果agent在一定数量的步骤内成功达到目标,则它将获得1的奖励,否则为0。
图3.简单迷宫中的指令
表1.WIKITABLEQUESTIONS上的结果
表2.在WIKISQL上只使用弱监督的结果
表1和表2分别给出了两个基准任务上的实验结果。对比算法包括MAPO[14]以及MAPOX(IML的探测能力与MAPO的泛化能力相结合)。MeRL在WikiTableQuestions和WikiSQL基准上的实验分别比以前的工作提高了1.2%和2.4%。通过执行更好的探索,MAPOX在两个数据集上的效果都优于MAPO。此外,MeRL和BoRL在WIKITABLEQUESTIONS中的效果都优于MAPOX。
设计区分最优和次优行为的奖励函数对于将RL应用于实际应用是至关重要的。本文的研究朝着无需任何人监督的奖励函数建模方向迈出了一小步。在以后的工作中,作者希望从自动学习密集奖励函数的角度来解决RL中的信用分配问题。
三、本文总结
针对稀疏奖励下的强化学习对于强化学习在工业场景中的实际应用有着重要意义,在不同的任务中应用哪种方法或哪些方法的组合可以获得更好的效果,值得更加深入的研究和探索。
参考文献
[2]ChelseaFinn,PieterAbbeel,andSergeyLevine.Model-agnosticmeta-learningforfastadaptationofdeepnetworks.InProceedingsofthe34thInternationalConferenceonMachineLearning(ICML),2017.
[3]JasperSnoek,HugoLarochelle,andRyanAdams.PracticalBayesianoptimizationofmachinelearningalgorithms.InNIPS,pages2960–2968,2012.
[4]DeepakPathak,PulkitAgrawal,AlexeiAEfros,andTrevorDarrell.Curiosity-drivenexplorationbyself-supervisedprediction.InInternationalConferenceonMachineLearning(ICML),volume2017,2017.
[5]AndreaZanetteandEmmaBrunskill.Tighterproblem-dependentregretboundsinreinforcementlearning
withoutdomainknowledgeusingvaluefunctionbounds.arXivpreprintarXiv:1901.00210,2019.
[6]TuomasHaarnoja,HaoranTang,PieterAbbeel,andSergeyLevine.Reinforcementlearningwithdeepenergybased
policies.arXivpreprintarXiv:1702.08165,2017.
[7]JohnSchulman,SergeyLevine,PhilippMoritz,MichaelI.Jordan,andPieterAbbeel.Trustregionpolicyoptimization.InICML,2015.
[8]YanDuan,XiChen,ReinHouthooft,JohnSchulman,andPieterAbbeel.Benchmarkingdeepreinforcementlearningforcontinuouscontrol.arXive-prints,pagearXiv:1604.06778,Apr2016.
[9]CarlosFlorensa,YanDuan,andPieterAbbeel.Stochasticneuralnetworksforhierarchicalreinforcementlearning.InProceedingsofThe34thInternationalConferenceonMachineLearning,2017.
[10]AndrewLevy,GeorgeKonidaris,RobertPlatt,andKateSaenko.Learningmulti-levelhierarchieswithhindsight.2018.
[11]OfirNachum,Shixiang(Shane)Gu,HonglakLee,andSergeyLevine.Data-efficienthierarchicalreinforcementlearning.InAdvancesinNeuralInformationProcessingSystems31,pages3303–3313.2018.
[12]Pasupat,P.andLiang,P.Compositionalsemanticparsingonsemi-structuredtables.ACL,2015.
[13]Zhong,V.,Xiong,C.,andSocher,R.Seq2sql:Generatingstructuredqueriesfromnaturallanguageusingreinforcement
learning.arXiv:1709.00103,2017.
[14]Liang,C.,Norouzi,M.,Berant,J.,Le,Q.V.,andLao,N.Memoryaugmentedpolicyoptimizationforprogram
synthesisandsemanticparsing.InBengio,S.,Wallach,H.,Larochelle,H.,Grauman,K.,Cesa-Bianchi,N.,andGarnett,R.(eds.),AdvancesinNeuralInformationProcessingSystems31,pp.9994–10006.2018.
分析师介绍:
本文作者为仵冀颖,工学博士,毕业于北京交通大学,曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别、计算机视觉,爱好科研,希望能保持学习、不断进步。