学界从监督式到DAgger,综述论文描绘模仿学习全貌

原标题:学界|从监督式到DAgger,综述论文描绘模仿学习全貌选自arXiv作者:Alexa

原标题:学界|从监督式到DAgger,综述论文描绘模仿学习全貌

选自arXiv

作者:AlexandreAttia、SharoneDayan

机器之心编译

参与:Panda、黄小天、蒋思源

模仿学习是学习器尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。本论文全面概述了当前的模拟学习算法及其收敛性保障,有助于读者深入了解这一领域。

论文:GlobaloverviewofImitationLearning

摘要:模仿学习是学习器尝试模仿专家级行为从而获取最佳表现的一系列任务。近期,该领域提出了数种算法。在此论文中,我们旨在给出这些算法的整体回顾,展示他们的主要特征并在性能和缺点上做出对比。

3.顶尖算法和收敛保证

从示范中学习(LfD,LearningfromDemonstration)是一个从专家给出的轨迹中学习复杂行为的实践框架,即使非常少或者不准确。我们在下面列出并对比了模型学习中最常用到的一些算法,且在自动驾驶汽车上进行实验对比这些模型算法间的不同。下面这些算法的理论证明和直观定理展示在附录部分。

3.1监督学习

解决模仿学习的首个方法是监督学习。我们有一个由专家给出的训练轨迹集合,其中单个训练轨迹包含观察结果的序列专家行为的序列。监督式模仿学习的背后动机是训练一个分类器基于观察来模仿专家的行为。

这是一种被动的方法,目的是通过被动的观察全部轨迹学习到一种目标策略。监督式模仿学习的目标是在专家的驱动下于所有状态上训练一个策略,而专家只有在求解该目标时才提供信息。此外,我们需要假不同轨迹中的专家行为是独立同分布的。

3.2前馈训练

在最糟糕的情况中,我们与经典监督式学习有相同的收敛,但总体讲,收敛是次线性的(sublinear),并且专家策略成功恢复了模型策略的错误。因此,前馈训练算法应该比之前算法表现更好。

3.3基于搜索的结构预测(SEARN)

SEARN的想法来自DauméIIIetal.(2009)[3],其并没有学习一些全局模型与搜索(一般模型的标准设置),而是简单地学习一个分类器以最优地搜索每一个决策。算法通过在每一步上遵循专家行动开始,迭代地收集示范并利用它们训练新策略。根据之前所有训练策略以及专家行动的混合,它通过采取行动编译了新的episodes。最后,它慢慢地学习遵循混合策略并停止依赖专家以决定其要采取的行动。

简言之,该算法试图学习一个分类器,引导我们通过搜索空间。它的运作是通过保持当前策略以试图使用它生成新的训练数据,进而学习一个新策略(新分类器)。当学习了一个新分类器之后,我们用旧分类器进行插值。这一迭代如图2所示。

然而,这一基于搜索的结构预测可能过于乐观,并在实践中面临挑战,这主要因为其初始化方法不同于最优策略。下面我们将详细描述克服这一问题的其他方法。

3.4随机混合迭代学习(SMILe)

SMILe同样由Ross和Bagnell(2010)[2]提出,以纠正前馈训练算法中的一些困难问题。它是一个基于SEARN的随机混合算法,利用其优点可以使实现更加简单,而且与专家的交互要求也较低。它在多次迭代中训练一个随机静态策略,接着利用训练策略的「几何」随机混合。

具体而言,我们从一个完全遵循专家行动的策略π_0开始。在每次迭代中,我们训练一个策略π_i以在以前的策略π_i-1诱导的轨迹下模仿专家。接着,我们将新的训练策略添加到先前的几何折扣因子α(1α)^(i1)的策略混合中。因此,新的策略π_i是i策略的混合,其中使用专家行动的概率为(1α)^i。算法3描述了SMILe算法。

图1:前馈训练和SMILe算法在自动驾驶汽车上的对比

3.5基于归约(Reduction)的主动模拟学习(RAIL)

RAIL是一种理想化的算法,其目的是用于实现理论目标的分析。但是,主要由于在早期迭代中使用了未标注的状态分布(可以与d_π有很大的差异),这种算法在实际应用上可能有很多低效的地方。

3.6数据集聚合(Dagger)

3.6.1DAgger

Ross和Bagnell在2010年提出了DAgger[5]算法来解决从示范中学习的问题。DAgger是一种迭代式的策略训练算法,使用了一种归约到在线(reductiontoonline)的学习方法。在每次迭代中,我们都在该学习器所遇到过的所有状态上重新训练主要分类器。DAgger的主要优势是使用了专家(expert)来教学习器如何从过去的错误中恢复过来。这是一种基于Follow-The-Leader算法(每一次迭代都是一个在线学习示例)的主动式方法(我们需要读取专家本身)。

我们从完全由专家教授的第一个策略π_0开始,运行π_0,看学习器访问了什么配置。我们生成一个新的数据集,其中包含有关如何从π_0的错误中恢复的信息。因为我们希望同时有来自π_0和π_1的信息,所以我们联合使用起始的仅有专家的轨迹和新生成的轨迹来训练π_1。我们在每次迭代过程中都重复这一过程。我们选择在验证测试上表现最好的策略。

SEARN[3]和DAgger之间的主要算法差异是每次迭代过程中分类器的学习以及将它们组合成一个策略方面。DAgger可以组合在所有迭代中获得的训练信号,与之相反,SEARN仅在第i次迭代上训练,即不聚合数据集。SEARN是第一种实用的方法,之后是DAgger。DAgger对复杂问题和简单问题都适用;当收集的数据越多时,它的效果就越好,但仅需少量迭代就有效果。所以对手写识别和自动驾驶等很多应用而言,DAgger都很有用。

3.6.2DAggerbycoaching

使用DAgger时,策略空间可能与学习策略空间相距甚远,这会限制学习能力,也可能无法根据状态推断得到信息。为了防止出现这种情况,HHHDauméIII等人在2012年提出了DAggerbycoaching算法[6]。使用这一算法,我们可以执行易于学习的动作,即在学习器的学习能力范围内。当动作太难时,教练(coach)会降低目标然后渐进地教授。

算法5描述了DAgger算法和DAggerbycoaching算法。

图2:在自动驾驶汽车任务上的DAgger算法图示

图3:在手写字符识别任务上的DAgger、SMILe、SEARN和监督式方法的表现比较。基准只是一个独立预测每个字符的支持向量机(SVM)。α=1(相当于纯策略迭代方法)和α=0.8的SEARN和DAgger在这一任务上表现更好(来自DAgger原论文[5])。

3.7使用示范的近似策略迭代(APID)

具体来说,我们设置一个API的环境,然后使用专家提供的额外信息(尽管这些信息很少或不准确)。V^π和Q^π表示π的价值函数和动作-价值函数,V和Q表示最优策略π的价值函数和动作-价值函数。我们有一个交互数据集分别对应一个专家示例集合,也就是一个包含n个示例的(状态,动作)对样本分别对应于一个包含m个示例的(状态、示范动作)对。为了编码专家的次优性,我们为动作-价值最优策略增加了一个变量,以允许偶尔违反约束条件。最后,我们得到一个有约束的优化问题。在这种方法中,我们不必获取确切的Bellman算子T^π,只需要样本即可,由此我们可以使用ProjectedBellman误差。

3.8聚合值以进行模拟(AggreVaTe)

我们使用表示在状态s执行动作a的期望未来cost-to-go,之后再执行t-1个步骤的策略π。

和DAgger算法完全一样,AggreVaTe通过与学习器交互来收集数据,方式如下:

THE END
1.主动学习(十二)——可复现的主动学习(cvpr2022)迄今为止的大部分主动学习都只采用了最简单的数据增广方式,也就是随机翻转这类。其中,主动学习与强数据增广兼容的问题已经在主动学习(七)——强数据增强遇上主动学习(LADA)这篇文章中聊过,这篇文章提出来的也是一个可以兼容大部分现有主动学习算法的插件,所以这个问题大概算是部分解决。另外的两个还没见到有关的https://zhuanlan.zhihu.com/p/573531562
2.人工智能论文综述深度学习与算法创新在AI研究中的应用人工智能论文综述:深度学习与算法创新在AI研究中的应用 人工智能的发展历程 ai论文综述显示,人工智能从早期的规则系统、符号处理到现代深度学习和机器学习,其发展路径由此可见。人工智能技术的进步不仅促进了计算机科学领域的飞跃,也对经济社会产生了深远影响。 深度学https://www.9e80wtu09.cn/zhi-neng/386956.html
3.自然语言强化学习:一个可处理语言反馈的强化学习框架详情请见:大模型2.0读书会:融合学习与推理的大模型新范式! 推荐阅读 1.Nat. Mach. Intell. 速递:测试用于预测人类语言判断的自然语言模型的极限 2.Nat. Mach. Intell. 速递:大规模网络控制的高效和可扩展的强化学习 3.因果科学 x Agents:如何让AI更好地理解因果?|TMLR (2023) 因果强化学习最新综述 https://hub.baai.ac.cn/view/41851
4.AI在自然语言处理中的突破:从理论到应用腾讯云开发者社区自然语言处理(Natural Language Processing,NLP)是人工智能(AI)的一个重要分支,旨在实现计算机与人类语言的交互。近年来,随着深度学习和大规模语言模型的发展,自然语言处理取得了显著突破,从理论研究到实际应用,推动了多个领域的进步。本文将介绍NLP的核心技术及其突破,并通过代码示例展示其应用。 https://cloud.tencent.com/developer/article/2479408
5.人工智能技术栈深度解析从基础算法到前沿应用作为人工智能的基石之一,计算机科学提供了理解数据、编写代码以及构建复杂系统所需的理论框架。学习计算机科学意味着掌握数据结构、算法设计、操作系统原理等核心概念。在这些基础知识上建立起来,将有助于理解后续学习的人工智能模型及其工作原理。 机器学习与深度学习 https://www.xstkmqmgl.cn/shu-ma/98601.html
6.解析人工智能三大算法机器学习深度学习与强化学习的核心之旅解析人工智能三大算法:机器学习、深度学习与强化学习的核心之旅 人工智能三大算法是现代计算机科学领域中的重要组成部分,它们分别是机器学习、深度学习和强化学习。每种算法都有其独特的特点和应用场景,共同推动了人工智能技术的发展。 机器学习:数据驱动的革命 机器学https://www.fmovhaqkz.com/shou-ji/530948.html
7.算法干货主动学习算法学习笔记主动学习方法被提出以有效地处理这类问题。主动学习(Active Learning)是指通过自动的机器学习算法,从数据集中自动筛选出合适的候选集给人工标注的过程。有效的主动学习数据选择策略可以有效地降低训练的代价并同时提高模型的识别能力。在主动学习中,学习器能够主动地选择包含信息量大的未标注样例并将其交由专家进行标注,然https://developer.aliyun.com/article/1177917
8.主动学习(ActiveLearning)简介综述汇总以及主流技术方案从上图也可以看出来,在相同数目的标注数据中,主动学习算法比监督学习算法的分类误差要低。这里注意横轴是标注数据的数目,对于主动学习而言,相同的标注数据下,主动学习的样本数>监督学习,这个对比主要是为了说明两者对于训练样本的使用效率不同:主动学习训练使用的样本都是经过算法筛选出来对于模型训练有帮助的数据,所以效https://blog.csdn.net/2401_84495725/article/details/139475484
9.主动学习算法综述摘要: 主动学习算法作为构造有效训练集的方法,其目标是通过迭代抽样,寻找有利于提升分类效果的样本,进而减少分类训练集的大小,在有限的时间和资源的前提下,提高分类算法的效率.主动学习已成为模式识别、机器学习和数据挖掘领域的研究热点问题.介绍了主动学习的基本思想,一些最新研究成果及其算法分析,并提出和分析了有待进https://d.wanfangdata.com.cn/periodical/jsjgcyyy201234001
10.小样本学习及其在美团嘲中的应用一个数据人的自留地除了上面提到的三种场景, 还有一种是,如何在有限的标注成本中选择更有针对性的样本进行人工标注(主动学习)。因此我们将小样本学习划分为下面几种: 图2 小样本学习相关工作 2 方法综述 预训练语言模型?BERT?,在NLP许多任务中取得非常好的结果。BERT是基于Transformer的深度双向语言表征模型,利用Transformer结构构造https://www.shangyexinzhi.com/article/4900642.html
11.基于生理信号的情感计算研究综述(二)之情感计算中的机器学习包括生理信号的采集、预处理、特征提取、特征平滑、特征融合、模型训练与测试等. 然后重点介绍了为解决情感计算任务中个体差异的迁移学习方法, 减少标注数据量的主动学习方法, 以及基于深度学习的生理信号的深层情感表示和多模态生理信号的特征融合等相关算法. 最后介绍了两个在基于脑电信号的情感计算中广泛使用的公开数据https://www.4008489789.com/newsinfo/1809711.html
12.单评丨佳能EOSR5MarkII002 智能AI算法(深度学习技术) 得益于此次新处理器的加入,R5 Mark II也进一步加入了智能AI算法功能,尤其是在对焦方面,基于智能AI算法能够大幅提升对物体的识别、追踪性能,并且能够进一步捕捉被摄体的动作、特征等来进行持续的追踪对焦,且保持对焦的高精度。 https://www.360doc.cn/article/50323889_1131095639.html
13.算法“黑箱”中的青年由此,本研究将基于北京地区高校在读大学生群体,调查他们在新媒体实践中所生成的算法意识、算法态度以及算法操纵行为,以期基于用户视角,呈现大学生群体与平台算法之间博弈的情景。 二、文献综述 1.算法意识与算法态度:用户对于平台算法的感知 作为算法的使用者,用户在使用算法的过程中,会通过自身经验以及对算法的了解,https://www.huxiu.com/article/620239.html
14.论文开题报告2、论文综述/研究基础。 传统绘画和摄影艺术作为具备文化价值和审美价值的符号,是大众获取艺术知识、培养美学理念的重要源泉之一。近几十年来,随着文化需求的增长,为摄影艺术提供了更加广阔的发展空间。最初的摄影家主要对客观世界进行重现和描绘,之后逐渐注重对自身内在思想的剖析和探讨,在转变的过程中一些视觉表现形式也https://www.wenshubang.com/baogao/3043006.html
15.FCS期刊动态《计算机科学前沿》2021年第一期精彩文章—论文—科学网【FCS 人工智能专栏】基于点态流形正则化的半监督学习 2021 15(1):151303 Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。https://news.sciencenet.cn/htmlpaper/2021/4/202142112434356462946.shtm
16.国际TOP10药学期刊文章信息(2023年10月)14. 利用大数据和机器学习算法提取神经发育障碍的可能治疗靶点 (Use of big data and machine learning algorithms to extract possible treatment targets in neurodevelopmental disorders) 作者:Muhammad Ammar Malik, Jan Haavik* (Computational Biology Unit, Department of Informatics, University of Bergen, Norwayhttps://www.ctdm.org.cn/.php?s=/Meeting/metDynamicById/id/68ef8a5ecf3143fc9c6096903dad2b87/meetingid/365e19d34eb54caeaa6e974e66b82c15
17.科学技术与工程杂志中国技术经济学会主办2018年第01期果蝇优化算法研究综述 关键词:果蝇优化算法 改进策略 应用研究 果蝇优化算法(FOA)是一种新兴的群体智能算法,其思想来源于果蝇群体觅食行为。为进一步推广应用FOA并为深入研究该算法提供相关资料,在分析FOA基本原理和优缺点的基础上,从FOA各种改进技术及其应用等方面进行深入调查,论述了该算法的改进策略,并阐述了FOA在复https://www.youfabiao.com/kxjsygc/201801/
18.总目录∣工程科学学报2021—2022年10.基于S-LRCN的微表情识别算法 李学翰,胡四泉,石志国,张明 工程科学学报, 2022, 44(1): 104 3.基于机器学习的边坡安全稳定性评价及防护措施 武梦婷,陈秋松,齐冲冲 工程科学学报, 2022, 44(2):9.神经网络在无人驾驶车辆运动控制中的应用综述 张守武,王恒,陈鹏,张笑语,李擎 工程科学学报, 2022,https://cje.ustb.edu.cn/news/index_tabliod/0625b272-7c19-4c66-bcce-c01ab4a2dbf8.htm
19.跨领域文本分类算法研究2)提出了新的多领域主动学习问题。与传统主动学习问题不同,多领域主动学习研究的是如何从多个领域中选择全局最优数据进行标注,从而节约人力标注资源。针对该问题,本文提出了一个基于支持向量机全局最优化的多领域主动学习算法(Multi-Domain Active Learning,MultiAL),并结合三个重要的分类应用对提出的算法进行了实验验证https://wap.cnki.net/touch/web/Dissertation/Article/-1013016966.html
20.主动学习在图像分类技术中的应用:当前状态与未来展望本文对近年来提出的主动学习图像分类算法进行了详细综述,并根据所用样本数据处理及模型优化方案,将现有算法分为三类:基于数据增强的算法,包括利用图像增广来扩充训练数据,或者根据图像特征插值后的差异性来选择高质量的训练数据;基于数据分布信息的算法,根据数据分布的特点来优化样本选择策略;优化模型预测的算法,包括优化获https://www.elecfans.com/d/6345703.html
21.网络空间安全中的人工智能技术综述和机器学习分类方法区队恶意软件进行分类和检测的框架;H.Hashemi[8]等人使用K近邻和支持向量机作为机器学习分类器来检测位置恶意软件;Y.Ye[9]等人构建了一个深度学习架构来检测智能恶意软件;N.McLaughlin[10]等人采用了深度卷积神经网络来识别恶意软件;H.J.Zhu[11]等人定义了一种新的机器学习算法,叫做旋转森林,以http://528045.com/article/d34389b553.html
22.名师工作室年度总结(通用24篇)我在学习的同时注重联系实际,把先进的理念做法搬进课堂,随时反思,积极撰写教育随笔,做好读书卡;本学年撰写的《算法多样化的误区及其对策》获省优秀论文二等奖,《在自主探索中主动学习》发表于省级刊物《读写算》20xx第18期;《算法多样化的误区及其对策》发表于省级刊物《新课程》20xx.03;《猜疑,一朵雨做的云》发表https://www.yjbys.com/gongzuozongjie/niandu/4117270.html
23.名师工作室工作总结(20篇)我在学习的同时注重联系实际,把先进的理念做法搬进课堂,随时反思,积极撰写教育随笔,做好读书卡;本学年撰写的《算法多样化的误区及其对策》获省优秀论文二等奖,《在自主探索中主动学习》发表于省级刊物《读写算》20xx第18期;《算法多样化的误区及其对策》发表于省级刊物《新课程》20xx。03;《猜疑,一朵雨做的云》发表https://www.yuwenmi.com/fanwen/gongzuo/4242691.html