学术分享丨机器人操作学习系列分享:模仿学习算法示例神经网络

人类从婴幼儿时期就学会模仿别人来获得许多新技能,这种行为被称为模仿学习。我们古代中国就有很多形容人们模仿学习中成语,有如“邯郸学步”、“画虎成狗”、“鹦鹉学语”等都是形容模仿不到位的情况,又如“惟妙惟肖”、“栩栩如生”、“有模有样”等模仿极佳的状态。因此,智能体如何通过模仿学习避免出现那些尴尬的状态,而达到完美的状态,也是亟待研究的课题。

目前模仿学习也成为许多研究领域的重要课题,包括心理学、神经科学、人工智能和机器人学。模仿学习是机器学习诸多领域的交叉点。它对应于一个复杂的优化问题,可以用不同的方式形式化,例如结构化输出预测问题或半监督学习问题。模仿学习还与强化学习、在线主动学习、多智能体学习、特征建构等有着密切的关系。

1、行为克隆(BehavioralCloning)

行为克隆是模仿学习中最简单方法,采用直接模仿的方式。在这种情况下,从所提供的例子归纳问题通常被简化为一个有监督的学习问题,而不必对教师的意图作出假设。基于监督学习从示教数据学习机器人的策略,通过以任意一条专家示教轨迹的任意一个时刻的状态s作为算法的输入,与s对应的动作a设置为算法的输出,就可以应用传统的监督学习算法来解决这个模仿学习的问题。比如,通过控制一个机器臂的七个关节的角度来执行一个指定的动作,可以设计神经网络的输出为这七个关节的角度值或者这七个关节角度的概率分布来解决这个问题。如果采用高斯分布的话,可以设计神经网络输出对应角度的均值和方差。直接采用上述监督学习的思路来解决模仿学习问题的方法,虽然然很简单,但是在某些领域却拥有着很不错的表现。在理想想情况下所学的策略能够在新场景中重现所示例的行为。

2、奖励推断(RewardInference)

奖励推断旨在提取专家的运动/操作意图,而不是动作本身的低级细节。此类方法通常包括逆强化学习(IRL)、学徒学习(apprenticeshiplearning)或逆最优控制(inverseoptimalcontrol)。该类方法通过假设专家最大化某个奖励函数来实现操作动作,学习者的目标是找到解释专家行为的奖励函数。推断获得的奖励函数可进一步通过RL算法来学习任务的策略。IRL范式(IRLparadigm)有以下几个优点:1)如果奖励函数是世界上物体或特征的函数,可自然地从人移植到机器人,而不存在遇到对应问题。2)奖励函数通常是稀疏的,因此提供了一种自然的方法,从少量的训练数据进行归纳,即使在非常大的状态空间中也是如此。3)人类的行为可能会编码有关任务的大量背景信息,这种信息很容易在奖励函数中进行编码,但在策略中编码起来较复杂,并且可以在以后的上下文中重新使用。

最值得注意的是,从根本上IRL问题是不适定的(ill-posed)-存在无限多个奖励函数,且它们会导致相同的最优策略。因此,许多IRL算法之间的区别在于如何消除歧义或显示对某些奖励函数偏好的指标。最大熵(MaximumEntropy)IRL通过利用概率框架(probabilisticframework)和最大熵原则消除了可能的奖励函数的歧义,较好地解决了示例者次优性和不适定的问题。具体来说,在给定奖励函数下,给所有会获得同等回报的轨迹分配相同的概率,然后使用这种分布以更好地匹配示例的特征计数,同时避免具有除数据指示偏好之外的任何其他偏好。

3、从观察中学习(LearningfromObservation)

图1.LfO控制算法的分类的图形表示。这些算法可以分为两组:(1)基于模型的算法,其中算法可以使用前向动力学模型或逆动力学模型。(2)无模型算法,其本身可以归类为对抗性方法和奖励工程。

对抗性训练技术在计算机视觉领域取得了一些最新的令人兴奋的进展。其中一个这样的进展是在姿势估计领域,该领域能够通过关键点检测来检测杂波视频中对象的位置和方向,这样的关键点信息在LfO中也可能被证明是有用的。虽然有少量努力将这些进展纳入LfO,但仍有许多工作需要研究。实际上,当前LfO算法很少在物理机器人上成功测试过。也就是说,大多数讨论结果仅在模拟域中进行。例如,尽管对抗性方法当前为许多基线实验LfO问题提供了最新的性能,但是这些方法显示出很高的样本复杂性,因此仅被应用于相对简单的模拟任务。因此,LfO中的一个开放问题是找到方法来适应这些技术,以便可以将它们用于像机器人应用一样禁止高样本复杂性的场景。

4、纠正交互(CorrectiveInteractions)

与其从完整的批量示例中学习,不如经常请求(可能是部分的)纠正示例或其他形式的反馈来学习策略,这通常是有利的。例如,一个人可以在倒水时进行干预,并且调整杯子的角度和机器人倒水时的角度。这为在最需要数据的情况下收集数据提供了一种自然的机制——例如,正在发生错误的情况,或者机器人非常不确定该做什么的情况。模仿者主动要求用户在可信度低或风险较高的状态空间区域进行额外示例,而其他方法则依靠人工用户来识别何时发生了错误。更高层次的信息也可以用来进行更稳健的校正,比如更正的基于预测的注释和高级有限状态机中的动作建议。TAMER框架没有使用纠正性的示例,而是利用有关机器人性能的实时数字人工反馈来纠正和塑造行为。机器人还可以在需要的时候主动寻求帮助,例如,通过自然语言。

THE END
1.learning是什么意思learning怎么读中文意思用法learning learning是什么意思、learning怎么读 读音:英['ln] 美['l?n] 四级六级考研 learning 基本解释 n. 学问, 学识, 学习 [计] 学习 learning 网络释义 n. 学习;学问 v. 学习(learn的现在分词) learning 词性变化 原型:learn 现在分词:learninghttps://danci.gjcha.com/learning.html
2.learning是什么意思learning的中文翻译音标读音用法learning词态变化 原级:learn 词组短语 1.display one′slearning炫耀学问 2.encouragelearning鼓励学习 3.respectlearning尊重知识 4.greatlearning博学 5.higherlearningn. 高等教育;高深学问;(电影名称)校园大冲突 6.withoutlearning不学无术 7.thelearningof a trade学手艺 https://danci.gei6.com/learning__4sl9e4u6.html
3.learning造句11、They are on a steeplearningcurve.(他们学得很快。)【好工具hao86.com】 12、We arelearninghow to confront death.(我们在学习如何正视死亡。) 13、He islearningto play the piano.(他正在学弹钢琴。) 14、Last season was alearningexperience for me.(上个季度对我来说是一次学习。) https://www.hao86.com/zaoju_view_9bce2343ac9bce23/
4.“学习”用英语怎么说“学习”用英语怎么说 “学习”用英语怎么说 study,learn 两个词都有学习的意思。 你学会了如何学习:运用有效的方法,养成好的学习习惯用英语怎么说 As you learn how to study:Use efficient ways, get into good habbits of studying.http://www.sivi8.com/siweixuexi/42315.html
5.聪慧学霸之路:“我滴天哪,太厉害了!”一位70岁退休英语老师肺腑以英语语法中的时态为例,老师在笔记中详细列举写出了八种基本时态,每种时态下都配以生动的例句和简洁明了的解释。比如,在讲解现在进行时时,老师写道:“I am studying.(我正在学习。)此句中,be动词+动词ing形式构成了现在进行时,表示动作正在进行中。”这样的讲解,既直观又易懂,让人一目了然。 http://www.360doc.com/content/24/1217/12/78070959_1142194590.shtml
6.正在学习的翻译是:Islearning中文翻译英文意思,翻译英语Are learning 翻译结果2复制译文编辑译文朗读译文返回顶部 正在翻译,请等待 翻译结果3复制译文编辑译文朗读译文返回顶部 Is learning 翻译结果4复制译文编辑译文朗读译文返回顶部 Are learning 翻译结果5复制译文编辑译文朗读译文返回顶部 Is studying 相关内容 a1966年7月 In July, 1966 [translate] a对以往擦擦分http://eyu.zaixian-fanyi.com/fan_yi_7555836
7.正在学习英语怎么写什么意思?正在学习.. 翻译 原文(简体中文): 正在学习更多:https://www.bmcx.com/ 翻译结果(英语)1: Are learning更多:https://www.bmcx.com/ 翻译结果(英语)2: Is learning更多:https://www.bmcx.com/ 翻译结果(英语)3: Are learning更多:https://www.bmcx.com/https://fanyi.bmcx.com/g9877sxgl6rcwb745__fanyi/
8.我正在学英语是用learningenglish还是用studyi?爱问知识人应该是learing English https://iask.sina.com.cn/b/6447595.html
9.TED英语演讲“我正在学习第八种语言”,揭秘多语言者的学习奥秘What's your secret?" And to be honest, for many years, my answer would be, "I don't know. I simply love learning languages." But people were never happy with that answer. 我喜欢学外语。实际上,这种痴迷让我每两年就想学一门新的外语,现在我正在学第八门外语。当人们得知此事后,总是问我https://www.jianshu.com/p/5d15e4392f67
10.为MicrosoftVivaLearning添加学习管理系统MicrosoftLearn内容详细信息 (内容提供商徽标、缩略图、标题、说明等 ) 显示在Viva Learning的“开始”和“学习”选项卡上。 “我的学习”选项卡显示用户分配的和已完成的课程,这些课程是从 LMS 提取的。内容目录这些是从 LMS 中提取的数据,作为内容目录包的一部分。展开https://docs.microsoft.com/viva/learning/configure-lms
11.他们正在学习英语怎么说水滴英语作文网他/她正在学习英语。 (He/She is learning English.) 他/她在学习英语。 (He/She is studying English.) 他/她正在英语学习。 (He/She is English studying.) 这些表达方式都可以用来描述某人正在学习英语的情况。 来源:这些表达方式都是基于英语的常用语言结构构建的。 https://www.adreep.cn/gz/ask-462852.html
12.2018中文在线:线上学习平台的崛起与未来展望2018年,随着互联网技术的迅猛发展,线上学习平台逐渐崛起,成为教育领域的重要组成部分。这一趋势不仅改变了传统的学习方式,也为学习者提供了更加灵活和多样化的选择。线上学习平台通过整合丰富的教育资源,打破了时间和空间的限制,使得学习变得更加便捷。 在这一年中,许多知名的线上学习平台如Coursera、edX和国内的中文在线http://m.gznyy-eco.cn/glzx/97801.html
13.资源帖丨字节跳动技术Leader们推荐的学习资源《Deep Learning深度学习》作者:Ian Goodfellow、Yoshua Bengio、Aaron Courville这本书就是业内知名的「花书」,是深度学习领域奠基性的经典教材。《动手学深度学习》作者:李沐 等William说,这是他见过最好的机器学习、深度学习教材,理论与实践结合,并且中英双语都有,而且还是免费开源的资源。资源链接电子版:http://https://maimai.cn/article/detail?fid=1589935106&efid=ROE93ZNmM8sYE6S4rjpy5w
14.他正在学骑马翻译成英语怎么说他正在学骑马英语翻译He is learning to ride a horse,真人发音,英语翻译详细结果;更多关于他正在学骑马的英语词汇 短语.https://yingyu.xiediantong.com/en/218a2d1ed5d1192c/
15.从Facebook实习生到设计副总裁,专访顶尖设计大咖JulieZhuo我所学到的,创造出色的、有意向性的设计有双重考虑。 首先,「你在为谁设计?」 越具体越好。你的受众有哪些特点?特别是早期,当你正在开发一种新产品时,你对受众专注度越高越好。最终,你可以广泛地向更多的人展示你的产品,但我认为你必须在一开始的时候非常专注。你需要去考虑哪些人群是最容易喜欢这个产品的。 https://www.uisdc.com/interview-facebook-julie-zhuo/
16.MetaLearning元学习和FewShotLearning腾讯云开发者社区这里前面的100个学习任务可以是语音识别、图像识别等等,新的任务可以和前面的100个任务没有任何关联,机器会因为之前所学到的任务,所以在后面的任务学习得更好。 与life long learning 不同,metal learning是希望在不同任务上机器都能自己学会一个模型,而life long learning是希望学习到一个模型可以处理多个任务。为了https://cloud.tencent.com/developer/article/1635470
17.有哪些相见恨晚的高效学习方法?4、西蒙学习法 Simon learning method 诺贝尔经济学奖获得者西蒙教授曾提出了这样一个见解:“对于一个有一定基础的人来说,他只要真正肯下功夫,在 6 个月内就可以掌握任何一门学问。” (西蒙教授立论所依据的实验心理的研究成果表明:一个人 1 分钟到 1 分半钟可以记忆一个信息,心理学把这样一个信息称为“块”https://xsc.sxnu.edu.cn/info/1091/1361.htm
18.移动设备和平板电脑上的学习者应用程序AdobeLearningManager阅读本文,了解如何在智能手机和平板电脑上下载 Adobe Learning Manager 学习者应用程序。了解如何通过移动设备或平板电脑使用课程。 概述 Adobe Learning Manager 学习者应用软件适用于 Android 手机用户和 iPhone 用户。前往 Google Play 商店(Android 操作系统)或 iTunes(macOS 操作系统),下载 Adobe Learning Manager 应https://helpx.adobe.com/learning-manager/learners/feature-summary/ipad-android-tablet-users.html
19.兴山教育资源公共服务平台PjBL(Project-based learning) 项目式学习(PjBL)主要注重在一个长期的项目,在这个项目中,学生有机会去解决真实世界的问题并产出一个真实的产品。它鼓励学生进行设计方案、解决问题、批判性思考问题和调查研究。 它(PjBL)指在将学生置于作为工作者的环境中学习。在这种环境中,学生可以学习协作、运用批判性思维、书面http://xsx.i.yce21.cn/index.php?r=space/person/blog/view&sid=59a096cab7c149e1a13282209917e1b8&id=1618533946
20.Kaggle:YourMachineLearningandDataScienceCommunityIntro to Machine Learning 3 hours to complete Learn the core ideas in machine learning, and build your first models. Pandas 4 hours to complete Solve short hands-on challenges to perfect your data manipulation skills. Build your ML skills in a supportive and helpful community https://www.kaggle.com/
21.小学四年级英语手抄报内容写什么6、There is no royal road to learning. 学问无坦途。 7、Patience and application will carry us through. 忍耐和专心会使我们渡过难关。 8、Bend the willow while it is still young. 修树要趁早,育人要趁小。 9、A picture is a poem without words. https://www.51test.net/show/10684952.html
22.MLQLearning应用于具有连续状态的问题(Q在本课中,我们将把 Q-Learning 的相同原理应用于具有连续状态的问题,即由一个或多个实数给出的状态。我们将处理以下问题: 问题:如果彼得想要逃离狼,他需要能够更快地移动。我们将看到 Peter 如何使用 Q-Learning 学习滑冰,尤其是保持平衡。 彼得和他的朋友们创造性地逃离了狼!图片由Jen Looper提供 https://blog.csdn.net/sikh_0529/article/details/126959095
23.学习问题,learningproblem英语短句,例句大全13.Studying Learning Dynamic and the Question of Instruction in Mathmatics Classroom;数学课堂学习动力与“教学用问题”研究 14.Learning Anxiety --Learning mental health in the view of psychology;论学习焦虑——心理学视野中的学习心理健康问题 15.On Learning Dynamics of Learners in Online-course-design;网https://www.xjishu.com/en/002/y12012.html
24.英语名人名言:Learning学习英语名人名言:Learning 学习 z Learning is not attained1 by chance, it must be sought for with ardor2 and attended to with diligence. Abigail Adams (1744 - 1818), 1780 It is always safe to learn, even from our enemies; seldom safe to venture to instruct, even our friendshttp://skill.qsbdc.com/mingyan/mrenmyan/8543.html
25.电视剧看多了大脑会发生异变?② Observational Learning 观察性学习 如果说对暴力不敏感的冷漠者至少不会主动对他人施暴,在暴力剧情中习得的暴力倾向可就恐怖了。 斯坦福社会心理学家阿尔波特·班杜拉(Alburt Bandura)提出的观察性学习理论(observational learning theory),一度颠覆同时期心理学界的认知。 https://www.chunyuyisheng.com/articles/115143/
26.onlinelearning在线学习作文首先,它是最省钱的方法学习,因为学习可以学到他们想要以最低的成本。更重要的.是,对于那些很容易害羞,这是一个完美的方法,因为他们没有在公共场合说话。他们所需要做的就是与人交流use-able通过打字。最后但并非最不重要,只要我们有一个计算机连接到互联网中,学习者可以随时随地的课程。所以它更方便学习者。https://mip.ruiwen.com/zuowen/gaosannianjiyingyuzuowen/677872.html