如果强化学习是问题,大模型是否是「答案」?丨GAIRlive算法智能体预训练

“强化学习让大模型具有了思考能力,大模型为强化学习提供了更开阔的思路。”

作者|陈鹭伊

编辑|岑峰

在当今大模型推动的新一波人工智能的快速发展浪潮中,大模型和强化学习技术的结合成为研究和产业界的焦点。尤其最近OpenAI最新模型o1的发布,强化学习成为o1的灵魂,更是印证了强化学习的潜力。

大模型凭借其强大的数据处理能力,为强化学习提供了丰富的知识。这种结合不仅极大地扩展了人工智能在处理复杂问题上的能力,也为强化学习带来了更深层次的洞察力和更高效的决策过程。强化学习,作为优化决策的一种方法,能够通过与环境的交互学习最佳行为策略。而大模型则为这一过程提供了必要的背景知识和先验信息,使得强化学习算法能够更快地收敛,更有效地处理未见过的新情况。

然而,新技术的发展同样带来了挑战。例如,如何利用大模型的知识拓展强化学习的泛化能力,提升强化学习在复杂决策场景中的策略性能,以及如何保证模型的可解释性。

近期,南洋理工大学安波教授团队的一篇论文《TWOSOME:AnEfficientOnlineFrameworktoAlignLLMswithEmbodiedEnvironmentsviaReinforcementLearning》上线期刊《InternationalJournalofArtificialIntelligenceandRoboticsResearch》(IJAIRR)。该论文提出了一个名为TWOSOME的框架,旨在通过强化学习(RL)将大型语言模型(LLMs)与具身环境(embodiedenvironments)对齐,以解决决策任务。

围绕该论文所讨论的强化学习与大语言模型、具身环境相结合的研究,雷峰网举办的「大模型时代的强化学习」线上研讨会,汇集了南洋理工大学安波、南京大学俞扬、华为诺亚方舟实验室/天津大学郝建业、清华大学许华哲等行业专家。他们的见解覆盖了从基础理论研究到产业应用实践,为我们提供了一个全面而深入的视角,以洞察这一领域的最新发展和未来趋势。

俞扬教授基于给定的问题进行了深入拓展,特别强调了世界模型的重要性,他认为构建准确的世界模型是实现真正智能决策的关键。他强调了强化学习在实际应用中的重要性和挑战,并通过在工业界应用强化学习的实际案例,讨论了如何利用强化学习优化复杂的决策过程。

我们今天晚上另一个话题是大模型,大家都知道这是这两年最火的方向。最近也出现了很多工作来结合这两个方向,这也是我们今晚讨论的话题。今天晚上我们很荣幸地邀请到了三位嘉宾。

南大的俞扬老师,是强化学习方面有很多有影响力的成果,他同时也在做强化学习落地的一些研究和应用。还有郝建业老师,来自天津大学,同时他又是华为诺亚决策智能实验室的主任。华为诺亚这几年做了很多强化的一些研究,都是在郝老师的领导下进行。最后是清华大学许华哲老师,许老师更多的做具身智能的研究。这三位老师既在一线做前沿研究,同时也深入技术应用与落地。

就接下来我会邀请三位老师分别做一个简短的自我介绍。然后接下来我们会问各位老师我们提前准备好的几个问题,然后最后我们会进入与观众的互动环节,现在请俞老师、郝老师和许老师分别做个自我介绍。

俞扬:大家好,感谢安老师的邀请。我是来自南京大学的俞扬,大概在13、14年前我博士毕业后,就一直在研究强化学习。近几年主要在做离线强化学习,就是强化学习怎么样能够更好用一些。

许华哲:大家好,我是许华哲,目前是清华大学交叉信息研究院的助理教授,今天也是特别荣幸受到安老师的邀请。我的研究方向主要是具身智能,这是一个很大的概念,会使用各种学习的研究工具,而强化学习是里面我觉得是未来最广阔,或者是未来最有前途的方法之一。我在强化学习方面的工作主要分两个部分,一个部分就是仍然持续地提升强化学习的sampleefficiency样本效率。我们希望它做得足够高效,让它可以在真实世界去实施。第二件事,就是说在这个基础上,我希望让机器人可以在不仅在仿真,而且还可以在现实世界去做强化学习,从而让强化学习真正落地到这个机器人这个领域,或者具身智能这个领域。

01

强化学习:成功应用与关键作用

安波:我首先想请教各位老师一个问题,各位老师都在一线从事强化学习的研究以及落地,有哪些强化学习的成功案例让您感到激动?并请谈谈它们在各自领域的推动作用。从俞扬老师开始。

这对我们来说是一个重要的应用案例,它展示了强化学习的实际应用。但是在社会层面上,这种应用可能没有引起太大的宣传效应,或者说我们说给强化学习的研究生们创造饭碗的这个效应可能没有那么强。如果从能够产生很多工作岗位的这个角度来说,我觉得这个可能最典型的成功案例就是用在大模型的RLHF,我们也做了一些工作。

可能有同学了解,RLHF还有其他路线的竞争,包括这个监督学习的路线的竞争。但是我们的研究表明,监督学习的方法得到的结果比强化学习的要差一些。包括我们自己的一些毕业生,也有去做大模型的RLHF的这个岗位。我观察到,强化学习现在变得更加的成熟,逐渐地在越来越多的场景里面能够更多的能够用起来,至于它用起来产生的社会效益是否轰动可能还不太好去评价。

郝建业:刚刚俞老师提到强化学习在推荐领域的应用,我觉得可能是深度强化学习出现之后最火的应用场景之一。另外一个就是游戏,GameAI,很多游戏公司包括网易、腾讯其实有很多应用,包括现在游戏背后的NPC,很多都是强化学习训练的结果。

此外我想举两个可能不太常见的例子,一是工业界的软件优化,比如说EDA的芯片设计这块,它本身有很多非常复杂的多目标时序优化问题,过去几年,我们尝试把强化学习应用在这个领域,当然不仅仅是强化学习,还包含一些其他的优化技术的组合,但强化学习在里面发挥一个比较关键的作用,实现比较复杂约束和搜索空间非常大的情况下的优化问题。

另一个例子是自动驾驶。比如在自动驾驶的关键博弈场景中尝试应用强化学习,实现类人的博弈策略,提升自动驾驶车辆在复杂路况下的通行效率。

大模型方面刚刚俞老师也提到了,我们过往经验发现,强化学习不仅仅像最开始OpenAI提出,用RLHF来做安全的对齐,它还可以在大模型的全链或者全栈的基础能力提升中发挥关键的作用。从理论上看,PPO、DPO等算法的优化的这个范式和标准的SFT是不一样的,可以发挥一些SFT无法实现的能力,可以帮助我们在这个预训练到SFT之后的后训练阶段发挥更加关键的作用。

总的来说,强化学习作为一种通用优化工具,是一套非常有效的方法,可以帮助我们在各种复杂决策场景中提升策略性能。

许华哲:我的观察主要在我做得比较多的机器人领域,特别是强化学习用在机器人里面的LocalMotion,就是步腿式机器人或叫足式机器人的步态优化上面。自2019年ETH的机械狗使用强化学习方法成功爬山和越过障碍物以来,这一技术已经衍生出许多创新,包括CMU和清华大学在机械狗跑酷方面的研究。后面催生出来的双足机器人也通过强化学习来进行步态控制。

我觉得这是强化学习在具身智能和机器人领域的一个巨大的应用。这件事的重要性在于,强化学习基本上从研究上确定了SIMtoReal这件事,在步态控制这件这个方向上面是可以落地的,是可以真正用在现实中的商用的机器人上面。从商业的角度,这样一个技术创造了大量的工作岗位,现在那么多的机器人创业公司,几乎每一个公司都有一个强化学习小组专门研究控制机器人的下肢。

此外,我还注意到了lyft用强化学习去优化出租车和网约车调度的情况,这可能也适用于国内的滴滴或者美团。刚才郝老师说,强化学习作为一个非常强的优化器,甚至有的时候叫Superhuman,超过人类的优化器,能够在我们认为已经达到极限的地方进一步优化,为公司节省大量成本。尽管这种应用还没有广泛铺开,但已经展示了强化学习在未来发展中的潜力。

02

接下来我们进入今晚的核心议题:大模型与强化学习的融合。大模型基于大量的数据进行训练,具备了通才的能力,许多人开始利用大模型作为系统的"大脑",完成以前无法实现的任务。在大模型与强化学习的结合方面,也有很多工作,例如解决强化学习中的一些问题。

许华哲:虽然我不是做大模型的,对大模型相对来说了解不是那么深入,但我也听说了很多强化学习与大模型结合带来的好处,比如说大家都知道最典型的RLHF(强化学习中的人类偏好反馈),通过让人类评估的偏好指标来指导大模型的输出,用强化学习使得它输出的东西不仅正确、通畅的,而且还是人类喜欢和期待看到的。

我们看到大模型有两个特点:第一,它总是(基于自己的知识)很客观积极地回答问题;第二,它倾向于分点阐述,如1、2、3、4。这在一定程度上反映了RL的作用,即分点阐述的重要性。大家平时听别人汇报工作还是给别人汇报工作,都可以感受到分点是非常重要的,很显然标注员也是这样的偏好,RL成功地找到了优化方式,使大模型能够像人类一样给出答案。

此外,我认为大模型跟强化学习还有更深层次的结合潜力。以我们自己的一个项目为例,RLHF不仅可以作为一个通用的优化器,还可以learningfromothers,还可以通过学习其他大模型来提升自身能力。这在某种程度上是一种知识蒸馏的过程,除了通过监督学习进行蒸馏外,还可以通过RL来蒸馏其他模型,从而补全和增强大模型的能力。

许华哲:大模型展现了优秀的规划能力,例如,在Minecraft中,当你问它如何获取一个钻石时,它能够提供详细的步骤。它通过阅读网上的攻略,观看网上的视频和学习网上各种文字论述,它会告诉你你要先有一个锄头,然后挖掘一种特定的黑色矿石,再把这个矿石通过什么方式升级成钻石等等。这里最常用的一种方法是,利用大模型做顶层的Planner(规划器),然后底层的执行可能由强化学习或者其他的Controller(控制器)完成。

另一种方式是大模型以VLA(视觉语言代理),直接输出底层动作来完成任务。这方面还在一个研究的初始阶段,并没有一个特别成熟的方案。

介于这两者之间的方法是,大模型输出中间表征或中间状态,这种中间状态不是简单的指令,而是具体的指导,如在地图上标记一个框,指导玩家前往并挖掘。这种中间表征能有效解决LongHorizon长距离的任务,这是传统强化学习难以处理的问题。

郝建业:谈到大模型对强化学习的帮助,我们可能先从以前做强化学习包括深度强化目前面临的问题来谈起。传统强化学习主要在特定环境下使用,挑战在于如何快速地以Online的方式学习到适应当前任务的策略。这通常需要事先对问题进行一个很好的任务定义,包括MDP(马尔可夫决策过程)的构建,包括状态和奖励函数怎么定义。奖励函数的设计对于训练结果至关重要,需要大量的人工的介入,这是以前强化学习的一大挑战。

大模型的出现为这些问题提供了解决方案。首先,大模型可以自动化评估奖励函数,这是目前一些研究工作的重点。包括在具身领域,例如Eureka项目,利用大模型来自动化地提供一个比较好的奖励函数,使强化算法在任意的环境下更加高效和自动化地和环境交互,学习到好的策略。这是大模型在奖励函数设计方面提供的新手段。

其次在表征方面,以前需要精细设计以提升策略的泛化性,包括去学习到一个比较好的表征来去提升策略的泛化性。基于transformer的大模型架构,给我们提供了一个新的思路,我们可以借鉴语言大模型的思路,如果有大量不同决策任务的数据,可以训练出具有强泛化性的决策函数(policy/taskextendedvaluefunction)。这对于强化学习来说,是一个新的思路。如果我们有海量的不同决策场景的高质量数据,那我们是否可以类似于大模型一样预训练一个从SFT,到RLHF、RLEF(RLFromEnvironmentFeedback)的全链条的、面向决策领的通用决策大模型?大模型对于强化学习的一个启示是可能会颠覆我们现在对决策领域的认知,可以借鉴语言大模型的思路去实现决策领域的通用大模型,这可能是未来探索的重要方向。

最后一点刚刚其实俞老师也提到,大模型本身具备对世界的良好认知,所以它可以帮助我们做一些比较复杂的上层任务的拆解,然后底层配合基于强化学习的控制,去实现一些更加复杂的物理开放环境下的决策能力。

俞扬:我们讨论的问题是语言模型对强化学习的帮助。首先我想阐明的一点是,强化学习它是一个任务,它不是一个具体的技术方法。我们要解决的是一类多步决策的问题,这一类问题我们把它做强化学习的问题,也就是说我们首先面对的是一个决策问题,可能采用多种不同的决策的技术,如运筹规划。这种多步的和环境交互的这种决策可以归到强化学习这一类任务,它不是通过数学定义的一个式子,而是要和环境进行交互从样本中学习,它并不是说某一种很具体的算法所代表的技术。

强化学习面临的挑战在于,就是我们今天看到的所有强化学习成功的案例,都是非常特别的应用案例,非常专注解决一个很具体的一个问题,如下围棋。一旦下围棋的模型训练出来后,这个模型本身是不能去解决其他问题,这显示了强化学习的通用性不足。我们希望强化学习能解决多种问题尤其是多步决策的问题,主要面临两个方面的挑战,首先,技术门槛较高,对强化学习概念和算法的理解要求高,可能比其他领域更高。其次,在应用水平上也有更高要求。这些要求之所以高,是因为强化学习处理的是决策问题。如果观察其他决策任务,如运筹规划,会发现应用常局限于特定行业。

例如,我们设计了很多运筹规划的算法,但从企业层面,这种应用经常往往固定在某些领域,如特定行业的排班排产。这在一定程度上是由决策本身的性质造成的,决策结果的要求通常非常高,与预测类问题不同,大模型这个语言输出错了还可以再改一下,但是决策类的问题,质量的输出的要求会很高,因为决策错误的代价可能很大。因此在实际应用中,需要结合领域知识和专业背景,达到一定水平才能有效应用。我们发现,要满足决策应用,强化学习的通用性通常不足。

大语言模型火了一年多、快要接近两年,它带来的帮助主要体现在其学习了大量数据,展现出较好的通用性。这种通用性有潜力弥补强化学习在通用性方面的不足。这里的“潜质”意味着大语言模型有可能帮助强化学习扩展其通用性,尽管面临的挑战依然很大。

首先我们看到语言模型本身正朝着智能体(agent)方向发展。在智能体领域,大多数任务都是决策类的,因此也会面临决策任务的挑战。决策任务与语言生成任务是两个完全不同的任务,只不过我们是希望语言模型能够再往前走一步,去执行决策任务。

目前,智能体的应用还未达到理想的效果,因为它涉及到决策任务。一旦涉及到决策任务以后,由于它天然的这种对于决策准确度的这个要求,对决策准确度的要求自然提高。语言模型之所以受欢迎,一方面是因为它在应用上的要求较少,主要作为人的输出辅助,将语言输出给人,再由人进行加工。这种辅助性行为在人不懂的地方表现得非常好。但当我们真正需要解决决策问题时,面临的挑战是人的专业性,通常需要专家来做出决策。智能体需要至少达到专家的水平,很多时候我们甚至要求它比专家做得更好,才能在实际中得到应用。

这种在任务性质上存在的天然的差别,让我对今天的语言大模型是不是真的能够帮助强化学习拓展它的通用性持一定的怀疑态度。例如,在Minecraft中表现出色的示例,我们去发展一个技术,希望它有一定的智能的能力,那么我们一定是希望能够控制他的这个能力,我们要知道这个能力从哪来,这个能力是怎么形成的?如果他不具有一个能力的话,我们怎么能够让他加强?如果他这个能力超出我们的这个希望他能做的这个范围,以后我们怎么去控制他?目前的语言模型似乎难以控制,换句话说我们不清楚它究竟能解决什么问题。

我认为目前的方案尚未形成一个完整的体系。进一步讨论涉及到所谓的智能核心是什么。一些人可能认为智能以语言模型为核心,但从生物学角度来看,只有人类具备完整的语言能力,但并非只有人类拥有智能;或者一些失去语言能力的人仍然具有智能。大脑结构中,语言所占的部分非常小。所以语言模型它是不是智能的核心呢?当然目前还没有结论。

03

未来展望:潜在突破与当前瓶颈

安波:谢谢俞老师,他进一步提出了大语言模型是否通向通用人工智能道路等更开放的问题。

从刚才各位老师的分析来看,大家都基本认同大语言模型至少在某些任务上提升了强化学习的能力。例如,之前无法用强化学习或其他方法完成的任务,现在借助大语言模型广泛的基础知识,提高了效率,解决了之前无法完成的工作,等等。

当然,还有很多基础问题,比如大语言模型是否是实现智能的正确道路,以及强化学习的方向,一直存在争议。有人质疑语言模型的正确性,对强化学习也有不同看法。尽管存在争议,但大模型的引入无疑解决了之前无法解决的问题。

我个人认为,重要的是解决问题,而不是争论哪个是最终解决方案。我们应该避免只有批评没有建设性建议的情况。这也是YannLecun攻击GaryMarcus的时候的观点。

接下来,我们按计划讨论第三个问题。假设大语言模型或基础模型对未来的强化学习有帮助,您认为未来一到两年可能在哪些领域出现突破性进展?目前的瓶颈在哪里,我们能做些什么实现巨大突破?关于大模型与强化学习结合前景的展望,哪些问题值得大家研究?我们还是按照刚才的顺序,请许老师先开始。

许华哲:关于未来的展望,我觉得刚刚郝老师聊到的一个方向还远远没有做透,即如何利用大模型提供监督信号或引导来辅助强化学习。我们在实践中遇到许多问题,比如大模型反馈速度慢,最快可能只有三赫兹,而强化学习通常需要密集的奖励信号,可能我需要这个每一步都有一个Reward,在这种情况下,如何让大模型提供足够的反馈以支持强化学习,实现无需人工设计奖励函数的训练?因为强化学习被这个批评的一个点就是人工设计的部分很多,我要抓一个小物块,那我也需要把距离,然后把这种各种惩罚都写到奖励函数里,那这套东西能不能真的完全的高频的靠大模型给出?这是一个非常有意思的课题。

在决策方面,我们之前也尝试用大模型与强化学习联合解决一些有趣的问题,如旅行商问题或在三维空间拼图,这些都是NP-hard问题。单靠RL可能复杂度非常高,然后单靠大模型可能只能给出一个近似正确或者直觉的一个解,我们尝试让大模型提供直觉,然后让强化学习在直觉附近进行优化,我们已经做了一些初步的尝试。

安波:谢谢许老师,许老师刚刚更多的讲的是其他的RL与大模型结合,用RL来Finetune大模型,或者大模型来帮助RL训练,比如我们之前看到几个月前伯克利的DigitRL之类的工作,应该是属于这个思路。下一位是郝老师。

郝建业:首要任务是利用强化学习(RL)提升大模型的技术能力。许老师刚才也提到,根据我们自己的经验和业界公开信息来看,在整个后训练阶段,除了监督式微调(SFT)之外,RLHF(强化学习中的人类偏好反馈)可以发挥更关键的作用。特别是,RLHF可以与SFT深度融合,通过多轮迭代,在后训练阶段全方位提升大模型的基础能力。我们认为,RL技术在这方面可以发挥越来越重要的作用,具有SFT不可替代的优势。

另外,大模型与RL的结合面向未来广义智能体(Agent)的应用场景,无论是虚拟的智能体,如App智能体、Web智能体,包括数据科学智能体(DataScienceAgent),甚至未来可能出现的操作系统级智能体,帮助人类操控APP,实现与虚拟世界的复杂交互需求。还有面向具身场景的,如何让机器人在与物理世界的交互中持续自我演进,RL在这里可以发挥非常关键的作用。如何让智能体具有持续自我演进的能力,RL技术在未来广义的智能体技术演进中将发挥非常关键的作用。

安波:俞老师怎么看?

俞扬:关于强化学习与大语言模型结合的未来和可能的突破,我们目前观察到无论是语言模型还是多模态模型,它们通常缺少一个关键元素,即行动(action)。我们的决策并不包含在输入中,因为文字就是文字,图像和文字经过编码后混合在一起。如果行动的输入被纳入模型,我们更愿意称其为世界模型,即通过每一步的不同决策引导模型朝不同方向发展。

如果我们想象我们能够构建一个模型,对任何给定的决策都能准确预知未来,那么我们所谓的全L5级全自动自动驾驶可能就能实现,能够执行各种服务任务的服务机器人、人形机器人也可能成真。

所以至少我个人觉得,世界模型是我们追求的东西,在技术体系中是一个非常缺失的环节。技术上,如何将决策加入模型,对各种不同决策,甚至是数据中未见过的决策,能够给出准确的响应,是一个值得我们深入研究的问题。

在前沿研究中,专门解决行动输入问题的研究并不多。目前的尝试与大语言模型技术类似,主要是针对数据进行训练。DeepMind在尝试构建世界模型时发现,仅凭高质量的数据训练是不够的,因为数据只能展示一种决策,或者是相似的一些决策能够带来什么样的结果。对于不同的决策,尤其是数据中未出现的决策,其结果无从得知,这就造成了决策维度的数据缺乏。而这种数据的缺乏,用当前构建和收集大数据的技术手段可能无法解决。以下围棋为例,围棋每一步的走法都是一个决策,如果都要收集,光围棋这一件事情,那么产生的数据量将远超现有数据。

因此,在缺乏数据的情况下,如何提高模型的泛化能力,使其能够预测不同决策的后果,是一个需要进一步研究的重要方向,也是我们正在探索的方向。

另外,YannLeCun最近讨论了强化学习与MPC(模型预测控制)的对比。他所指的强化学习是非常狭义的,即只能通过与环境的交互来学习。而他所说的MPC,广义上讲,就是世界模型。实际上,我们所做的大部分强化学习都可以归为MPC类别。因此,他们在Twitter上的争论,关于经典强化学习是否必须通过试错来学习,对于我们这些强化学习研究者来说,并不是一个需要争论的问题。

04

探索强化学习的边界:开放性问题与挑战

安波:感谢各位老师的深入讨论。俞老师最后提到了从语言模态出发是否能解决所有问题,以及数据空间的问题。我个人认为,我们需要世界模型,但由于数据缺乏,我们无法获得。但强化学习的探索能力,我们可以与环境交互,基于当前的感知,似乎是解决数据缺乏问题的一种方式。

其次,我非常感兴趣的是,能否通过强化学习优化出一些更有趣的,类似于生物进化的效果。大模型在某种意义上是直接跳过了所有的发展规律,将人类的数据堆砌给机器,让机器去拟合这些数据。而强化学习则更像是允许机器去试错和发展,在这个过程中,它可能会发展出一套与传统大模型学到的不同的、更适合机器的智能。

我觉得这是一个非常有趣的方向。例如,如果我们想让机器人跑得更快,如果我们只是让它学习人类数据,它可能最多只能达到博尔特的水平。但如果我们让它通过强化学习自行探索,它可能发展出某种神奇的跑法,跑得比人类更快。如果我们有一个足够精确的模拟器来模拟世界的一部分,那么它很可能可以衍生出一套属于机器自己的智能,这也是一个值得探索的有趣领域。

安波:谢谢许老师,有请郝老师。

郝建业:如果我们单独看待强化学习,它其实就是一种比较通用的优化工具或技术。但我们希望通过不同优化手段的组合,针对特定领域的实际问题,形成一套通用的优化解决方案,这是我们的最终目标。所以我觉得无论是强化学习,还是传统演化学习、贝叶斯优化等其他优化方法,它们之间具有很强的互补性。我们可以将这些方法有机组合,实现优势互补,帮助解决复杂优化问题,无论是生成高质量数据还是提供在线快速自我学习和演进的能力,都能发挥非常关键的作用。

因此,大模型和强化学习是互补的。大模型提供了更开阔的思路,我们借助高效的优化方法组合,针对特定问题实现解决复杂通用优化问题的能力。这个领域未来的发展空间非常大。

另外,关于强化学习效率低的问题,我们可以类比人的成长过程。婴儿通过与周围人的交流进行预训练,类似于大语言模型的预训练,以及通过观察周围事物进行多模态预训练。更重要的是,婴儿从出生开始就通过手和脚去认识世界,如果大家有小孩就会注意到,他们喜欢抓各种物体,撕各种东西,通过自我学习的反馈,经过多年的学习,才形成了成人非常灵活的抓取能力。成人之后,进行复杂精细的操作也需要持续的交互学习。

和人类相比,目前算法的样本效率是比较低的,我们可以利用强大的算力和仿真技术来弥补这一问题。通过类似于分身的概念,智能体可以并行地与虚拟环境交互,让智能体快速复制经验,并通过强化学习手段快速提升能力。随着大模型技术、算力和仿真技术的进步,仿真的真实度越来越高,未来有望实现面向特定领域的通用决策模型。

安波:谢谢郝老师,谈到这个数据的问题,也请俞老师展望一下未来的挑战或者前景。

在这样的环境下,我认为核心挑战在于如何定义我们在开放世界中要完成的任务。这个定义不能由人来完成,因为一旦定义,它就变成一个封闭的任务。那么我们就可以使用现有的求解器,包括强化学习和其他技术来求解。

所以,我认为关键在于如何定义问题。未来在自动驾驶、具身智能等领域,我们面对任务后能否迅速将当前环境和任务定义为一个封闭场景,然后用现有技术解决,这是我们正在努力的方向。

前面提到的世界模型,就是希望它能够做到这一点。至于数据,我始终认为数据越多越好,在同等技术条件下,我们能够实现的效果肯定是越好的。但从智能的根本上讲,智能不应该仅仅通过大量数据堆砌形成,我们应该探索如何提升算法和模型的“智商”,而不仅仅是大量喂食数据。当然,这是一个实现途径,在同等智商条件下,题目越多越好。但能否用少量数据就能获得高智商的智能体,就像人类一样,虽然一生中接触的数据有限,但都能具有相当高的智力,这是我们希望长期能够接近的目标。

安波:俞老师今天晚上多次提到世界模型,我想问一下你们最近在这方面有什么新进展吗?比如在特定领域,你们正在开发的模拟器等。

有观众提出了一个问题,是否可以通过多智能体强化学习与大模型的结合来提升大语言模型处理复杂决策任务的能力,如果可以,可能从哪些角度进行结合?

郝建业:我想补充一点,过去半年到一年,我们安排了一些学生专门研究多智能体建模技术是否能够提升大模型的技术能力,比如推理能力。我们看到一些比较火的技术,如XOT,都是基于树或图搜索的方法,探索多智能体方法是否能在其中发挥独特作用。目前我们的阶段性发现是,这种作用可能并不大。无论是通过谈判、促进或赋予不同角色的方式,尝试通过组装来提升大模型的通用能力,虽然确实有一些增益,但并不明显,可能还会带来额外的计算成本。

我们也有博士生在面向特定领域的特定问题上进行研究,比如基于现有的大模型能力,是否可以通过多智能体建模方法,赋予不同角色处理复杂问题,从各自角色角度进行推理,然后将推理结果进行聚合分析,希望能形成一个更好的结论。这样的思路目前看会有一些增益,但增益并不显著。

这肯定不是一个最终结论,我们还在持续探索更好的多智能体建模方法与大模型结合的方式,以提升大模型的技术能力或在特定领域的表现。这仍是一个值得持续探索的方向。

在此,我想插播一则消息。对于我们今天晚上未能充分讨论的话题,我们诚挚邀请大家在今年12月来新加坡继续我们的探讨。12月,我们将在新加坡举办下一届分布式人工智能会议,这将是一个高水平的交流平台。我们的KeynoteSpeaker包括著名的RichardSutton,他很少出国,但今年将会亲临新加坡。

今晚的交流就到这里,我相信未来我们还有更多机会深入讨论这些话题。有一点非常明确,那就是强化学习无疑是实现未来人工智能的重要途径之一。我们不讨论它是否唯一,但它绝对是一个重要方向,越来越多的人正在参与其中。在过去几年人工智能取得的重要进展中,包括最近的RHLF,我们都看到了强化学习的贡献。

专访优必选庞建新:在大模型时代推动机器人智能化丨GAIRlive

对话武汉大学李淼教授:以大模型视角看待一切机器人问题丨GAIRlive

THE END
1.深度强化学习离线强化学习(OfflineReinforcementLearnin数据获取:离线强化学习使用预先收集好的离线数据,这些数据通常是通过模拟、历史记录或其他方式获得的,而不是在实时环境中采集得到的。 训练过程:在离线强化学习中,模型使用这些离线数据进行训练,目标是从这些数据中学习到一个良好的策略,而不需要与真实环境进行交互。 https://blog.csdn.net/qq_40718185/article/details/139231769
2.万字专栏总结离线强化学习(OfflineRL)总结(原理数据集离线强化学习(Offline RL)作为深度强化学习的子领域,其不需要与模拟环境进行交互就可以直接从数据中学习一套策略来完成相关任务,被认为是强化学习落地的重要技术之一。本文详细的阐述了强化学习到离线强化学习的发展过程,并就一些经典的问题进行了解释和说明。 https://cloud.tencent.com/developer/article/2119884
3.离线强化学习图18-1 离线强化学习和在线策略算法、离线策略算法的区别 18.2 批量限制 Q-learning 算法 图18-1 中的离线强化学习和离线策略强化学习很像,都要从经验回放池中采样进行训练,并且离线策略算法的策略评估方式也多种多样。因此,研究者们最开始尝试将离线策略算法直接照搬到离线的环境下,仅仅是去掉算法中和环境交互的https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
4.科学网—[转载]强化学习在资源优化领域的应用强化学习中的两大主体分别是智能体和环境。强化学习智能体通过不断地与环境进行交互来收集经验,并从经验中进行学习。对于一个给定的状态s,智能体采取动作a后,环境将跳转到下一个状态s′,并返回一个奖励r,这样就得到了一条经验数据 。智能体与环境交互过程中的全部状态、动作序列 https://blog.sciencenet.cn/blog-3472670-1312677.html
5.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
6.AIR学术李升波:将强化学习用于自动驾驶:技术挑战与发展趋势那么什么是强化学习呢?强化学习是一种模仿动物学习行为的自学习决策方法。研究表明:动物(包括人类)是通过不断地探索试错进行学习的,尽量重复带来奖励的行为,尽量避免产生惩罚的行为。实际上强化学习与最优控制是具有密切关联性的,强化学习是寻找最优策略、最大化未来累积奖励的过程,它与最优控制存在本质上的关联性。因https://air.tsinghua.edu.cn/info/1008/1323.htm
7.基于模型的强化学习综述南京大学最新《基于模型的强化学习》综述论文,值得关注! 强化学习(RL)通过与环境交互的试错过程来解决顺序决策问题。虽然RL在允许大量试错的复杂电子游戏中取得了杰出的成功,但在现实世界中犯错总是不希望的。…https://zhuanlan.zhihu.com/p/543927335
8.离线强化学习BAIL51CTO博客已为您找到关于离线强化学习BAIL的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及离线强化学习BAIL问答内容。更多离线强化学习BAIL相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。https://blog.51cto.com/topic/6c74179bba90ab2.html
9.叶志豪:介绍强化学习及其在NLP上的应用分享总结雷峰网基于价值函数的强化学习,它先通过对现状进行一个价值函数的估计,进而去提升策略,估计这个策略,再重复循环,再估计当前策略下的函数,再用当前价值函数来提升它的策略,两步,第一步估计价值函数,第二步是提升它的策略,这两步一直循环。 基于值的函数分为在线学习和离线学习两种方式,在线学习的代表学习方法是 Sarsa,离线https://www.leiphone.com/news/201807/sbyafpzV4BgvjLT1.html
10.2020年媒体技术趋势报告:13大领域89项变革全输出强化学习(Reinforcement Learning, RL)是处理决策型问题的强力工具,应用于AI系统训练,使之拥有超出常人的能力。在计算机模拟过程中,一个系统尝试、失败、学习、实验,然后再次尝试——这一系列步骤都能飞速完成,且每次试错都会对它的未来尝试有所修正。 我们所熟悉的AlphaGo就是基于RL机制学习如何决定战胜人类棋手。但这https://36kr.com/p/5267903
11.基于多智能体深度强化学习的配电网无功优化策略2022 基于多智能体深度强化学习的配电网无功优化策略 邓清唐1, 胡丹尔2, 蔡田田1, 李肖博1, 徐贤民2, 彭勇刚2 (1.南方电网数字电网研究院有限公司, 广东 广州 510663; 2.浙江大学电气工程学院, 浙江 杭州 310027) 摘要: 配电网中光伏,风机设备出力随机波动以及负荷波动带来的电压波动,网损增加等问题,给 https://ateee.iee.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2435
12.机器学习算法(三十):强化学习(ReinforcementLearning)采样训练耗时过长,实际工业届应用难:强化学习需要对每一个State下的每一个Action都要尽量探索到,然后进行学习。实际应用时,部分场景这是一个十分庞大的数字,对于训练时长,算力开销是十分庞大的。很多时候使用其他的算法也会获得同样的效果,而训练时长,算力开销节约很多。强化学习的上限很高,但如果训练不到位,很多时候https://maimai.cn/article/detail?fid=1749861184&efid=Dzf4eWhxLCHYstlDhGGteA