宾夕法尼亚大学的工程师们研发出了一种新算法,能让机器人实时对复杂的物理接触作出反应,从而使自主机器人能够去完成此前无法完成的任务,例如控制滑动物体的运动。
这种名为共识互补控制(C3)的算法,或许会被证实是未来机器人的一个关键组成部分,其能把来自大型语言模型(LLM)等人工智能工具输出的指令转化为恰当的行动。
“你的大型语言模型可能会说:‘去切个洋葱。’”机械工程与应用力学(MEAM)助理教授、通用机器人、自动化、传感与感知(GRASP)实验室的核心教员迈克尔·波萨(MichaelPosa)说道。“你要怎样移动手臂来固定洋葱,握住刀,以正确的方式切开它,在必要时重新调整它的方向?”
机器人技术中最大的挑战之一是控制,这是一个涵盖性的术语,指的是对机器人执行器的智能化使用。执行器是机器人中能移动或控制其肢体的部件,比如电机或液压系统。
“那种中低层次的推理在让任何东西于物理世界中发挥作用这一方面确实是基础,”波萨说道。
波萨表示:“机器人工作表现一直不错,可一旦它们得开始接触东西,就不行了。当下的人工智能机器能够解决国际数学奥林匹克级别难度的数学问题,还能在国际象棋上战胜专家。但它们的身体能力顶多才跟两三岁的孩子差不多。”
从本质上来说,这就意味着机器人每一次涉及触摸某物的互动——比如拿起一个物体,再把它挪到别的地方——都得精心安排。波萨所在的动态自主和智能机器人(DAIR)实验室的应届博士毕业生威廉·杨称:“关键挑战在于接触的顺序。在所处环境中,你的手该放哪儿?你的脚又该放哪儿?”
当然啦,人类很少需要反复琢磨自己是怎么跟物体互动的。在一定程度上,机器人所面临的挑战在于,像拿起一个杯子这种看似简单的事儿,实际上却包含了众多不同的选择——从正确的接近角度,到恰当的用力大小。
“并非这些选择中的每一个都跟周围的选择有很大差异,”波萨指出。但是,到目前为止,还没有算法能让机器人评估所有这些选择并实时做出适当的决定。
为了解决这个问题,研究人员基本上设计了一种方法来帮助机器人“设想”与物体接触时可能出现的不同可能性。波萨说:“通过想象触摸物体的好处,您能在算法中获取与该交互相对应的梯度。”
在过去的一年里,波萨和DAIR实验室就这个主题撰写了一系列获奖论文,最近的一篇发布于arXiv预印本服务器,杨是主要作者,该论文在荷兰举行的2024年机器人:科学与系统会议上获得了杰出学生论文奖。
那篇论文展示了C3是如何使机器人能够实时控制滑动物体的。杨说:“在机器人技术中,滑动的控制是出了名的困难。从数学角度来说,这很难,但你还得依赖物体的反馈。”
但是,通过使用C3,杨展示了一个机械臂如何能够安全地操纵一个托盘,类似于餐厅服务员可能使用的那种。在录制的实验中,杨让机械臂时而拿起放有咖啡杯、时而拿起未放咖啡杯的托盘并放下,还让机械臂靠墙旋转托盘。“以前的工作认为,‘我们只是想避免滑动,’”杨说,“但该算法将滑动作为机器人需要考虑的一种可能性。”
未来,波萨和他的团队希望让该算法在应对不同情况时更加强健,比如当机器人处理的物体的重量比预期的略重或略轻时,并将该项目扩展到C3目前无法处理的更开放式的场景。
“这是一个构建模块,能够从一个非常简单的规范——让这个部件到那边去——将其提炼为机器人实现这一目标所需的电机扭矩,”波萨说。“从一个非常、非常复杂、混乱的世界,到对任何给定任务都重要的关键对象集、特征或动态属性,这是我们感兴趣的开放性问题。”