微亿智造CEO:具身智能落地工业场景,人形不一定是最优解 关于人形机器人是否有用的争论还在继续,比如,工业场景是否需要人形?「如果工业场景有一个具备感知认知执行的能力的智能体... 

关于人形机器人是否有用的争论还在继续,比如,工业场景是否需要人形?

「如果工业场景有一个具备感知、认知、执行的能力的智能体,人形并不一定是工业现场中的最优解。」

这是微亿智造张志琦的观点,他们刚刚推出了一款具身智能工业机器人「创TRON」,实现了LLM在机器人领域的技术落地和商业化。

大模型在工业场景,相比消费端,在数据上有更多的优势,「(大模型)集成到工业领域后,我们能够在每个场景中积累数据,并通过机器人载体有效执行和落地,沉淀有价值的数据。」

一些有趣的点:

具身智能工业机器人会改变行业对自动化的思考。传统的流水线设计,把人当机器一样去「使用」。通过流程和SOP标准化,去除个体差异。稳定后,再逐步用机械设备替代人力。但当机器人具备人类的理解和认知能力,能够基于感知来思考,同时在执行侧又能够像人一样灵活应对执行任务,工作流要发生变化。

「创TRON」在设计上对标人类员工。人有时会犯错,它也会,但有机制来纠正和提升。类似于自动驾驶的L1-L5级别,「创TRON」大概是L2、L3级别。它需要人类监督,在执行时,发现问题,及时纠正,而这些纠正会帮助模型在下一次的能力提升中表现得更好。

从AI公司成长为机器人公司很难,从机器人公司成长为AI公司也很难。像「创TRON」这种具身智能产品,必须是硬件与软件、机器人与AI的深度结合。今天很多人形机器人公司动辄有400-500人的团队,至少需要200多人的硬件团队,100多人的算法和软件团队,才能逐步将产品做起来。

艾之:这不是你们合作的第一款机械臂产品了,能不能请您先介绍一下,相比之前的产品,「创TRON」从功能到任务完成上,有哪些突破?

张志琦:「创TRON」这个产品是微亿智造和捷勃特联合推出的第一款具身智能工业机器人。为什么称它为具身智能工业机器人,与传统的机械臂有什么区别?这个机器人在使用的过程中,真正实现了从传统的人工编程或手动拖动方式的示教过程,转变为自动落地执行。这跟传统机器人在传统的机械臂中间加上视觉能力的方式有很大差别。

可以通过视频看到,这款机器人就像一个学徒。一般在工业现场,师傅带徒弟时,师傅演示一遍,徒弟在旁边看一遍,然后自己操作一遍,如果操作正确,徒弟就算合格上岗了。我们的「创TRON」也是类似的模式,师傅做一遍,机器人通过视觉系统「看」一遍,然后在仿真系统里学习,再在真实物理环境中操作一遍,所有这些事情成功之后,最后把所有指令下达给工业机器人,工业机器人就能用更高效、更精准的方式完成所有工作。

这就是「创TRON」与传统机器人之间的最大差异。过去我们看到的是冷冰冰的自动化设备,而今天的「创TRON」是一个活生生的、可以和人进行交互的智能化产品。

同时,它在执行过程中如果遇到任何干扰,比如运行线路被阻挡、抓取过程中受到干扰,东西掉了、被拿走等等,它都可以自己感知、修正,继续执行任务。这是传统自动化设备无法实现的,而具身智能的工业机器人有能力处理这类任务。

艾之:过去的自动化机械臂生产线上是不存在这样的任务学习环节的。那传统的自动化机械臂在生产线上,如何把一个任务分解为不同机械臂需要协作和执行的指令?

贺岩:传统工业机器人要在线上工作的话,实际上并不是简单的把人替换成机器人。这是一个很复杂的过程。

首先,原始材料要规整地排列在固定的位置上,然后要有工程师为机器人编程,这是需要专业知识的,只有专业的机器人工程师才能编写程序,告诉机器人去哪个点抓取物品,在哪个点安装。每一步都要程序化地编好。

这个过程要求两点:一是上料必须规整,二是编程初始化。这是传统工业机器人替代工人的过程,非常复杂。而「创TRON」就像一个学徒,能在师傅示范下学习并完成任务,这是一个革命性的突破。

艾之:大家挺关心机器人在实际应用中的稳定性,机器人在跟真实的人交互的时候,表现的稳定性如何?

贺岩:实话实说,我们确实有失败的案例,但我认为,失败的案例在整个过程中给我们提供了很多学习机会。同时,我觉得「示教」这个切入点选得非常好。

正如志琦总提到的,大多数工业场景对可靠性、容错性要求很高,而「示教」这件事本身是有一定容错性的。比如我示范一次,你做错了,我告诉你错了,再做一遍,直到你做对为止。这个过程就像ChatGPT一样,你回答错了,我告诉你错了,再来一次,直到你答对为止。在「示教」环节,目前这个状态下,它是可用的,并且能创造很大的价值。

艾之:对,在一些对容错率要求相对宽松的场景里,它已经达到了实际可用的状态。

张志琦:我们在现场演示时分为两部分,一部分是学习区,另一部分是工厂的执行区。坦白说,在学习过程中它确实有时会出错。因为背后的操作流程是机器人先在仿真环境中学习,再在实际环境中执行。就像人类员工,能力稍弱的徒弟第一次不一定能学会,没学会,师傅就得再教一遍。而在每次教学的过程中,系统其实会通过这些失败的样本,进一步将数据回流到模型中,进行进一步提升。而在执行区,也就是工厂那一侧,成功率非常高,因为那部分是在高效环境下执行的。

所以,「创TRON」这个产品本质上就是对标人类员工的。人有时会犯错,它也会,但我们有机制来纠正和提升。同样的,我们的机器人在执行时也有监督机制,类似于自动驾驶的L1-L5级别的过渡,今天我们的产品大概是L2、L3级别。它需要人类监督,在执行时,发现问题,及时纠正,而这些纠正会帮助模型在下一次的能力提升中表现得更好。这是我们觉得比较有意思的一点。

当然,在实际现场我们也遇到过一些意外情况。比如这次国际工业博览会上,很多媒体对设备感兴趣,拿着闪光灯猛拍,结果我们突然发现,一个机器人的「眼睛」暂时失明了,因为闪光灯太强烈了。这其实是个很好的Badcase。接下来我们就要考虑怎样让模型更好地处理这种干扰,快速修正和恢复,确保在学习过程中能更有效地执行。

所以,我们认为,AI和具身智能类产品最不怕失败,只有在这种模式下,才能有效提升模型能力。不过,我们需要解决的核心问题是,如何在工业现场中将这些失败变为可控因素,从而让产品能够真正落地和执行。如果产品一直不稳定,坦白讲,像人类员工一样,如果他一直不稳定,早就被解雇了。如果我们的产品也不稳定,肯定也没人用。

艾之:作为一直深耕工业领域的人,具身智能概念火起来之后,给这个行业带来哪些变化?

贺岩:具身智能这个概念兴起之后,尤其是马斯克公布了他的人形机器人计划,让人们对未来有了更高的期望,比如我可以做百万台甚至上千万台低成本的机器人。我切身的感觉是,可选的供应商变得越来越多了,因为越来越多供应商对这件事充满了希望,会在之前比较小众的零部件上投入更多资源。

对于我们来说,可以想象一下,如果人形机器人售价是2万美金,那么单个手臂的成本可能会低至2,000美金,这样的话,在很多场合,我们可能不需要整个人形机器人,只需要一个手臂就能完成很多任务,怎么算账都算得过来。

张志琦:人形机器人火了之后,让工业场景也变得更热闹了。大家看到打工人突然多了一个「钢铁之身」,能够帮助我们解放人力。

传统的流水线设计,把人当机器一样去「使用」。通过流程和SOP标准化,去除个体差异。当这种模式稳定后,再逐步用机械设备替代人力。但现在突然出现了一个「钢铁之身」,这个机器人具备人类的理解和认知能力,能够基于感知来思考,同时在执行侧又能够像人一样灵活应对执行任务。它在突然间就改变了我们对自动化的许多思考。

以前自动化追求的是高效率,牺牲的是柔性和个性,大家一直认为效率和柔性是矛盾的。而现在,好像来了一个新事物,可能有机会把效率和柔性统一起来。

柔性化:一般机器的小批量快速量产能力,相对于通用的定制化,需要有更多灵活性。

当然,目前人形机器人在工业现场的效率还不够高,需要加快,还在努力解决柔性化的问题。但我们想通过「创TRON」这款产品,让行业理解,实际上我们是有机会将柔性化和高效率结合起来的,因为这才是真正意义上工业的需求——就是要做到比人更好,才能真正用设备去替代人力。

艾之:当我们谈论具身智能这个概念时,大多数人可能首先想到的是人形机器人。具身智能工业机器人(EmbodiedIntelligentIndustrialRobots,EIIR)这个品类是如何一步步被创造出来的?与传统工业机器人的差别是什么?

贺岩:在工业机器人普及的过程中,调试和传统示教是非常复杂的过程。企业如果要使用工业机器人,需要招聘有资质、有专业背景且有经验的人,才能把机器人用起来,这极大限制了工业机器人的应用范围。很多企业主宁愿用人,因为人可以适应各种随意的来料,而且人还可以做别的事,只要去吩咐他就行了。

布置一个机器人是非常繁琐的,如果有这样一种示范教学的模式,工业机器人可以被应用的场合会大幅增多。

关于二者的分野,我觉得「智能」这个词是有时效性的,比如说我们现在管手机叫「智能手机」,但是我觉得我女儿不会这么认为,她会觉得手机不就是现在这样吗,为什么还要强调智能两个字?我们对具身智能的理解是,终极目标是让它把我们操心的事情都干了。现阶段的第一步任务是,怎样更方便的向机器人传达指定任务?不用专业支持就能够把我想要的事情交给机器人来做。这是从传统工业机器人向具身智能机器人迈出的重要的迈进。

张志琦:我从通俗的角度再聊一聊。我们在设计具身智能工业机器人时,实际上是根据我们在机器人使用过程中发现的许多问题来做的。

微亿智造从成立以来就是一家使用机器人「很深」的企业,我们最早是从产品外观检测开始,也在大量使用机器人来实现针对机构侧的要求,就像人的手一样。同时,我们也在光学、AI、模拟方面做了很多能力的提升。

我们从很多第三方的市场报告中看到,每万名工人的机械臂使用量,几年前是200-300台,现在达到300-400台,甚至在发达制造地区达到了400-500台。

这个数字看起来有点奇怪,为什么每万名工人只用500台机械臂?剩下的9500名工人到底在做什么?其实就是因为,传统固化的机器人使用场景无法覆盖那么多岗位。很多企业主跟我们聊,他们设定了指标,每年要用一万台机械臂替代工人,但生产主管觉得真的好难,不知道能在哪些场景使用,能用的场景都用了,但是真的还是有太多场景还是要依靠人来解决。虽然工人难招,相对流动性大,不断要做培训。

今天是否能有一台设备能真正意义上像人一样学习,还能在执行过程中动态处理问题,最终以完成任务为核心?

这就是我们「创TRON」这款具身智能工业机器人的核心目标,希望它能像工人一样通过学习完成工作,安装到现场,跟老师学一遍,就能把活儿干了。

艾之:这里面的鸿沟其实是,教人比教机器要简单太多了,专业人才的缺口应该仍然很大。高端人才一方面成本高,一方面供应量也未必能满足工厂需求。因此,具身智能的核心定义应该是「像人一样」。但到底是像人的外形,还是像人的思考和解决问题的能力?可能后者才是核心的概念。

张志琦:是的,这两年大家对具身智能的理解越来越深入了,人形机器人也帮助了大众理解具身智能的能力。看到一个人形设备能够在现场解决很多人做的事情,突然间对这个能力有很大认可。但在工业场景上,我们也要解决「如何算得过来账」的问题。

我们的具身智能工业机器人基本上可以让工厂在一个比较低的成本的情况下去应用,基于使用的过程积累数据,不断提升能力,从而真正让这个产品不光是「算得过来」,同时产品本身的能力还能持续提升,这是这个闭环中的最核心的点。

艾之:你们觉得工业场景中最终需要人形机器人吗?还是说结论并不一定?

张志琦:从我的观点来看,人形机器人不一定是工业现场的最佳解决方案。机械臂不一定要是两只手,也可能是四只手,甚至更多。也不一定要有双足,可以是轮子或者其他更高效的移动方式。

就像以前我们做劳动防护时还得带上防毒面具,各方面考虑,它也不可能实现24小时不间断的生产。今天这些设备都可以超越人的能力,不见得是人的形态,但是它能够更好地发挥效益。所以,人形并不一定是工业现场中的最优解。如果有一个具备感知、认知、执行的能力的智能体,工业现场可能更需要这样的产品。

这样的例子让我看到未来多种多样的硅基生物的可能性,具身智能体会以各种形态出现,但最终会是什么形态我没有办法做出预测。

艾之:这有点像人类本身,不是在每个场景中都需要发挥所有能力。比如走路时是小脑在控制,读论文时大脑的核心区域正在被激活。

其实有点像去把人这样一个已经进化得非常好的超级智能体的能力重新排列组合。如果只是单独实现其中一个模块的话,成本其实是要低很多的。不需要在每一个场景里面都放一个特别厉害的技工,或者说特别厉害的一个人。

我想稍微做一下推演,如果以机械臂为例,像自动驾驶一样有L1-L5的分级,贺岩总,您觉得「创TRON」这款机器人大概属于哪个级别?如果往更高的级别发展,它会是什么样的?

贺岩:自动驾驶的过程,是随着等级提升,对人的依赖越来越低。目前的工业机器人,是要有「驾照」才能用,需要专业操作人员才能使用。而「创TRON」可以实现在「没有驾照」的情况下,在特定领域内,没有专业背景的情况下,也能够用起来。

L1,就像是在自动倒车入库这样的场景中,不用专业的技能,普通用户也能自动完成。

L2、L3的话,相当于在高速公路上跟车的这些功能,可以在没有专业技能的情况下自动完成。我认为「创TRON」大概相当于L2-L3级别。

进化到L4或L5级别时,用户只需要告诉机器人我要完成什么任务,完全不需要任何专业技能。那时,它就真的像一位聪明的工人了。

艾之:具身智能工业机器人和消费类机器人是针对不同场景和目标设计的。两者在技术路径上应该有很大的区别吧?在发展过程中要攻克的技术难题,以及难题的优先级,是否存在很大的不同?

张志琦:对,二者的技术路径上和场景有一定的差别。

工业场景相对来说是一个闭环。它不像开放的世界那样,可能会受到各种外界因素的干扰。

举个例子,像消费类机器人在不同环境中帮助老人时,物理世界的干扰因素很多;但在工业场景中,在工厂内部,干扰相对有限。

在工厂里,操作的对象可能是物料、生产设备,或者生产过程中的工人,环境相对封闭。它需要理解和处理的物理世界的量更加有限,这使得工业场景在模型训练和技术实现上相对容易一些。但工业场景也有它的难点,比如对精度和效率没有容忍度。在C端场景中,如果机器人没抓住杯子,可以再试一次;但在工业场景中,任何错误和失误都是不可接受的,精度必须极高,效率也必须算得过来。如果执行速度太慢,工厂可能宁愿继续使用人力,因为我们的竞争对手始终是人。

因此,我们要做的所有具身智能产品的核心目标就是,在工业现场中做得比人更好,这样才能让工厂接受并引入设备。这也是工业场景比生活场景更复杂的地方。

我们在某些方面相对容易,比如在目标对象的训练、对世界模型和环境的理解上,工业场景的范围更小,数据集也更小。但困难之处在于,执行的操作精度和效率必须极高,因此需要更强的技术手段来落地实现。

两者在技术路径上存在差异,尤其是在落地性上,工业场景里有一个大挑战:工厂老板算不过来账,他就不用。AI产品都是越用越好的,数据越来越多,能力越用越强。如果一开始在商业化模式上算不过来,可能就变成了一个「秀场」,大家鼓个掌,但无法实际落地。

然而,一旦可以算得过来账,能够产生实际的数据和业务价值,它就会有巨大的市场潜力。因此,这一点是我们需要跨越的。

艾之:总结起来,核心就是成本、工作效率和任务执行的准确度,要在这三者之间找到最优解。当然这个成本并不是一个静态的标价,而是在做所有的技术方案组合的时候,要去不断计算的。产品上线之后,它至少要和人类表现得一样好,甚至在某些任务上比人类更出色。

有观众问到,机械臂有了智慧后,是否可以降低配套设备的要求?因为产线上不只是机械臂,还有很多其他系统设备。

艾之:这是一个非常大胆的场景设想。

张志琦:如果能实现这个目标,将会对整个制造行业产生巨大的影响。过去我们听过「黑灯工厂」的概念,但现在都很少提这个话题,因为大家突然间发觉它生产的东西很有限,它的柔性化程度较低。

黑灯工厂:DarkFactory,即智慧工厂,因为从原材料到最终成品,所有的加工、运输、检测过程均在空无一人的「黑灯工厂」内完成,无需人工操作。

现在的问题是,能否有一个工厂,生产过程可以动态调配?

如果我今天雇了一帮工人来,今天培训什么,他们就能干什么。明天再培训其他内容,他们就能生产其他的东西。从这个角度上说,人的柔性化程度是最高的。

如果我们把这些思路结合在一块的话,你会发觉,这样一来,原来的自动化设备只能做单一的任务,而未来应该能够执行多项任务,甚至如果下面有一个抽屉的话,它还能找到不同的工具完成各类操作。

这才是「在一个集装箱里生产出一台iPhone」的核心点。

在集装箱的这个范围内,只要给到足够的工具和材料,人也能干,但今天,我们能不能用这类的设备去干?这是我们在现在和将来,在智能制造上要去考虑的问题。

的确,具身智能设备的应用会简化整个制造过程中上下游设备的要求。因为人和人之间能够直接进行沟通和交流,具身智能设备之间同样可以通过更灵活的方式完成各工序的衔接,从而进一步简化流程。设想未来某一天,具身智能机器人被广泛应用时,只需下发一个指令,只要有原材料的,这些设备就能自动化地完成生产任务。这正是我们对未来制造场景的美好愿景。

艾之:微亿团队可能主要负责算法部分,让机械臂学习人类的动作和任务,其中有哪些关键环节?大模型在这一过程中发挥了哪些作用?

张志琦:其实,这项技术能够真正落地,本质上得益于人工智能的进步。在过去的自动化领域,实现这种技术是不可能的。我们可以简单拆解一下这个过程。首先,关键在于操作对象是什么,必须让机械臂识别这个对象,让它能够操作。第二,有了这个操作对象之后,如何完成这个任务?在三维空间中,需要去动态规划和执行。因此,这个过程包括感知、认知、规划、驱动和执行,它会把每个部分都紧密结合。

在感知方面,我们会基于视觉的能力,以前的机械臂只能通过电机传感信号了解自身的位置,而没有视觉能力。但今天我们为机器人装上了「眼睛」,它多了视觉的能力,不仅能感知操作对象,还能感知到自己和环境,在感知上我们就必须把三个感知的能力要融合在一起。

感知完成后,我们需要进行认知。以前的认知过程非常简单,可能就像我们做质检时,认知只是在拍摄的图片上进行分析和判别。但现在的认知必须结合三种不同的感知能力,真正理解整件事情。就像我们之前提到的,人类以目标和任务为核心,具体是怎么完成某项工作的?我们需要有效地将任务拆解为子任务,并在执行过程中将这些任务重新整合在一起。

完成认知后,接下来就是规划,需要用什么样的流程和方式去完成这个任务,同时还要和机械臂更深度结合,把驱动和执行有效地结合起来。在驱动和执行的过程中,因为我们知道实际操作中可能会遇到干扰,或者出现异常,需要动态地修正和重新规划,基于新的感知和认知,形成新的规划和执行。这个过程必须严丝合缝地形成高速执行的结果,动态地完成过程中的规划和修正,才能真正实现任务的落地执行。

这与传统自动化完全不一样。传统自动化就是通过编程,按照固定任务和结果执行。而现在的流程,在各个环节中都需要大量的循环往复,把感知、认知、规划、驱动和执行紧密结合,才能真正完成任务。

因此,如果只从算法侧,微亿是做不了这件事的,必须与捷勃特,特别是机械臂的本体之间进行深度的整合,才能有效结合动态规划和执行,把感知、认知与执行机构紧密衔接。只有这样,才能将这些环节像人类一样去操作、去落地。

艾之:在具身智能领域,我们都知道可能会有不同的技术路径。有些原本专注于机器人制造的公司,在解决这一命题时会思考,算法如何更好地与机械本体的控制系统、驱动系统结合。能否更形象地展开一下,算法真正与机械本体深度融合的难点究竟在哪里?

贺岩:举个例子,因为我们的摄像头是安装在机械臂上,相当于你的「眼睛」一直在移动。当你看到一幅画面时,首先要知道我的眼睛到底在哪里,因为它不是固定的,而是动态的。因此,这需要一个非常高速的数据交互能力,系统能够获取摄像头的当前位置,将这两组数据拼起来,才能形成准确的空间感知,否则就会出现混乱。

另外,如果系统要规划机械臂的运动,机械臂的物理能力是有上限的。如果速度过快,电机会损坏,所有的物理系统都有极限。我们需要在不超过物理极限的情况下,尽可能提高机械臂的效率,这就要求将动力学模型深度集成到这套系统中。这是一个非常深度的绑定,一般的合作关系很难打通,我们在一起紧密合作才实现了这样的技术突破。

艾之:刚才提到的视觉模块,它捕捉的是视频的连续帧信息,还是静态照片信息?

张志琦:其实我们是从连续的信息中抽取帧,一帧一帧地抽出来。

如果我们把这种模式应用到工业现场,问题就很难解决,账是算不过来的。所以我们给团队设定了一个预设条件——不能使用贵的传感器,也不能用更贵的技术来实现这些目标。

艾之:先把上限卡死。

张志琦:对,我必须设定一个上限,在受限的环境中解决问题。这增加了团队的难度,比如在二维图像的方案中,我们看到的都是一张张2D的照片。如何基于2D照片判断对象物体的位置、摆放方式、与我们的相对距离。所有这些都需要将2D转换为3D的空间信息,而且精度必须非常高。工业现场不能容忍超过1毫米以上的公差,否则机械臂就抓不起来,或者无法正确操作。因此,我们必须在受限的环境中实现这些目标,这是一个较大的难题。

正是因为完成了这项工作,具身智能工业机器人在成本上才与传统工业机械臂接近。它没有增加昂贵的感知设备,而是依靠算法能力,通过机器人的相对空间位置和视觉捕捉的对象物体画面,同时参考对象物体的3DCAD图纸,完成空间建模,从而进行3D空间计算、执行。这背后的技术难度比较高。

艾之:这个模型是端侧的小模型,还是多模态模型?它是由几个模型配合完成的吗?

同时,我们也有大模型在背后支持。当人类操作时,实际上处理的是一组连续的视频,我们通过大模型技术来理解视频中的语义,从而理解人类是如何操作对象物体的,再将这些操作拆解成不同的任务,进行编排和执行。这是有大模型在背后支撑的。当然,这其中存在错误的概率,因为大家都知道,大模型在初期输出时会有不稳定性,有时它学错了动作,还需要我们修正。

本质上,这背后是由一个视频语义理解的大模型来落地执行。但在每个子任务级,它又是由一堆高精度的小模型指挥机器人完成不同的运动规划任务的集合,过程中要去跟机器人自身运动的动力学算法打通,确保机器人在执行时达到最高效率。所以在这个过程中,其实是融合了大量技术。

这也是为什么大家觉得具身智能产品「很难」,难点就在于,它必须将各种技术捏合在一起,才能完成特定任务。而且,还得把实验室级别的技术和实际落地的工程化产品结合起来,因为最终落地的还是一个工程化的产品,要能够被客户使用。这是其中最难的部分。

艾之:感觉你们绝对是属于务实派,直接坦诚地告诉我们,其实有些badcase,不要抱太高的预期,不过在精度要求不那么高的场景下,已经可以使用了。

你们团队的研发风格也是,设定了明确的上限,坚守在这个成本范围内寻求最优解,而不是无限制地投入研发经费去追求更好的技术参数或零部件。因为即便投入再多,如果最终算不过来,也无法真正投产。

这种务实的思维,可能是来自长期扎根工业场景的经验。这个可能也是工业机器人出身的团队,或者说一直扎根在工业场景里面的团队去创新时,可能会有的一些不同的思维和切入角度。

刚才我们讲了大致的实现路径,我想请教一下贺岩总,您怎么看待微亿和捷勃特的技术路径与端到端模型算法的路径?您对这些技术路径的未来有怎样的判断?

贺岩:首先在端到端路径上,它必须是在容错率非常高的场景中,可以一步步走向实用和成熟。而在工业成熟的场景中,我相信,不得不采用这种,一部分基于训练,一部分基于规则的拼装组合的方式。因为越多的落地场景,越多的数据,就越能推动技术的发展。因为首先我得在一个场景中落地,越落地越有数据,可能越成熟。

艾之:得先让这个飞轮转起来。

贺岩:对,而且在中国这样一个制造业强国,我们有大量的数据源可以利用。所以只要这些数据被有效使用,我们就能逐步走向成熟。最终,这两条路径应该是殊途同归的。但先得落地,接触场景和布局是非常重要的,如果无法接触到这些场景,就很难爬上这坡。

艾之:关于模型的能力。今天大模型能力还在不断迭代,像OpenAI最近发布了新模型,我们看到了推理和agent能力的提升。这种基础模型的提升,能否在工业场景中带来同等比例的能力提升?

张志琦:是的,今天我们的「创TRON」1.0在工业现场能应对的场景还是有限的。我们目前主攻四个场景:上料下料、装配、打磨和质检。这些都是制造业中常见的场景。随着基础模型能力的提升,我们可以针对不同的工业场景,进一步提升能力,提高不同领域中的任务复杂度,逐步让机器人越来越像有经验的人一样应对各种场景。

所以从大模型的技术能力提升上来说,工业现场的场景化应用的能力也是会越来越丰富的。有时候大家谈到工业大模型和通用化大模型,很多人觉得难,因为没有足够的数据。这也是工业AI导入速度偏慢的原因之一。但通过具身智能工业集成,我们能够在每个场景中积累数据,并通过机器人载体有效执行和落地,沉淀有价值的数据。

我们经常开玩笑说,工业具身智能机器人是一个学徒,跟着老师傅去学习,其实就是把人脑里的知识倒出来,通过数字化载体记录和储存下来,以前好工人的经验是口口相传的,而今天是,用一个有数字化能力的产品把这部分经验和知识沉淀下来。

所以,可以畅想一下,虽然目前我们只支持四个场景,但随着底层模型能力的提升,我们能够应对更多复杂场景,逐渐替代部分人工。

回过头来看,具身智能工业机器人的终极目标非常简单。如果今天某些地区有一万名工人,有500台机械臂,那我们的目标很简单,就是希望通过机械臂替代这9500个工人,把人从整个制造的环节里完全释放出来。

艾之:中国作为制造业大国,很多场景下人力成本仍然低于机器成本。我们现在有个大前提,就是希望成本尽量可控,让机器人顺利进入生产线。其次,我们需要大量的数据,不断完善和提升模型能力。

贺岩总,从您的角度来看,像「创TRON」这样的机器人,或者未来更先进的版本,如何才能顺利进入生产线?对于客户来说,用新的解决方案替代掉老生产线上的方案,他们的核心动力是什么?如何让他们更愿意接受这些新方案?这些客户肯定是非常精打细算、成本敏感的,怎么让他们愿意做出这种切换?

贺岩:对于成熟的生产线,如果没有升级的需求,它们可能会继续使用传统方法。问题在于,很多工厂和企业主想用机器人,但用不起来。这限制了工业机器人适用的范围。

「创TRON」的出现解决了几个问题。首先,自动化设备,对上下料的要求不高。其次,我不需要招有学历、有资质的专业人员来实施这套系统,这对企业来说是一个巨大的优势。现在工业机器人替代工人的渗透率还很低,比如1万名工人中只有五六百台机器人,这是因为很多场景上,工业机器人根本就用不起来。

我相信,现在使用工业机器人的那些成熟生产线会继续存在下去,但「创TRON」的目标市场是那些剩下的9000多个岗位。它能够真正解决的是想用但是没法用的企业主的问题。

张志琦:我再补充一下,坦白讲,机器人市场每年的增长幅度其实有限。

近年来协作机械臂的兴起,替代了一些传统工业机械臂的场景,但协作机械臂的应用量仍然有限。以前它解决的最核心问题是安全性问题,比如在人和设备共处时,设备碰到人会自动停下来,避免伤害。尽管协作机械臂在一些生活场景中应用增加,但整体市场的增长量每年也就20%左右,这里面协作机械臂的量甚至蚕食了部分工业机械臂的市场份额。

这也明确地回应到刚才贺岩总提到的话题,今天其实仍然是一个传统市场,为什么增长幅度没有那么的快?就是因为太多的场景,不是今天的工业机器人或者工业机器人加上传统的协作机器人能够去覆盖的场景,还是需要依靠人力去做。

而我们的「创TRON」这一类产品,一方面是能够比传统机器人在使用上更加简洁。我们真正的目标市场是那些无法靠工业机器人或协作机器人解决问题的市场,因为这些场景需要灵活性和应对多种变化,而传统工业机器人对此无能为力。但今天,我们有机会依靠具身智能产品,用人类的方式来完成这些任务。既然这些任务今天是由人来做的,我们就有机会用这类产品替代人力,实现自动化。这才是我们这款产品真正的目标市场和用户群体。

艾之:确实有很多场景,大家想用机器人但觉得太难,甚至不是成本问题,而是技术能力的鸿沟问题,这在过去这一直是一个编程和翻译的难题——如何将工艺翻译成机械臂和机器人能理解的数字语言?

张志琦:现在很多专业人员的工作是「帮机器人理解业务和人类需求」,而「创TRON」这类产品的终极目标是让机器去更好地理解人,而不是让人去适应机器。这是是我们产品的核心点。

艾之:我有个外行问题,现在我们的机械臂像个学徒,去学习老师傅的工艺。那么,在工业制造领域,工艺的数字化水平大概是什么样的?

贺岩:工艺是生产某个产品时专业的know-how,关于「我怎么把这件事情做好」。

未来的生产应该是,机器人的使用者只需要知道如何生产出好的产品,只需要知道自己怎么把这个东西做好,然后能够通过自己的专业语言让机器人听懂就可以了,而不需要懂得机器人的专业知识。这是「创TRON」的目标。

张志琦:对,其实这也涉及到另一个话题。

机器人市场发展了几十年,很多海外头部的机器人厂商已经在不同的场景中已经积累了大量经验,这些经验逐渐成为他们另一个最核心的盈利产品,就是所谓的工艺包或SDK库。比如说在焊接或涂胶等领域,他们有很多这样的库,能够帮助专业人员更好地翻译业务上的诉求和需求,同时能够在机器人运动控制和操作对象方面快速适应。然而,回到国内来看,许多汽车厂商在这方面的积累相对有限。

为什么积累有限?首先,起点不同,国外厂商发展了几十年,而国内很多厂商相对年轻。其次,这与市场原则有关。因为工艺包本质上是一个软件包,软件包的成本是很低的。今天,国外的机器人在硬件上已经被国内厂商卷到挣不到什么钱的程度了,但在这一部分软件包上,还是保持了很大的利润。而在国内,机器人工程师和集成商的人工成本还相对偏低,因此集成商往往不会购买国外的SDK库和工艺包,而是手动调试,调整到能基本满足需求的程度就可以了。但这样做的柔性化程度会变得更低,机器人厂商也难以在这一领域积累经验。因此,这就是为什么在这类工艺包上的数据积累较少。

同时,国内还有没有机会解决这个问题呢?这也是一个「先有鸡还是先有蛋」的问题。

可能一部分有支付能力的厂商不加思考地就选择了国外的机器人和工艺包,能够把这类场景覆盖掉,这样就没有国产机器人的事了。但国产机器人厂商又因为集成商的手动调试,无法积累数据,这就导致国产厂商难以在这方面进一步提升能力。

但是,像「创TRON」这样的产品恰恰解决了这个问题,因为它能够在数据能力上不断积累,去对于生产中间的所有的过程数据,不管是goodcase还是badcase,它都可以有效记录,不断提升模型能力。

因此,以前想在这些场景中「弯道超车」其实是不太可能的。而今天通过AI技术,我们实际上是换了条道。依靠具身智能产品,我们有机会去实现这个目标。

艾之:确实,大模型技术让我们看到了另一种可能性,就像从另一个坡爬上去,可能可以把中间的四五步并作两三步,直接达到同样的目标。因为像工业4.0、柔性制造这些概念,已经喊了很多年了,本身是从国外兴起的。

注:传统工业机器人领域的「四大家族」指的是瑞士的ABB、德国的KUKA、日本的FANUC(发那科)和安川电机(Yaskawa)。

贺岩:我们的展台在「四大家族」展区的中心位置,因此我们也观察了一圈。老实说,我们没有看到像「创TRON」这样的创新产品,至少在展会上没有看到特别亮眼的具身智能技术。

张志琦:其实看完之后我们更加有信心了,哈哈。应该这样说,「四大家族」确实有很大的包袱。

艾之:对,这就是我刚才提到的路径依赖问题,之前他们的基础太扎实了。

张志琦:坦白讲,很多时候这种路径依赖会抑制创新能力。所以今年看到的四大家族,还是在机器人的底层技术上不断精进,比如运动控制和系统控制。机器人已经发展了几十年,这些方面能提升的空间是有限的。但反观国产机器人的展馆就热闹得多,各种类型的机器人都有,比如帮人按摩、针灸、冲咖啡的,各种各样的展示非常丰富。

艾之:是的,冲咖啡的都是入门基础款。

张志琦:对,现场很热闹。我们也看到一些厂商放的视频,展示的功能和我们的「创TRON」有些接近,向大家展示大模型如何与机器人技术结合。但坦白说,在实际操作上,还没有谁敢真正搬一台设备到现场,和大家互动演示。这一点其实很有意思。我们的展台上有很多友商,气氛也很热闹。国外的机器人厂商和国内的同行都来看,大家对我们的设备评价都很高。

艾之:刚才提到另辟蹊径,找到了一些技术红利,走了一条创新的路径。想请教一个外行问题,如果别人想抄我们的技术,好抄吗?

张志琦:本质上来说,产品的理念和设计并不是别人完全想不到的。今天,「创TRON」这个产品的技术分解后,会发现其中有很多复杂问题,涉及技术、工程等一系列难题,必须将这些问题整合起来,才能真正落地。

从一家AI公司成长为一家机器人公司很难,从一家机器人公司成长为一家AI公司也很难。像「创TRON」这种具身智能产品,必须是硬件与软件、机器人与AI的深度结合。今天很多人形机器人公司动辄有400-500人的团队,至少需要200多人的硬件团队,100多人的算法和软件团队,才能逐步将产品做起来。

如果没有这样的团队配置,基本上就是缺胳膊少腿,很难做到。我们在做具身智能工业集成时,如果没有两家在技术上的深度合作,这件事几乎不可能实现。许多同行在工博会上看到我们的产品时,都说这确实很难做到。外行可能觉得机器人很聪明,但内行看门道,他们能看出我们在技术上涉及了很多细节,超越了很多技术能力已经不错的公司。

从我的角度来说,我希望「创TRON」这个产品能以点带面。首先,它能引导微亿和捷勃特的产品更好地向具身智能方向发展。其次,我也希望同行能看到这个产品的价值,进入这个赛道。工业赛道的天花板非常高,不仅是微亿和捷勃特两家公司能够完成的。虽然门槛高,但如果大家一起努力前行,整个中国的制造业就有机会登上珠穆朗玛峰。无论我们是从北坡攀登,还是友商从南坡攀登,或者我们为后来的公司踩出了一些脚印,让他们能够更快前进,对整个中国制造业登顶珠峰都有帮助。所以我们既不怕被抄,也欢迎大家来抄。

艾之:先把蛋糕做大再说,对吧?

贺岩:对,我从另一个角度稍微补充一下。

我们刚才说的门槛,首先是微亿智造和捷勃特在工业场景中的深厚积累和理解。我们要做具身人工智能,但客户到底需要什么,这需要我们在行业里深耕多年积累的经验。第二,是微亿团队对AI技术的强大把控能力。

再有,捷勃特机器人的自研率非常高。所以当微亿智造问能否实现某个功能时,我们都能做到,因为所有的技术都是自主研发的。

还有一点非常重要,就是双方之间深厚的互信。我把我的技术开放给你,你也开放给我,这都建立在彼此深层的信任基础上。

所以,这几方面都是很高的门槛。

艾之:未来你们的产品和技术路线上,可能会带来什么样的机械臂或具身智能工业机器人?

贺岩:首先我们要把「创TRON」这款产品真正落地。因为从成功率和效率的角度看,离「为客户创造价值」,我们还有很多事可以做,如果能够把这个事情做到更好,本身就是一件伟大、蛮有挑战的事。从产品展示到找到种子客户,再到让客户真正意识到这款产品的价值,这中间还有一段路要走,希望能踏实地把这条路走好,走稳。

艾之:先让更多的工厂和生产线用起来,这是关键。

贺岩:从长远来看,未来我们可能会结合力学和触觉,现在我们已经结合了视觉,接下来还会赋予机器人更多像人一样的感觉——有眼睛、有大脑、再加上重量感。未来还有很多事情可以做。

THE END
1.大数据机器学习算法概论腾讯云开发者社区算法是计算机科学领域最重要的基石之一,计算机语言和开发平台日新月异,但万变不离其宗的是那些算法和理论,数据结构和算法是软件开发必备的核心基础,是内功心法。下面举例拿推荐算法和分类算法的实际场景做下举例: 推荐算法的应用场景,各种app(偏资讯)的应用外的手机推荐: https://cloud.tencent.com/developer/article/2479107
2.AI算法赋能电商:解锁销售额飙升的秘密武器导读:随着科技的发展,AI算法已经深入到了各个领域,电商行业也不例外。在电商领域,AI算法的应用已经成为提升销售额的秘密武器。通过精准的用户画像、智能推荐、个性化营销等手段,AI算法正 随着科技的发展,AI算法已经深入到了各个领域,电商行业也不例外。在电商领域,AI算法的应用已经成为提升销售额的秘密武器。通过精准的https://www.baikewang.com.cn/html/dianshang/fx/2024-12-20/335406.html
3.极客研报移动互联网落潮,最该关注的6个领域和50家公司极客移动互联网红利消退,哪些赛道还在变化? 即便是最乐观的人,也很难否认智能手机所带来的移动互联网创新红利期正在不可逆转的消失。在基础的设备端(意味着新增流量),智能手机的出货量早已告别了前些年陡峭的增长曲线,千元机血战和渠道战争的愈加惨烈背后都是智能手机普及率接近饱和的客观现实。在渠道端(意味着触达用户https://www.geekpark.net/news/216099
4.openai的应用嘲?三、浪潮AI应用场景有哪些? 浪潮AI在很多细分的应用场景都有涉足,比如互联网、教育、科研、自动驾驶、制造、建筑、室内设计、媒体娱乐等,它所打造的人工智能解决方案可以推动应用快速落地,加速数实无缝融合,为企业实现数智化的发展提供更充足的动力。 四、ai写作主要应用场景 https://tool.a5.cn/article/show/87278.html
5.人工智能在生活中的应用都有哪些?人工智能最简单应用虚拟个人助理是指使用者通过声控、文字输入的方式,来完成一些日常生活的小事。大部分的虚拟个人助理都可以做到搜集简单的生活信息,并在观看有关评论的同时,帮你优化信息,智能决策。 同时部分虚拟个人助理还可以直接播放音乐的智能音响或者收取电子邮件,这些都是虚拟个人助理的变化形式之一。虚拟个人助理应用在我们生活中的https://blog.csdn.net/weixin_42137700/article/details/107904262
6.人工智能心得体会(通用11篇)如:小学阶段可让学生完成轮式竞赛用机器人的功能模块组装的设计;初中阶段可进行生活与学习中实用机器人的创意设计;高中信息技术课中可重点对机器人智能软件算法进行设计;而高中通用技术课中可重点对机器人的电气部分、传感器部分、动力部分和机械部分进行相关设计。总之,教学方法应该侧重综合设计,而不是放在问题的分析上https://www.ruiwen.com/xindetihui/5729744.html
7.优秀设计灵感精华2022新学期,有这篇宝藏文章就足够了!和你聊聊有趣的、不为人知的 小故事 【TransAxis设计坐标】是一个展示建筑师或者学生优秀设计作品与学术思考探究的秀场平台,包罗了国内外先锋高校与青年才俊的优秀佳作,通过干货满满且诙谐幽默的文字对设计历程分享解读,为热爱设计的你提供别具一格的灵感经验与思路视角。 https://www.shangyexinzhi.com/article/4593730.html
8.每日热点1211会上,有记者提问,对于重点机构和场所,如学校、托幼机构、公共交通工具等,应采取哪些措施预防呼吸道疾病的传播? 对此,中国疾控中心传染病管理处呼吸道传染病室主任彭质斌表示,学校、托幼机构、公共交通工具,通常人员比较密集,而且内部相对封闭,是呼吸道传染病重点的防控场所和机构。 https://www.sccdc.cn/Article/View?id=32635
9.区块链的“去信任”到底去的是什么信任?高承实的财新博客③量子计算机实用化后,才有可能对基于离散对数和大合数分解设计的公钥算法有威胁。 ④量子计算机对对称密码算法没有致命的威胁。从时间复杂性上看,只要密钥长度加倍,对称密码算法抗量子计算机的时间复杂性与电子计算机相同。 长远来看,运行Shor算法的实用量子计算机能够破解RSA、ECC等非对称密码算法。谷歌53个量子比特的量https://gaochengshi.blog.caixin.com/archives/240328
10.WebRTC的基本技术己应用嘲及算法现己应用于哪些场景? 实时音视频RTC的应用场景 随着移动互联网的普及和智能终端设备的广泛应用,实时音视频正逐渐成为主流互动方式。已在在线教育、社交娱乐、互动电商等热门领域得到广泛应用,也赋能于更多创新场景,如金融、政企服务、loT、医疗等,帮助人们享受更便捷和更人性化的生活服务。 https://maimai.cn/article/detail?fid=1761292546&efid=LX-jcJotWoKu9FS5ydqXOQ
11.YouTube:开启全民创作时代的中视频龙头流媒体网YouTube平台上内容生产者是现实生活中每个独一无二的人,也因此成就了YouTube包罗万象的内容生态。YouTube为每个用户提供了十分便利的上传、分享、观看视频的工具,定义了全新的UGC视频内容生产和消费的场景。 YouTube的三位创始人乍得·贺利(Chad HURLEY)、陈士骏(Steve CHEN)、贾德·卡林姆(Jawed KARIM),在2004年印度https://lmtw.com/mzw/content/detail/id/204595/keyword_id/
12.西安决策参考“强观察”栏目梳理发现,除亮相北京冬奥会之外,数字人民币正在逐渐走进人们的日常生活。中国人民银行金融市场司司长邹澜在日前国新办的新闻发布会上透露:截至2021年底,我国的数字人民币试点场景已经超过808.51万个,累计开立个人钱包2.61亿个,交易金额875.65亿元。国务院办公厅日前公布的《要素市场化配置综合改革试点总体方案http://www.xalib.org.cn/info/73022.jspx
13.跨越一甲子的AI会在何处爆发?本文采访16位专家给出了答案为了制约人工智能发展对社会生活的消极影响,我们还必须积极探讨人工智能可能涉及的法律与伦理问题,通过构建与人类未来的良性互动关系,使人工智能真正走向造福于人类之路。 二.AI最热应用场景分析/企业CEO观点 1、智能家居 在AI的应用场景中,智能家居算是距离我们最近,却发展最为波折的。从产品上看,比较代表性的既有国外https://www.tmtpost.com/2658404.html
14.大规模在线教育育人嘲构建研究:逻辑架构与实践形态大规模在线教育育人场景是基于场景理论以及大规模在线教育特点,以移动化、数据化、生活化、个性化的形态,包涵O2O理念构建育人共同体,运用5G、扩展现实、虚拟现实、全息技术和人工智能、大数据等新一代信息技术,采集生成性学习数据来构建学习者数字画像,通过工作和日常生活形态为载体搭建沉浸式育人场景,以实现精准育人之目标https://www.eduwest.com/html/2021/qianyanlingyu_0709/607.html
15.T3出行基于Hudi+Kyuubi的现代技术栈探索通过归纳总结,T3 原来数仓架构面临挑战的业务场景分为三个点:支持长尾、非结构化的数据和小文件、算法业务场景。 1、支付长尾 T3 是一个出行企业,所以有很多的订单场景,而出行订单场景,在传统数仓里面临一个支付长尾的问题,业务层面订单支付周期可能长达数月,会存在长达数月的超长业务闭环窗口,同时也带来了冷热数据https://www.51cto.com/article/747436.html
16.共达地李苏南:0代码自动化,让AI算法赋能千行百业商业模式鲸解例如,用我们自动化机器学习所做出来的AI算法,已经在仓储物流、园区港口、建筑工地、智慧城市、农牧场等三百多个场景落地了,24小时不眠不休监控场景中存在的潜在问题,帮助企业减少在安全巡检方面的人力投入,识别报警的可靠性和准确度甚至比人力还要靠谱。 我们要向行业证明,AI有价值并且能在场景中落地,这些是我们要去向https://www.cls.cn/detail/1154839
17.重建生态:价值与系统的力量——第七届中国教育创新年会11月启幕在学校变革的路上,价值方向、策略机制、团队进步、学习场景、学科与学习方式……我们将以一个月的时间,梳理教育的根本目标,看见学校的核心环节,走向科学的行动设计。 亲爱的校长和老师们,向美好教育致敬的方式,是亲手把它创造出来。 在此我们倡议,在这个不确定的时代,多关注目标,少纠结条件,以终为始,创造未来https://sghexport.shobserver.com/html/toutiao/2020/08/26/250533.html