我们要做3D界的ImageNet，推动具身智能训练新范式｜群核科技唐睿@MEET2025|算法网_在线学习

图形学的并行计算和边际计算，在模拟物理世界和机器人训练中起到了关键作用。图形学模拟世界有天然优势。具身智能未来可能会出现新范式。

2024年被称为“具身智能元年”，这一新兴领域正吸引着越来越多资本、公司和学者进入。

翻开不少玩家的履历，会发现出身于图形学背景的不在少数。比如国外李飞飞的WorldLabs，又比如国内的群核科技，也就是酷家乐这个3D云设计平台背后的公司。

唐睿博士是群核科技首席科学家、副总裁，KooLab实验室负责人，也是现任中国图学学会专业委员会委员，图形学与混合现实研讨会执行委员。

以下是唐睿博士在MEET大会现场圆桌论坛的QA实录，为了完整体现他的思考，在不改变原意的基础上，量子位对问答部分进行了编辑整理，希望能给你带来更多启发。

唐睿：大家好，我是唐睿。我主要研究领域是计算机图形学、人工智能和具身智能，最早的时候在群核科技做酷家乐产品，做真实感绘制，属于图形学领域。

当我们的用户量、用户数据增加了以后，我发现设计师设计的场景非常逼真、非常接近真实，我就有了一个想法——这种逼真的场景，为什么我们自己不能用起来呢？

它也可以像自动驾驶那样，因为自动驾驶里面也sim-to-real，在仿真域里面做训练和学习，甚至还有驾驶技能验证，然后我就开始接触具身智能行业。

我觉得具身智能和AI最大的一个区别，是从芯片、显示器，内存、显存里面走出来，走到我们环境里面。

它不只是有一个脑子，仅仅通过屏幕和我们交互，还会有手、感官，比如说摄像头，甚至嗅觉、触觉能力，也有行动能力，能够和我们所处的外部物理世界交互。

虽然大家觉得具身智能上面写了一个“身”字，但我觉得可能不一定需要人形，它只要有相应的技能就可以，像特斯拉，或者自动驾驶的汽车，就是比较成熟且具象的具身智能的实现。

量子位：唐睿博士，虽然你们不是具身智能起家的，但是现在讨论具身智能绕不开你们，特别是李飞飞开始创业做空间智能之后，你们是被提及最多的一家中国的公司，你怎么看待这件事情？

唐睿：我其实最开始是做图形学的，我现在相当于是半只脚踏进具身智能，或者希望支撑具身智能。

我们最开始发现这个产业要素的变化的时候，可能会更早一些。从图形学角度出发，在深度学习或者说现在大家认知的人工智能出现之前，我觉得算力的迭代体系是指令级的优化，速率的优化体系，就是CPU的优化逻辑。

有了AI或者深度学习加成以后，算力的迭代体系就开始从指令级的迭代方向转变为并行计算的迭代方向，这也导致并行计算的成本会降到很低很低，相对于以前的980或者说1080的时代，现在的并行计算的算力成本已经很低了。

我最开始是做图形的，但我博士期间接触过模式识别和以前的Rule-based的机器学习。我们觉得并行计算无非就是模拟两件事情，一直到现在也是，一个是模拟人脑，通过深度学习已有的知识，先验的知识去预测未来，或者预测不同的模态。

另外一种是光的仿真，比如说我们酷家乐在做的设计软件，是模拟光在物理世界中的一个传播，把还没有建好的房子画出来，然后给业主去看。

具身智能里面还有很多物理仿真，大家会用MuJoCo去做，比如物理碰撞、交互仿真。所以边际计算就是在这两个领域里面去用的。

最早的时候我们做图形绘制，2015年、2016年的时候有一次去英国帝国理工大学，和我的师兄一起讨论。

原本机器人在现实世界里面获取到的结构化数据是有限的，而你们公司有数百万的设计师，每天都在产出数万甚至几十万的设计场景，而且非常逼真，为什么我们不把它拿过去给机器人做训练，除了人可以在这个场景里面看，机器人也可以在这个场景里面看。

打一个比方，大家有没有想过，很多年前出现了AlphaGO，后面又出来了OpenAIGym。AlphaGO能做的一件事情是什么，下围棋，OpenAIGym后面能打星际争霸、打Dota。

下围棋、打星际、打Dota，这对于人来说是多么难的一件事情，有多少人下不好围棋，有多少人打不好星际争霸，但是机器能打好。

核心的一个问题在于，下围棋、打星际、打Dota，都是在数字空间里面，我们人类能够给它提供训练或者去做决策，去做演练，去产生数据的系统。

我们在做的一件事情，是我们想做下一个OpenAIGym或者AlphaGO，甚至3D界的ImageNet这样一个3D物理世界的构造器，能够让我们的具身智能，我们的机器人，能够在一个AI可交互世界里得到足够多的仿真训练，让整个行业的智能化，或者手眼脑的协调性的能力得到快速的迭代和升级。

唐睿：从一级市场角度来说，是很多投资人或者说很多钱进来了，但是从学术或者技术的视角来看，大家可以发现，很多原来做图形学，或者是做3D视觉的技术同行已经开始迈入具身智能这个行业里面。

包括李飞飞，以及她的前同事LeoGuibas，LeoGuibas是做Geometric和3D的非常鼻祖的斯坦福教授，还有ImageNet论文的作者苏昊，他自己也创办了Hillbot，其实很多人都进入到具身智能这个行业。

为什么我们这些图形学的人会来进入到这个行业，我刚才说的并行计算，无非是两件事情，是模拟世界或者模拟人脑，我们图形学的人可能会觉得在模拟世界这个事情上，我们有比较先天的优势。

量子位：最近这两天Sora新版本出现后引发了热烈讨论，Sora生成视频的模式，是不是解决数据或者是物理世界模拟器的核心打开方式？它是不是一个世界模型？我们能不能通过这个方式，抵达AGIRobots最终的道路。你们之前有做类似方向上的工作，你们是怎么看这个事情的。

唐睿：Sora昨天刚刚发布了新版本，Demo令人印象非常深刻。

我觉得Sora算是一种物理世界的模拟器。Sora现在的商业策略，应该是做内容、视频的创作。

昨天的新版本，我看到有灰尘、风吹草动，和水波纹的效果，人类看着已经非常真实了，或者说已经能欺骗一个图形学的人的眼睛了。如果往内容创作的角度去说，应该说是最接近于这个领域的物理世界模拟器。

但是从具身智能的角度来说，具身智能最终的落地会有本体和环境的交互，所以它对于物理的准确性要求远超过艺术创作，或视频内容创作的精度。

因此可能在内容创作角度它算是，但如果进入到具身智能或者说真正的仿真的领域，它还比较欠缺，精度需要继续提升，或者可以加入反馈学习再调整的模块。

量子位：如果具身智能把可以在家庭里服务的AIrobots作为一个终点，像马斯克讲的擎天柱机器人做的事情，那我们现在处于什么阶段？

类比手机，智能手机已经发展到高度成熟的阶段，大致经历了功能机、小灵通、大哥大，那么今年具身智能处于什么样阶段？

唐睿：其实我在具身智能这个本体以及智能化研究里面，也只能算半个外行或者半个内行。

我期望的具身智能它未来终极形态可能是一个自动驾驶的延伸——不仅仅是一个助手，还是一个了解我的管家。

甚至具备主观能动性，或者换种说法，不用PUA它，它看到一些情况就能主动给你干活。

如果要精确定位我们现在处于什么阶段，我也不是特别专业。

我看到的情况是，如果把它类比人，手、眼、脚、脑子这样的四个核心的器官来看的话，我觉得脑子某种程度上已经超越人类了，它的决策系统可能在创造性上还和人类差那么一些，但至少从知识面，从他的理解能力，以及简单或者说低层次、低维度的推理能力上，应该是超越人类的。

眼睛不用说了，各种传感器，红外的也可以安装，可以实现千里眼。

脚的话，机器狗的行走能力，只要电池够用，我觉得是远超人类的，而且它不光有脚，还可以飞，比如像大疆无人机。

手的话，关节灵活性这块，我目前看到至少Phi的视频让我挺震撼的。

这4个器官，手眼脚的协调，用具身智能的术语讲，就是从感知到决策，再到整个行动一体化的体系。

我觉得可能会有一些新的范式出来，未来的具身机器人训练会像自动驾驶一样，朝着端到端的方式去开发，其中也会产生新的数据生产方式，系统性的支撑具身智能在技术上或者产业上快速的迭代。

THE END

我们要做3D界的ImageNet，推动具身智能训练新范式｜群核科技唐睿@MEET2025

我们要做3D界的ImageNet，推动具身智能训练新范式｜群核科技唐睿@MEET2025

9个免费学习算法的网站（2023年最新推荐）学吧导航

这个算法网站，我愿称之为全网最强！