我们要做3D界的ImageNet,推动具身智能训练新范式|群核科技唐睿@MEET2025

图形学的并行计算和边际计算,在模拟物理世界和机器人训练中起到了关键作用。图形学模拟世界有天然优势。具身智能未来可能会出现新范式。

2024年被称为“具身智能元年”,这一新兴领域正吸引着越来越多资本、公司和学者进入。

翻开不少玩家的履历,会发现出身于图形学背景的不在少数。比如国外李飞飞的WorldLabs,又比如国内的群核科技,也就是酷家乐这个3D云设计平台背后的公司。

唐睿博士是群核科技首席科学家、副总裁,KooLab实验室负责人,也是现任中国图学学会专业委员会委员,图形学与混合现实研讨会执行委员。

以下是唐睿博士在MEET大会现场圆桌论坛的QA实录,为了完整体现他的思考,在不改变原意的基础上,量子位对问答部分进行了编辑整理,希望能给你带来更多启发。

唐睿:大家好,我是唐睿。我主要研究领域是计算机图形学、人工智能和具身智能,最早的时候在群核科技做酷家乐产品,做真实感绘制,属于图形学领域。

当我们的用户量、用户数据增加了以后,我发现设计师设计的场景非常逼真、非常接近真实,我就有了一个想法——这种逼真的场景,为什么我们自己不能用起来呢?

它也可以像自动驾驶那样,因为自动驾驶里面也sim-to-real,在仿真域里面做训练和学习,甚至还有驾驶技能验证,然后我就开始接触具身智能行业。

我觉得具身智能和AI最大的一个区别,是从芯片、显示器,内存、显存里面走出来,走到我们环境里面。

它不只是有一个脑子,仅仅通过屏幕和我们交互,还会有手、感官,比如说摄像头,甚至嗅觉、触觉能力,也有行动能力,能够和我们所处的外部物理世界交互。

虽然大家觉得具身智能上面写了一个“身”字,但我觉得可能不一定需要人形,它只要有相应的技能就可以,像特斯拉,或者自动驾驶的汽车,就是比较成熟且具象的具身智能的实现。

量子位:唐睿博士,虽然你们不是具身智能起家的,但是现在讨论具身智能绕不开你们,特别是李飞飞开始创业做空间智能之后,你们是被提及最多的一家中国的公司,你怎么看待这件事情?

唐睿:我其实最开始是做图形学的,我现在相当于是半只脚踏进具身智能,或者希望支撑具身智能。

我们最开始发现这个产业要素的变化的时候,可能会更早一些。从图形学角度出发,在深度学习或者说现在大家认知的人工智能出现之前,我觉得算力的迭代体系是指令级的优化,速率的优化体系,就是CPU的优化逻辑。

有了AI或者深度学习加成以后,算力的迭代体系就开始从指令级的迭代方向转变为并行计算的迭代方向,这也导致并行计算的成本会降到很低很低,相对于以前的980或者说1080的时代,现在的并行计算的算力成本已经很低了。

我最开始是做图形的,但我博士期间接触过模式识别和以前的Rule-based的机器学习。我们觉得并行计算无非就是模拟两件事情,一直到现在也是,一个是模拟人脑,通过深度学习已有的知识,先验的知识去预测未来,或者预测不同的模态。

另外一种是光的仿真,比如说我们酷家乐在做的设计软件,是模拟光在物理世界中的一个传播,把还没有建好的房子画出来,然后给业主去看。

具身智能里面还有很多物理仿真,大家会用MuJoCo去做,比如物理碰撞、交互仿真。所以边际计算就是在这两个领域里面去用的。

最早的时候我们做图形绘制,2015年、2016年的时候有一次去英国帝国理工大学,和我的师兄一起讨论。

原本机器人在现实世界里面获取到的结构化数据是有限的,而你们公司有数百万的设计师,每天都在产出数万甚至几十万的设计场景,而且非常逼真,为什么我们不把它拿过去给机器人做训练,除了人可以在这个场景里面看,机器人也可以在这个场景里面看。

打一个比方,大家有没有想过,很多年前出现了AlphaGO,后面又出来了OpenAIGym。AlphaGO能做的一件事情是什么,下围棋,OpenAIGym后面能打星际争霸、打Dota。

下围棋、打星际、打Dota,这对于人来说是多么难的一件事情,有多少人下不好围棋,有多少人打不好星际争霸,但是机器能打好。

核心的一个问题在于,下围棋、打星际、打Dota,都是在数字空间里面,我们人类能够给它提供训练或者去做决策,去做演练,去产生数据的系统。

我们在做的一件事情,是我们想做下一个OpenAIGym或者AlphaGO,甚至3D界的ImageNet这样一个3D物理世界的构造器,能够让我们的具身智能,我们的机器人,能够在一个AI可交互世界里得到足够多的仿真训练,让整个行业的智能化,或者手眼脑的协调性的能力得到快速的迭代和升级。

唐睿:从一级市场角度来说,是很多投资人或者说很多钱进来了,但是从学术或者技术的视角来看,大家可以发现,很多原来做图形学,或者是做3D视觉的技术同行已经开始迈入具身智能这个行业里面。

包括李飞飞,以及她的前同事LeoGuibas,LeoGuibas是做Geometric和3D的非常鼻祖的斯坦福教授,还有ImageNet论文的作者苏昊,他自己也创办了Hillbot,其实很多人都进入到具身智能这个行业。

为什么我们这些图形学的人会来进入到这个行业,我刚才说的并行计算,无非是两件事情,是模拟世界或者模拟人脑,我们图形学的人可能会觉得在模拟世界这个事情上,我们有比较先天的优势。

量子位:最近这两天Sora新版本出现后引发了热烈讨论,Sora生成视频的模式,是不是解决数据或者是物理世界模拟器的核心打开方式?它是不是一个世界模型?我们能不能通过这个方式,抵达AGIRobots最终的道路。你们之前有做类似方向上的工作,你们是怎么看这个事情的。

唐睿:Sora昨天刚刚发布了新版本,Demo令人印象非常深刻。

我觉得Sora算是一种物理世界的模拟器。Sora现在的商业策略,应该是做内容、视频的创作。

昨天的新版本,我看到有灰尘、风吹草动,和水波纹的效果,人类看着已经非常真实了,或者说已经能欺骗一个图形学的人的眼睛了。如果往内容创作的角度去说,应该说是最接近于这个领域的物理世界模拟器。

但是从具身智能的角度来说,具身智能最终的落地会有本体和环境的交互,所以它对于物理的准确性要求远超过艺术创作,或视频内容创作的精度。

因此可能在内容创作角度它算是,但如果进入到具身智能或者说真正的仿真的领域,它还比较欠缺,精度需要继续提升,或者可以加入反馈学习再调整的模块。

量子位:如果具身智能把可以在家庭里服务的AIrobots作为一个终点,像马斯克讲的擎天柱机器人做的事情,那我们现在处于什么阶段?

类比手机,智能手机已经发展到高度成熟的阶段,大致经历了功能机、小灵通、大哥大,那么今年具身智能处于什么样阶段?

唐睿:其实我在具身智能这个本体以及智能化研究里面,也只能算半个外行或者半个内行。

我期望的具身智能它未来终极形态可能是一个自动驾驶的延伸——不仅仅是一个助手,还是一个了解我的管家。

甚至具备主观能动性,或者换种说法,不用PUA它,它看到一些情况就能主动给你干活。

如果要精确定位我们现在处于什么阶段,我也不是特别专业。

我看到的情况是,如果把它类比人,手、眼、脚、脑子这样的四个核心的器官来看的话,我觉得脑子某种程度上已经超越人类了,它的决策系统可能在创造性上还和人类差那么一些,但至少从知识面,从他的理解能力,以及简单或者说低层次、低维度的推理能力上,应该是超越人类的。

眼睛不用说了,各种传感器,红外的也可以安装,可以实现千里眼。

脚的话,机器狗的行走能力,只要电池够用,我觉得是远超人类的,而且它不光有脚,还可以飞,比如像大疆无人机。

手的话,关节灵活性这块,我目前看到至少Phi的视频让我挺震撼的。

这4个器官,手眼脚的协调,用具身智能的术语讲,就是从感知到决策,再到整个行动一体化的体系。

我觉得可能会有一些新的范式出来,未来的具身机器人训练会像自动驾驶一样,朝着端到端的方式去开发,其中也会产生新的数据生产方式,系统性的支撑具身智能在技术上或者产业上快速的迭代。

THE END
1.人工智能51CTO.COM算法 1605内容 深度学习 1675内容 机器视觉 65内容 知识图谱 70内容 自然语言处理 109内容 机器人 914内容 人脸识别 460内容 我关注的话题 相关专题 更多 2024年第十九届中国企业年终评选 如何发挥数据的最大力量? 2024-09-11 10:06:01 开发者系列沙龙:HarmonyOS应用生态构建与拓展 2024-08-07 16:28:1051CTOhttps://ai.51cto.com/
2.猿代码超算人才智造局高性能计算并行计算人工智能高效AI算法实践:如何优化深度学习神经网络模型 发布于 2024-12-18 19:08 HPC环境配置技巧:实现高效并行优化 发布于 2024-12-18 19:07 HPC环境配置最佳实践:提升并行计算效率 发布于 2024-12-18 19:05 高效利用GPU加速神经网络训练技巧 发布于 2024-12-18 19:04 高效利用GPU加速深度神经网络训练 发布于 2024-https://www.ydma.com/index.php?mod=space&uid=8
3.MindSporeGradOperation算法实现 在自动微分流程中,需要进行自动微分的函数会被取出。并作为自动微分模块的输入,并输出对应的梯度图。 MindSpore的自动微分模块实现了从原函数对象到梯度函数对象的转换。转换后的对象为fprop形式的梯度函数对象。 fprop = (forward_result, bprop)、forward_result是前向计算图的输出节点, bprophttps://www.mindspore.cn/docs/zh-CN/r1.9/design/auto_gradient.html
4.有哪些学习算法的网站推荐?算法工程师,又名炼丹师、调参侠。这几年算法岗位可以说相当火爆,但也卷出了天花板。对于有心想做算法https://www.zhihu.com/question/20368410/answer/2793436529
5.国内外知名算法网站白露~1. 国内算法网站对比 网站名称国内/国外内容介绍题目难度题目数量题目类型竞赛活动解题思路编程工具 LeetCode中国 国内 算法题库和面试题库,适合准备面试和提高算法能力 合理分布,从Easy到Hard都有 2000+ 算法和数据结构,涵盖多个领域和技术 有,包括每周一次的周赛和不https://www.cnblogs.com/shoshana-kong/p/17533051.html
6.在线算法网站在线gpu算力华为好望商城丨算法商与集成商,跨产业链天堑的亲密握手 华为好望商城丨算法商与集成商,跨产业链天堑的亲密握手 时间:2021-02-19 11:40:22 云计算 对于算法提供商来说,算法工程化是一大难题。Huawei HoloSens Store的隐性价值则是从更深层次的算法开发赋能算法提供商。 https://www.huaweicloud.com/theme/180641-4-Z
7.首页SWPU_ICPC OnlineJudge(?>?<)? 欢迎来到西南石油大学算竞集训队在线判题系统!! 在线判题系统简介IntroductionOfOnline?Judge\mathcal{Introduction\,\,Of\,\,Online\,Judge}IntroductionOfOnlineJudge 纯小白萌新必看纯小白萌新必看纯小白萌新必看OnlineJudge\mathcal{OnlineJudge}OnlineJudge食用http://acm.mangata.ltd/
8.帅地玩Offer一个致力于打造全网最牛叉的算法网站,帮助你拿下大厂算法面试https://www.playoffer.cn/
9.可视化算法网站汇总,从此简单学算法!(附动图)有了这些可视化工具之后,我们就可以更简单的学习算法了,这三个网站各有春秋,你可以使用 Data Structure Visualizations 来了解数据结构,使用 VisuAlgo 和 algorithm-visualizer 来查看算法的具体执行过程,并使用 algorithm-visualizer 来查看算法的具体实现代码,真是非常方便,赶快去试试吧。 https://maimai.cn/article/detail?fid=1523043265&efid=0b1HvfbFcoSoa5HNkdMRzA
10.荆棘鸟科技AI人工智能中台AIoT生态平台提供全方位服务 依托成熟的安全能力和强大的工程化能力,提供从AI算法到AI高清摄像机、无人机,从边缘到私有云的全方位一站式解决方案。 校园安全采矿监管轨道交通智慧社区应急指挥综治雪亮智慧园区智慧加油站 技术架构 融控中心神经网络 · 深度学习 · 算法智能感知终端 · AI边缘计算终端 · 物联网终端http://www.tbivr.com/
11.算法笔记特征 有穷性 确切性 输入项 输出项 可行性 算法优劣评定 时间复杂度 空间复杂度 正确性 可读性 健壮性 时间复杂度 O(N^3) O(N^2) O(N) O(NlogN) 查找二叉树 O(logN) O(1) 排序算法 平均时间复杂度 冒泡排序 O(n2) 选择排序 O(n2) 插入排序 O(n2) 希尔排序 O(n1.5)http://ddrv.cn/a/114884
12.追梦算法网团队数量追梦算法网---团队数量 说明 芝加哥组织了一场激烈的军事竞赛,很多国家的军人慕名而来,他们要么是队友,要么是敌人。 现建立如下规则: 我的队友的队友,是我的队友; 我的敌人的敌人也是我的队友; 两个人只要是队友,就认为他们属于同一团队,现给你若干参赛军人之间的关系,请问:最多有多少个团队? https://blog.csdn.net/m0_56501550/article/details/124001901