回溯机器智能的进化史进行梳理,互联网时代推动“信息”系统成熟化,使得今天信息获取的成本极低;“模型”系统正走过拐点,大模型所带来的泛化能力使模型生产的边际成本下降,转化为特定大公司如OpenAI背后的算力、人才、数据成本;仍有待突破、充满挑战的是“行动”系统的智能化:
1)互联网时代推动“信息”系统成熟化——机器能够感知人类世界
互联网上覆盖了丰富多元的用户场景,以中国互联网应用为例,2022年网民使用率排名前五大的应用类别为即时通信、网络视频、短视频、网络支付、网络购物,分别为97.2%、96.5%、94.8%、85.4%、79.2%,涵盖了通讯、娱乐、购物的用户需求。此外线上办公、网约车、互联网医疗场景应用的网民使用率也分别达到了50.6%、40.9%、39.6%,也体现出用户生活的全面线上化趋势。
用户规模增长及线上用户场景的多元化也在推动数据量的快速增长,从而提供了海量的信息供机器进行学习。根据Statista给出的数据,2016-2020年全球产生的数据量依次是18ZB、26ZB、33ZB、41ZB、47ZB,数据量增长的复合增速是27.11%。我们认为随着各类应用的用户使用率提升,未来全球产生的数据量规模也将加速增长。
2)大模型展示出泛化能力,“模型”系统正走过拐点——机器能够理解人类世界
GPT系列模型提出“预训练-微调”的模式,表明训练模型具备规模效应。OpenAI在Transformer架构的基础上又进一步提出GPT模型,其突破在于训练时采用“预训练-微调”的模式,先采用大量无标注的语料预训练语言模型,然后对预训练好的语言模型进行微调,将其迁移到有监督学习的任务上。我们认为这种模式所产生的价值在于提供了将训练模型的边际成本转化为固定成本的模型架构,针对更底层通用的能力抽取出来训练大模型共担成本,而针对特定场景的部署只需要少量数据就能够进行训练,从而体现出规模效应的可行性。
GPT-4实现多模态能力,感知能力极大提升。GPT-1到GPT-3.5均为语言大模型,GPT-4增加了视觉模型,并实现了语言与视觉跨模态信息的对齐,类似于人类认知世界时,眼睛看到的图像信息会帮助我们加深对事物的认知,而反过来因为具备认知能力,看到不认识的事物时也能知道其功能,会提升视觉识别信息的能力,因此多模态能力的建立帮助机器提高了感知能力,并为复杂场景中的决策规划打好了基础,进而机器能够发挥计算优势,给出更好的行动方案。
3)基于“信息-模型“系统,“行动”系统到来有望加速——机器智能参与人类世界指向“行动”系统,我们把执行操作的场景分解为物理世界与数字世界:
在物理世界:交互需要借助相应的躯体,由此引出具身智能的概念。具身智能指智能体(可以是生物或机械),通过与环境产生交互后,通过自身的学习,产生对于客观世界的理解和改造能力,自动驾驶、智能机器人等即为典型的智能硬件产品。在实际生活中已经出现了很多机器人,如工业场景的码垛机器人、搬运机器人,商业服务场景的送餐机器人等,我们认为其与智能硬件的区别在于,传统机器人是基于固定坐标系进行特定执行操作的机器人,并不具备实时感知能力。传统机器人若想要向智能机器人升级,其优势在于执行控制模块具有优势积累,需要补足感知及决策模块。
3.1.感知层:进入“4D重建+占用网路”阶段,感知体系已较为成熟
在自动驾驶传感器领域,一直分为视觉派和雷达派两大派系,最简单的区别就是:前者主张使用高清摄像头+视觉识别算法,后者主张除摄像头外,再加入激光雷达、超声波雷达、毫米波雷达等感知硬件提高信息冗余以保证系统稳定。
在上述感知操作的流程中,我们强调三个关键的技术:
1)HydraNets:共用主干网络,模型训练边际成本低使业务拓展性强
2)Transformer架构:推动感知从2D视角走向4D重建,提高感知效率与可靠性
3)占用网络:解决通用障碍物识别问题,为安全兜底
3.2.决策规划:系高维非凸问题,引入神经网络求解效率提升
自动驾驶问题是高维度空间中的非凸问题,求解最优路径挑战很大。自动驾驶决策规划模块需要解决的问题是在接收到感知模块输出后,在其所重建好的空间中找到一条轨迹可以最大限度地提高汽车的安全性、舒适性和效率,将车辆规划至目的地,因此其本质是找到一条满足约束的最优路径,如果用数学方法求解,自动驾驶的规划求解是在高维空间中解非凸问题,求解后得出的最优解可能只是局部最优,但考虑到安全问题,自动驾驶决策规划必须要尽可能达到全局最优。
3.3.运动控制:仅执行决策指令,在工业上较为成熟
当决策规划模块输出轨迹后,由于其本身包含了方向、速度、加速度等信息,进一步地分解为具体的指令,会交给域控制器MCU调用执行器进行操作。在运动控制方面,其承担的主要角色是做执行操作,这里主要是传统的工控软件,在行业内都比较成熟,并不涉及特别多AI算法,因此本文在此不做展开。
车辆采集数据以Clip作为最小标注单元。在感知部分,我们详细介绍了特斯拉车上的8颗摄像头所采集的视觉数据,该数据通常为一段45-60s的视频格式的路段数据。除了摄像头视觉传感器之外,车上还包括惯性测量单元(IMU)、GPS、里程计等传感器,其中IMU是负责測量物体在三維空間中的角速度和加速度,並以此解算出物体的姿态,主要用以保持平衡;GPS用于导航定位;里程计是用于测量汽车的速度、加速度信息。综上摄像头、IMU、GPS、里程计等传感器采集的数据会构成一个最小标注单元,被成为Clip。每个Clip数据都经过RegNet、BiFPN提取图像特征进行特征融合,结合位置、速度、加速度以及时序特征等信息,用于实现将自身所处的物理世界转化至4D空间中,进而通过标注分解出静态路网与动态障碍物等感知任务的结果,用于后续输出。
3.5.算力:自研芯片性能可期,投产Dojo应对潜在增长需求
处理如此庞大的数据,强大的算力支撑也非常重要。在自动驾驶方案中涉及云端与车端算力,其中云端算力主要用于训练大模型,包括感知、决策规划及控制算法模块,同时还需要训练离线大模型作为标注数据的工具以及进行仿真模拟训练,在训练模型时因为需要不断调整参数导致算力的需求非常大,而且对于并行算力的要求会较高;车端模型是对已经在云端完成训练的模型进行部署,模型参数已经固定,仅对摄像头等传感器采集的数据进行运算即可,对算力的消耗相对较小。
4.1.Optimus:以FSD体系为基础,指向人形对软硬件适配调整
与自动驾驶算法方案类似,智能机器人的软硬件构成上主要包括五大组成部分,分别是:感知系统,包括摄像头、麦克风、距离感应器、压力感应器等,产品较为成熟,需要解决精度等问题;运算系统及其软件:理解及感知环境、拆解任务和路径规划、执行任务,难度在于数据少、虚拟世界与物理世界存在适配问题;驱动系统:分为液压驱动、电机驱动两种,要求轻便、灵活、体积小,抗摔、耐撞等;末端执行系统:如关节执行器,如谐波减速器、无框力矩电机等,难点在于控制抓握力度、灵活性等方面;能源供应系统:主要是电池供应。
在感知算法层面,人形机器人依赖于自动驾驶FSD算法,也采用了纯视觉感知方案,共配置有3颗摄像头,分别是左右眼各一个以及一颗鱼眼广角,同样也是提取图像特征后进行3D重建,对于空间中的物体通过占用网络进行识别输出。对比自动驾驶中占用网络,因为室内环境小目标比较多,我们可以看出机器人场景的单元格更加稠密。
视觉导航方面:与车一样,人形机器人也是基于关键点的视觉导航,但是不同于车在户外有车道线,室内没有车道线,机器人对可通行空间也是通过矢量图描述的。
影子模式:与车类似,人形机器人也采用类似于影子模式的方法,一种模式是采集人在执行操作时的发力大小、发力方向等信息,模拟人的执行动作;另一种方式是类似于比下方右图,由工程师头戴摄像头将其所看到的桌面拍摄传输给机器人,其在仿真环境下做出动作决策,与人的动作进行对比,从而获得差异数据用于训练机器人模型更类人。
运动控制:与自动驾驶类似,人形机器人的规划控制输出也是双足的运动轨迹,但不同点在于,机器人给出运动轨迹之后,还需要根据轨迹预测脚掌的落地位置。
灵巧手:2022年AIDay上公布的Optimus光手掌区域就用了6个驱动执行器,具有11档的自由度,拥有自适应的抓握角度、20磅(9公斤)负荷、工具使用能力、小物件精准抓握能力等等。
电机驱动:下图橙色部分均为Optimus的电机驱动器,相当于人的“肌肉“,也都是特斯拉完全自研的。考虑到机器人运动的灵活度,Optimus具有较多的自由度,因此其单独的电机数量远远超过车的电机。
4.2.建立在智能驾驶体系之上,人形机器人导入速度预计很快
4.2.1.硬件架构无须破旧立新,共享汽车零部件供应体系
得益于汽车供应链的积累及大规模零件的生产经验,特斯拉能够为Optimus挑选尽可能保证成本、效率的原材料。根据我们对产业的调研,特斯拉在选择人形机器人零部件的供应商时会优先选择整车供应商,因为彼此具备更扎实的合作信任关系,而且在同种零部件上,由于车与机器人共用同一种零部件,会因为零部件量产规模的上升而带来硬件成本的下降。三花智控系特斯拉整车供应商,根据公司公告,公司已经在对机器人机电执行器方面展开持续研究和产品开发工作。
4.2.2.与智能汽车本质均为智能交互硬件,复用算法模型及数据体系
人形机器人与智能汽车本质上都是具备实时感知能力的智能交互硬件,可以直接复用自动驾驶模型及数据体系。我们认为自动驾驶为人形机器人搭好了“场”,人形机器人可以复用的部分包括:1)感知模块的4D重建、占用网络;2)数据及自动标注工具;3)仿真模拟环境;4)共享强大的云端算力设施及芯片能力。在以上可复用的部分,只需要针对人形机器人场景采集相应的数据训练即可,不存在技术性的难度,难度在于工作量的积累。两款产品的不同是因为所处的场景及面对的任务不同导致规控体系差异,特别是机器人高达200多个自由度导致其规控更加复杂,但是自动驾驶所积累的工作是地基,0-1的工作很难,而扎实的基础将使1-10的工作加速迭代。根据2023年股东大会上马斯克透露信息,特斯拉已经打通了FSD和机器人的底层模块,实现了一定程度的算法复用。
自动驾驶积累的工程化经验有利于加速机器人正向研发。自动驾驶方案使特斯拉已经积累了智能硬件开发中所需要的“发现问题、采集数据、标注数据、训练模型、解决问题”的工程化经验,能够加速机器人正向研发过程。体现在:1)如前文所述的九头网络架构,在一定程度上,人形机器人与自动驾驶可以共用感知的backbone,所处理的任务主要体现在neck、head层的差异,而在处理尘雾等场景时积累的经验能够帮助机器人迭代;2)在规控、安全性等方面,两款硬件也具备一定的借鉴经验,比如基于汽车的碰撞模拟软件,能够为Optimus编写跌倒测试软件。
4.2.3.大模型加速智能驾驶方案迭代,机器人大模型领域成果频出
以ChatGPT、AIGC为代表的大模型热潮对自动驾驶行业掀起了新一轮变革。马斯克此前在社交网络称将推出FSDv12.0端到端版本,并于近日透露团队已经在对规控模块进行AI化,其是完全自动驾驶的最后一块拼图,一旦完成,将推动自动驾驶方案迎来下一阶段的质的飞跃。得益于大模型能力,国内车企也在积极推动BEV+Transformer这套无图方案在量产车上的落地,并给出了无图方案扩城的规划,比如小鹏提出XNGP将在下半年拓展到全国50城。可以预见。自动驾驶方案的突破将大大推动人形机器人方案的实现。
以李飞飞具身智能研究、谷歌RT-2为代表,机器人大模型领域成果频出。李飞飞团队研究实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给他做个示范都不需要。可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线都能完成。7月29日,纽约时报记者在谷歌实验室看到新推出的Rt-2模型驱动的机器人,桌子上放着狮子、鲸鱼和恐龙三个塑料雕像,当工程师给机器人发出指令“捡起灭绝的动物”,机器人抓起了恐龙。
以上的突破主要来自于语言大模型的助力,具体来看体现在:
增强对于环境感知的能力
首先,语言大模型能够帮助机器人更好的理解人类指令。在大模型时代到来之前,人们训练机器人,通常针对每个任务进行优化,比如抓取某种玩具,需要足量的数据,机器人才能准确地从各个角度、各个光线下识别这种玩具,抓取成功。而让机器人意识到自己有抓取玩具的任务,也需要对机器人进行编程才能解决。其次,基于语义理解物体,人形机器人面临更多开放的场景,涉及到不同的物体,如果只依赖于数据标注的方式识别物体效率较低,能基于语义对应该物体的属性、特征,能够提高对环境感知的效率,快速做出决策。比如,为了更准确高效应对车道线,特斯拉借用语言模型编写了一套车道语义拓扑图,对于车道线的连通性,用一个时序模型建模(自然语言模型)将整个路口用若干格子表示;自车在起始点坐标为其赋任务指示token‘start’,路标检测信息、移动轨迹矩阵作为特征,将不同路口间的连接关系储存为节点的配对,从而建立语义网络。
多模态对齐推动端到端方案落地
加速自动驾驶与人形机器人方案端到端的实现。基于前述介绍,我们把“感知、决策规划、运动控制”划分为三个相对独立的模块,前者的输出作为后者的输入,依次完成操作,但是参考人在开车时的模式,我们看到外界环境做出反应时并不会反映静态路网、运动轨迹,而是直接输出转方向盘,加速或者减速的操作,其本质是三个相对独立的模块融合成为一整个大模型,我们认为它其实也体现了不同模态数据的对齐。我们认为特斯拉提出的端到端的方案是本质上就是在完成视觉图像输入到方向盘转向及加减速之间的对齐。类似的,谷歌的RT-2模型本质上实现“语言-视觉-动作”三个模态的对齐。谷歌RT-1是个视觉-语言模型(VLMs),实现的功能是将一个或多个图像作为输入,并生成一系列通常表示自然语言文本的标记。而RT-2通过将VLM预训练与机器人数据相结合,直接控制机器人,形成强大的视觉-语言-动作(VLA)模型,使机器人可以进行推理、问题解决并解释信息,以在真实世界中执行各种任务,其或将成为构建通用机器人的一把钥匙。
因此,综合上述软硬件的积累及优势,我们认为人形机器人的产业链导入速度可能会比此前自动驾驶的产业导入速度更快。