基于神经网络/大模型的自动驾驶算法汽车电子

1.1、自动驾驶算法是感知、预测、规划、控制的结合体

1.1.1、感知:感知外部世界

1.1.2、预测:理解外部环境和当前状态

预测模块实际上是算法对外部环境和自车状态的理解。预测模块首先收集感知模块输入的车道线、障碍物、红绿灯、地图、定位等信息对主车的状况进行判断。其次场景感知模块对外部障碍物的优先级、路权等外部环境对主车的影响进行感知。评估器则会根据场景信息和障碍物信息判断出障碍物的轨迹或意图。预测器则根据短期的预测轨迹和意图判断障碍物等外部环境相对长期的轨迹。这将为未来汽车的规划提供重要的参考。算法层面通常以RNN为主。

1.1.3、规划:思考如何行动

1.2、数据:算法的养料,现实与虚拟的交织

2、大模型横空出世,自动驾驶奇点来临

高昂的单车成本和高精度地图成为自动驾驶大规模推广瓶颈。Robotaxi成本高昂(Yole统计早期Waymo为代表的的自动驾驶汽车改装成本约为20万美元),高精度地图采集制作以及合规要求繁杂(量产落地过程中,高精度地图面临:采集成本高;人工修图制图费时费力;地图鲜度不足;国内法规严格等困难),带来该方案的泛化性较差。经过数十年的发展,Robotaxi的使用范围仍被限制在特定区域,使用对象也仅局限在商用车领域。市场亟待出现一种单车性能强大、成本低廉的自动驾驶解决方案。

2.1、BEV+Transformer横空出世,大模型推动自动驾驶迈向普及

2021年特斯拉推出BEV+transformer、重感知轻地图的自动驾驶解决方案,开启了自动驾驶行业新的篇章。

2.1.1、BEV感知助力成为感知外部世界标准范式

BEV全称为Bird’sEye-View(鸟瞰图),即通过神经网络将各个摄像头和传感器获取的信息进行融合,生成基于俯视的“上帝视角”的鸟瞰图,同时加入时序信息,动态的对周边环境进行感知输出,便于后续预测规划模块使用。正如人类一样,驾驶行为需要将各处观察到的信息综合到统一的空间中,来判别什么地方是可以行驶的区域。究其原因,驾驶行为是在3D空间中的行为,而鸟瞰图则是将2D的透视空间图像转换为3D空间,不存在距离尺度问题和遮挡问题,使得算法可以直观的判断车辆在空间中的位置以及与其他障碍物之间的关系。

2.1.2、Transformer大模型为构建BEV空间提供最优解

天花板高企适用于大规模数据训练场景:在图像识别能力方面,Transformer拥有更高的上限,随着训练数据量的增长,传统CNN模型识别能力呈现饱和态势,而Transformer则在数据量越大的情况下拥有更好的表现。而自动驾驶洽洽为面向海量的数据场景,要求有足够好的精度的场景。

拥有多模态感知能力:Transformer可实现多模态数据的处理,应对图像分类、目标检测、图像分割功能,并实现对3D点云、图像等数据的融合处理。

灵活、较好的泛化性能:Transformer可适用于不同大小的输入图像,同时外部环境包含扰动的情况下仍能保持较好的检测性能。

但CNN网络在提取底层特征和视觉结构方面有比较大的优势,而在高层级的视觉语义理解方面,需要判别这些特征和结构之间的如何关联而形成一个整体的物体,采用Transformer更加自然和有效。同时CNN也拥有更好的效率,可以采用更低的算力实现效果。因此业界通常会将CNN和Transformer结合来进行物体识别。

2.1.3、特斯拉引领打开自动驾驶天花板

特斯拉的自动驾驶算法结构中,首先将摄像头信息无损采集,送入卷积神经网络Regnet来提取不同尺度的图像特征,接着使用BiFPN进行特征融合,然后将这些特征送入Transformer模块,利用Transformer中的多头注意力机制来实现2D图像特征到三维向量空间的转换和多摄像头特征系信息的融合,之后接入不同的“头”如交通标志检测、障碍物检测等,来实现不同任务的处落地,形成一套优雅的,可完美实现数据驱动的感知算法。由于不同的“头”之间采用了共享的特征提取网络,因此被特斯拉起名为“九头蛇”算法架构。

特斯拉的BEV+Transformer算法中两个环节尤为关键:

2.1.4、BEV+Transformer大模型提供远强于传统自动驾驶算法的感知能力

(1)改善2D-3D空间转换过程中深度预测难点,感知性能大幅提升

(2)完美实现多摄像头、多传感器的信息融合,极大方便后续规控任务

BEV+Transformer实际上引入“特征级融合”(中融合)方式。通常自动驾驶汽车拥有6-8个摄像头以及其他多种传感器,在感知过程中,需要将各类传感器的信息进行融合。传感器融合大体可分为几大类:

目标级融合(后融合):将每个传感器采集信息并处理后的目标进行融合。该方案是此前自动驾驶主流采用的方案,被广泛应用于摄像头之间、不同传感器之间的信息融合。优势在于算法简单、解耦性好即插即用。但也存在致命问题,由于融合前的处理损失了大量关键信息,影响感知精度,融合结果容易冲突或错误。此外后融合中的融合算法仍然基于规则,无法进行数据驱动,存在局限性。

特征级融合(中融合):则将原始传感器采集的数据经过特征提取后再将特征向量进行融合。该方案的优势在于,数据损失少、将目标“分解”为特征,更容易在不同相机和传感器之间关联,融合效果好。在BEV+transformer算法中实际上均采用中融合的方式。

以路过大型卡车场景为例,障碍物某个时刻在5个摄像头中同时出现,且每个摄像头只能观察到车的某个部分。传统算法通常会分别在每个摄像头内完成检测,再融合各摄像头的结果。通过部分信息识别出卡车整体的特征及其困难,且一旦完成物体检测,相当于“脑补”了看不到的部分,误差较大拼接困难,经常会识别为多个目标或漏检。而BEV+Transformer通过特征级融合,完美生成鸟瞰视角下的场景,并且识别精度更高。

(3)更易融入时序信息,模型拥有“记忆”,避免遮挡等问题

(4)汽车拥有实时建图能力,摆脱对高精度地图的依赖

BEV+Transformer算法可在车端实时构建媲美高精地图的高精度局部地图,能够在任意常规道路条件下,实现自动驾驶所需的静态场景深刻理解,然后以此为基础,端到端的输出障碍物的轨迹和速度、车道线信息等,实现复杂场景下的自动驾驶应用,而不需要依赖高精地图。使得算法的泛化性大幅提升,成本也大幅下降。

2.2、占用网络提供3D世界感知,形成通用障碍物识别能力

2.3、规控算法由基于规则迈向基于神经网,大模型开始崭露头角

2.3.1、人工智能逐步渗透进入规控算法

发力安全性、舒适性和效率,规控算法成为当前头部玩家主攻方向。人能够基于非常有限的感知信息完美实现驾驶行为,很大程度因为人类拥有强大的“规控”能力。对自动驾驶而言,采取一种让安全性、舒适性和效率都达到最大化的驾驶策略无疑是各大厂商不懈追求的目标。而该环节也直接决定了自动驾驶功能的消费者体验,目前头部玩家已经将主攻方向转移到规控算法领域。

“拟人化”、强泛化性,人工智能推动自动驾驶“老司机”上线。规控算法的难度较高,存在诸多非确定(如辅路与干道没有绿化带隔离,辅路的车辆可随时进入干道)、强交互(如多个物体在同一场环境下决策会相互影响,存在一定博弈性)、强主观(如驾驶员的驾驶风格,很难用有限标准量化表示)的场景。同时涉及交通法规等一系列问题。早年的算法通常采用基于专家知识和规则的模式为主,由于基于规则的系统需要不断补充新的规则以实现对各类环境的良好应付,日积月累代码量庞大,占用算力资源,且不易维护。因此依靠数据驱动的基于人工智能的规控算法日益走向台前。面对复杂的外部环境,人工智能模型能够更加平滑的以“类人”的方式对驾驶行为进行处理,泛化能力强、舒适性好,应对复杂场景的能力大幅提升。

2.3.2、大模型赋能,车道线预测等复杂任务得以实现

复杂道路的车道拓普结构识别难度较高。自动驾驶车辆在行驶过程中需要明确自车的道路情况和车道线拓扑情况,以此来决定如何规划自己的行驶轨迹。但当车道线模糊,或者十字路口等场景下,需要算法自己计算出车道线情况,来指导自身的自动驾驶行为。我们看到一些玩家针对这样的场景做出了优化,来完美应对各类突发情况,产业算法不断进化和成熟。

特斯拉采用训练语言模型的形式来训练车道线网络模型。车道线网络实际上是嫁接在感知网络上的一个Transformer的解码器(Decoder)。参考自然语言处理任务中的形式,让模型用自回归(综合上个环节的结果输出下个环节的内容)的方式输出车道线的预测结果。具体而言,将车道线包含节点位置、节点属性(起点、终点、中间点等)、分叉点、交叉点等进行编码,形成类似语言模型中单词的属性,输入Transformer解码器中,将信息转化成为“车道线语言”,去生成下个阶段的结果,进而形成整个路网的车道线的拓扑结构。

理想汽车在理想家庭日上也展示了其用于增强路口性能的算法NPN神经先验网络。为了解决大模型在十字路口不稳定的问题,对复杂路口,提前进行路口的特征提取和存储,当车辆再次行驶到路口时刻,将过去提取好的特征和BEV感知大模型融合,形成更加完美的感知结果。

2.4、端到端(感知决策一体化):大模型为自动驾驶彻底实现带来希望

2.4.1、回归自动驾驶第一性原理,端到端自动驾驶成为市场远期共识

目前英国初创公司Wayve亦致力于开发端到端的自动驾驶系统,致力于让汽车通过自己的计算机视觉平台“自己看世界”,同时可以根据它所看到的东西做出自己的决定。马斯克也曾在推特上表示,其FSDV12版本将是一个端到端的自动驾驶模型。

2.4.3、大模型的思考,自动驾驶或许并非终点

2.5、数据端:大模型推动数据闭环和仿真落地

神经网络只决定了算法的上限,而是否能让神经网络发挥其效能,数据起到了决定性的作用,因此如何寻找纯净且多样化的海量数据集相比算法而言同等重要。

2.5.1、数据闭环:自动化运行,降本增效推升规模是关键

数据采集:通常自动驾驶算法会采取一定的触发(Trigger)机制来开启数据上传。如出现人类驾驶和自动驾驶不一致的情况,或不同传感器之间一致性不同的情况,或者不同算法出现冲突,以及某些指定的特殊场景如近距离跟车、加塞、光照急剧变化、阴影车道线等等。特斯拉在2022AIDAY上表示其拥有221种触发器。数据清洗/挖掘:数据清洗和挖掘实际上是数据处理的过程,通常采集的数据包含大量的无用数据,这里需要算法将训练模型所需要的数据提取出来,以实现有效的数据收集,同时修正部分错误数据。这其中对于数据处理的“内功”要求深厚。数据标注:挖掘到有价值的数据后,需要采用人工标注或自动标注的方式,叠加部分仿真数据,形成数据集来实现对算法的训练和迭代。这其中涉及2D标注、3D标注、车道线标注、语义分割等,工作量大,同时影响着车企自动驾驶算法的迭代,是数据闭环中的重中之重。

数据闭环收益显著但成本不可忽视,降本增效是关键。数据标注方面,据特斯拉AIDAY描述公司曾经组建了超过千人的团队,早期通过人工在2D图片上进行精细标注,但效率低下;后改进为在向量空间完成标注,再通过投影投射到8个摄像机里面,效率大幅提升;再之后特斯拉即建立了自动标注系统,通过离线大模型实现自动标注,大幅提升标注效率。此外特斯拉通过多车辆联合优化等方式来提升标注的精确度,起到了良好的效果。行业其他玩家亦开发自动标注工具以降本增效,据小鹏汽车描述,采用自动化标注工具后,公司能够在17天内完成原本需要200个人年才能完成的标注任务。数据闭环方面,特斯拉、小鹏、理想汽车均提到了各自的自动化数据闭环体系,能够全自动完成数据的采集、挖掘、标注、存储等环节,大大提升模型的训练和迭代效率。

2.5.2、仿真:从提升效率到不可或缺

仿真是自动驾驶系统构建不可或缺的环节。将数据采集过程中的实车数据经过聚类、场景提取、泛化与筛选,构筑用于测试的虚拟世界,自动驾驶算法控制车辆,与虚拟世界产生交互,并将交互结果输出,在自动驾驶领域优势明显:(1)当数据极端难以获取的时候,仿真可以生成大量的场景供模型训练;(2)天然带有标注信息。当数据难以标注的时候,如几百万人过马路,标注成本极高且效率低下容易产生错误,但仿真场景下不存在上述难点;(3)仿真可以给规控算法以安全的实验环境;(4)仿真的价格低廉,效率高。理论上完美的仿真能够取代实车测试,进而以较低成本达到安全测试效果,缩短自动驾驶算法研发周期,是自动驾驶开发迭代的重要环节。

对仿真工具而言,其能够覆盖的场景范围越大,自动驾驶可行驶边界就越广泛。因此评价自动驾驶算法最重要的标准就是测试其是否能够处理足够多的场景库。通常仿真模型会以真实采集的数据、模拟数据、以及根据真实场景合成的仿真数据为数据源,对场景的几何形状、物理运动规律、以及场景中各个元素如车流、行人等符合逻辑规律,以实现更好的仿真效果。

自动驾驶仿真平台市场竞争激烈,促使平台仿真性能提升。自驾仿真平台布局主体众多,可以划分为科技公司、自驾解决方案商、仿真软件企业、车企、高校及科研机构五大类。科技公司拥有大数据优势,软件开发经验丰富;自驾解决方案商多针对自研发需要,较少对外提供仿真服务;不同仿真软件企业经验积累程度不同,传统企业积累深厚,初创企业积累薄弱;车企能够将路测和仿真测试同步结合,但限于自身软件开发能力,多与外部仿真平台提供商合作进行自动驾驶汽车开发;高校及科研机构主要对自驾仿真软件进行前瞻、基础性研究。自驾仿真平台参与者众,市场竞争激烈,具备更快迭代速度、更强仿真能力、更完善服务支持的仿真平台将快速成长。

51Sim-One:本土仿真系统助力中国自动驾驶量产落地。Sim-One是51World全栈自研的云原生仿真平台。(1)场景方面,Sim-One具有丰富的场景生成方式,特别是能基于语义泛化工具链能够实现场景的快速定义;与第三方场景库达成合作,扩充场景数量,提高仿真测试质量。(2)平台方面,Sim-One具有丰富的功能,包括静态和动态数据导入、测试场景案例编辑、各类仿真、测试与回放、虚拟数据集生成以及各类在环测试;Sim-One基于原生云架构仿真平台,支持大规模并发仿真技术,日测试里程可达十万公里。(3)评价方面,Sim-One具备丰富的指标库可供用户自行选择进行评价,涵盖安全性、违规性、舒适性、高效性、经济能耗性、控制准确性等多个维度,并且支持多场景并发评价。

AI应用于仿真系统,能够有效辅助自动驾驶系统升级。(1)在场景库构建方面,从传感器数据中利用AI进行自动化、大规模三维重建,构建现实世界对象和背景的几何形状、外观和材料属性;使用大量路采数据训练AgentAI,使之模仿道路场景中的主体,赋予虚拟场景强交互性;利用已有场景库与生成式AI,自动生成无需标注的各种交通场景数据。(2)在车辆仿真测试过程中,使用AI识别自动驾驶系统的弱点,并自动创建对抗性场景,同时自驾系统使用AI算法自动从错误中学习,自动迭代更新,无需密集手动调整算法,适应更快节奏、更大规模的训练。AI能使仿真系统更有针对性,使自动驾驶算法调整自动化,加速自驾技术在现实世界落地。

3、自动驾驶算法变革引领产业链变化

3.1、兵马未动粮草先行,云端算力军备竞赛开启

对自动驾驶而言,大量的数据处理、训练、自动标注、仿真等工作需要完成,算力成为车企打造自动驾驶能力的核心,决定着车企的算法迭代效率和上限。特斯拉表示其总算力在2024年将冲刺100EFlops,而国内领先玩家亦不遑多让,纷纷构建自有的数据中心,自动驾驶的算力军备竞赛从车端蔓延到云端。

3.1.1、特斯拉自研算力平台Dojo,2024年冲刺100EFlops算力

而据特斯拉AI官方账号显示,特斯拉将在2024年1月将拥有等效10万片英伟达A100GPU的算力,在2024年的10月拥有100EFlops算力,等效30万片英伟达A100GPU算力。

3.1.2、国内自动驾驶领先玩家亦积极布局,算力成为自驾竞争“入场券”

国内玩家亦快速布局算力领域,为自身算法和数据的迭代和积累铺平道路。2022年8月,小鹏汽车与阿里云共同宣布在内蒙古乌兰察布建成自动驾驶智算中心“扶摇”,用于自动驾驶。“扶摇”的算力可达到600PFLOPS,据何小鹏在小鹏科技日上描述,智算中心将小鹏汽车的自动驾驶模型训练效率提升百倍以上。毫末智行则联合火山引擎推出雪湖·绿洲智算中心,拥有670PFLOPS算力。此外2023年1月吉利汽车也联合阿里云推出吉利星睿智算中心,理想汽车在2023年同样与火山引擎合作在山西布局智算中心,蔚来等诸多车厂亦积极推动自有或云端算力的构建。

3.2、自动驾驶芯片格局有望被重塑

3.2.1、Transformer大模型对芯片架构提出新的要求

Transformer大模型对芯片架构提出新的要求。芯片架构决定着算法运行效率,近年随着Transformer算法风靡AI界,特斯拉引领下,Transformer在自动自动驾驶行业行业被广泛使用,芯片对Transformer适配性将影响未来芯片的竞争格局。与传统卷积神经网络(CNN)架构相比,Transformer算法拥有显著的不同:(1)算法对算力要求较高。Transformer通常计算量较大,且在大参数和大数据量的基础上才能展现出更优异的模型性能,这对芯片的算力提出新的要求。(2)对芯片的运算精度存在一定要求。考虑到算力的限制,目前的推理侧芯片通常采用int8(整型)精度算力(int8为运算数精度单位,Int8指8位整型数,即用8bit来表示一个整数数字;相应的FP16为半精度浮点数,即用16bit表示一个小数,精度更高),而对Transformer来说,由于其内部算子较为复杂,更适合于在采用浮点运算的平台运行。(3)算子复杂度高,和卷积神经网络显著不同。相比传统卷积神经网络算法中更多以较为规则的卷积矩阵乘法运算而言,Transformer中算子复杂度高,有较多访存密集型算子,对访存带宽和存储容量要求较高。而传统AI芯片多基于卷积神经网络等算法优化,难以实现和Transformer的良好适配。

3.2.2、芯片玩家开始着力加大产品对Transformer的适配度

鉴于上述特点,不少芯片厂商推出了可针对Transformer加速的芯片产品。未来,能够良好适配Transformer算法并帮助其在车载平台落地的公司有望占得先机。

3.3、自动驾驶产业加速成熟,配套公司全面受益

3.3.1、BEV+Transformer大模型的自动驾驶算法构建形式被市场广为接受

特斯拉发布BEV+Transformer的算法以来,行业广泛认可,我们看到诸多玩家积极跟进,推出自己的大模型算法。理想汽车在最新的理想家庭科技日上宣布自动驾驶已经进入大模型时代,而通勤NOA和城市NOA将成为未来消费者的刚需配置。

THE END
1.2023最新深度学习的回归模型回归模型的算法2023最新深度学习的回归模型 回归模型的算法 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。通常使用曲线/线来拟合数据点,目标是使曲线到数据点的距离差异最小。https://blog.51cto.com/u_16213677/8579259
2.必看深度好文│推荐系统产品与算法概述基于模型的推荐算法种类非常多,最常用的有矩阵分解算法、分解机算法等。目前深度学习算法、强化学习算法、https://developer.huawei.com/consumer/cn/forum/topic/41598094
3.“才”聚天开,勇往“职”前7、持续学习、借鉴行业内的理论知识和实际操作经验,提升业务能力; 8、遵循公司从美国引进的系统行为干预方案,给予ADHD等行为问题儿童进行团体训练; 9、检索最新国内外科研进展,支持公司对课程的开发和优化; 10、从专业角度,解答顾客咨询; 11、公司交办的其他任务 https://www.tjrc.com.cn/app/article/content/VE4rR2NWRjUzUU5SOFFxWDdRa09oZz09.shtml
4.AlphaZero加强版AlphaTensor问世,发现史上最快矩阵乘法算法MIT计算机科学家Virginia Williams就表示:研究者们可以再尝试一下,去搞明白这些特定算法中有没有什么特殊规律。此外,也可以研究一下如果将这些特殊算法组合起来,是否能发现更多更优的计算方法。 目前AlphaTensor的相关代码已经开源。 五、以Deepmind开发的为主的深度学习在医学中的应用 https://www.medsci.cn/article/show_article.do?id=97c6e419443f
5.深度学习本书为三大部分,第一部分介绍应用数学基础知识和机器学习的基本概念,第二部分介绍业界经典的深度学习算法,第三部分是一些探索性研究,对深度学习的未来发展非常重要。本书假定读者拥有计算机科学的背景,熟悉编程,对计算性能、复杂度问题、图论知识以及入门的微积分了解https://www.epubit.com/bookDetails?id=N8263
6.计算机视觉的前沿研究和应用进展计算机视觉是近几年来热门的AI研究领域之一,它的作用是让计算机能够理解和处理图像和视频数据,其研究方向包括目标检测与识别、图像分割、姿态估计、行为分析等;常用算法包括卷积神经网络(CNN)、支持向量机(SVM)、深度学习(如ResNet、YOLO)等。计算机视觉在许多领域都有广泛的应用,包括人脸识别、自动驾驶、安防监控、医学https://wlxy.yangtzeu.edu.cn/sysywlglzx1/info/1027/1442.htm
7.基于深度学习的目标检测技术综述近年来, 由于卷积神经网络的发展和硬件算力提升, 基于深度学习的目标检测取得了突破性的进展. 目前, 深度学习算法已在计算机视觉的整个领域得到广泛采用, 包括通用目标检测和特定领域目标检测. 大多数最先进的目标检测算法都将深度学习网络用作其骨干网和检测网络, 分别从输入图像(或视频), 分类和定位中提取特征. https://c-s-a.org.cn/html/2021/3/7839.html
8.TSR:基于深度学习的超分辨率技术及应用腾讯云开发者社区2)本技术可用于所有对图片质量要求较高的场景,通过基于TSR的超分辨率技术可以智能修复用户的老照片,模糊的图片,能够把普通图片变成清晰图像。目前已在最新版QQ上使用,用户进行放大查看图片细节时可以达到“无限”缩放的高清效果 3)同时本技术带来的另一个收益是打开了移动端进行AI相关的深度机器模型学习的大门。在此之https://cloud.tencent.com/developer/article/1006272
9.什么是深度学习算法?不BB,直接上干货,力争用一篇文章给你说透什么是深度学习算法。备注:看的时候,手里可以拿一杯水,https://www.zhihu.com/question/314119766/answer/2008111235
10.深度学习综述这篇文章主要是为了对深度学习(DeepLearning)有个初步了解,算是一个科普文吧,文章中去除了复杂的公式和图表,主要内容包括深度学习概念、国内外研究现状、深度学习模型结构、深度学习训练算法、深度学习的优点、深度学习已有的应用、深度学习存在的问题及未来研究方向、深度学习开源软件。 https://blog.csdn.net/fengbingchun/article/details/50087005
11.基于深度学习的目标检测算法研究LateSpring摘要:基于深度学习的目标检测作为目前的计算机科学的研究热门方向之一,已经涌现了大量优秀的算法。通常来说,基于深度学习的目标检测[1,2]分为两阶段算法和单阶段算法[3]。本文详细介绍了第一个基于深度学习的两阶段目标检测算法R-CNN[4],以及其后续衍生算法包括SPP-Net[5],FastR-CNN[6],FasterR-CNN[7]算法,两https://www.cnblogs.com/JinyuLi/articles/17515231.html