BEV最新综述学术界和工业界方案汇总!优化方法与tricks学习感知任务的鸟瞰图(BEV)中的强大表示法是一种趋势

后台回复【ECCV2022】获取ECCV2022所有自动驾驶方向论文!

本调查回顾了关于BEV感知的最新工作,并对不同解决方案进行了深入分析。此外,还描述了行业中BEV方法的几个系统设计,介绍了一整套实用指南,以提高BEV感知任务的性能,包括相机、激光雷达和融合输入。最后,论文指出了该领域未来的研究方向,希望本报告能为社区提供一些信息,并鼓励更多关于BEV感知的研究工作。

自动驾驶中的感知识别任务本质上是对物理世界的三维几何重建。随着传感器的多样性和数量越来越复杂,自动驾驶系统的装备也越来越复杂,以统一的视角表示不同视图中的特征至关重要。众所周知的鸟瞰图(BEV)是一种自然而直接的候选视图,可作为统一表示。与二维视觉领域中广泛研究的前视图或透视图相比,BEV表示具有若干固有优点。首先,它没有2D任务中普遍存在的遮挡或缩放问题。可以更好地解决具有遮挡或交叉交通的车辆识别问题。此外,以这种形式表示对象或道路元素将有利于方便后续模块(如规划、控制)的开发和部署。

基于输入数据,论文将BEV感知研究主要分为三个部分:BEVcamera、BEV激光雷达和BEVfusion,下图描述了BEV感知家族的总体图,具体地,BEVcamera指示用于从多个环绕相机检测或分割3D目标的视觉或以视觉为中心的算法;BEV激光雷达描述了从点云输入的检测或分割任务;BEVfusion描述了来自多个传感器输入的融合机制,如相机、激光雷达、GNSS、里程计、高清地图、CAN总线等;

当谈到BEV感知研究的动机时,需要检查三个重要方面。

BEV感知是否会对学术界和/或社会产生真正和有意义的影响?众所周知,与基于激光雷达或融合的解决方案相比,基于视觉的解决方案存在巨大的性能差距,例如,截至2022年8月提交时,仅视觉与激光雷达之间的第一排名方法差距超过了nuScenes数据集上NDS的20%,Waymo基准的差距甚至超过30%。这自然促使我们研究视觉解决方案是否能够超越或等同于激光雷达方法。从学术角度来看,设计基于camera的pipelines以使其优于激光雷达的本质在于更好地理解从2D外观输入到3D几何输出的视图转换过程。如何像在点云中那样将相机特征转换为几何表示,对学术界产生了有意义的影响。从工业角度考虑,将一套激光雷达设备纳入SDV的成本很高。此外基于camera的pipelines可以识别长距离物体和基于颜色的道路元素(如交通灯),这两种激光雷达方法都无法实现。

论文主要回顾了近年来BEV感知研究的全貌,详细阐述了BEV感知文献的综合分析,涵盖了深度估计、视图转换、传感器融合、域自适应等核心问题。介绍并讨论了几种重要的BEV感知工业系统级设计。除了理论贡献外,我们还提供了一本实用的操作指南,用于提高各种BEV感知任务的性能。

LET-3D-APL:在仅camera的3D检测中,使用LET-3D-APL代替3D-AP作为度量。与三维联合交集(IoU)相比,LET-3D-APL允许预测边界框的纵向定位误差达到给定公差。LET-3D-APL通过使用定位亲和力缩放精度来惩罚纵向定位误差。LET-3D-APL的定义在数学上定义为:

mAP:类似于2D目标检测中的AP度量,但匹配策略被从IoU替换为BEV平面上的2D中心距离。AP是在不同的距离阈值下计算的:0.5米、1米、2米和4米。通过平均上述阈值中的AP来计算mAP:

NDS:nuScenes检测分数(NDS)是几个指标的组合,mAP、mATE(平均平移误差)、mASE(平均标度误差)、mAOE(平均方位误差)、mAVE(平均速度误差)和mAAE(平均属性误差)。通过使用上述度量的加权和来计算NDS。mAP的权重为5,其余为1:

最近的研究集中于视图转换模块[3、4、10、26、46、47、48、50、55、58],其中3D信息是根据2D特征或3D先验假设构建的。从二维特征构造三维信息通常表示为深度估计或costvolume。从3D先验假设构造3D信息通常被表示为采样2D特征以通过3D-2D投影映射构造3D特征,视图变换在仅camera3D感知中起着至关重要的作用,因为它是构建3D信息和编码3D先验假设的主要模块。大体上,它可以分为两个方面,一是利用2D特征构造深度信息并将2D特征“提升”到3D空间,另一个是通过3D到2D投影映射将2D特征编码到3D空间。我们将第一种方法命名为2D-3D,第二种方法称为3D-2D。下图给出了通过这两种方法执行视图转换的概要路线图:

从2D到3D,基于LSS的方法[5、45、46、48、56、63、95]根据2D特征预测每个像素的深度分布,而立体视觉方法[64、96]沿着由成本体积构建的平截头体散布2D特征。

从3D到2D,基于单应矩阵的方法[4,26,47,55,85,112]假定稀疏的3D采样点,并通过摄像机参数将其投影到2D平面。基于纯网络的方法[106、107、108、109、110]使用MLP或transformer隐式建模从3D空间到2D平面的投影矩阵。

LSS[56]引入了2D-3D方法,其中预测2D特征上每个网格的深度分布,然后通过相应的体素空间深度“提升”每个网格的2D特征,并执行基于激光雷达的下游任务方法。这一过程可以表述为:

LIGAStereo和DSGN等立体方法利用了这种强大的先验,并与KITTI排行榜上基于激光雷达的替代方案不相上下。

第二个分支(3D到2D)可以追溯到三十年前,当时逆透视映射(IPM)通过有条件地假设3D空间中的对应点位于水平面上,制定了从3D空间到2D空间的投影。这种变换矩阵可以从相机的内外参数中数学推导。一系列工作[99、100、101、102、103、104、105]应用IPM以预处理或后处理的方式将元素从透视图变换为鸟瞰图。

在视图变换的背景下,OFTNet[42]首先引入了3D-2D方法,即从3D到2D的特征投影,其中将2D特征投影到体素空间(3D空间)。它基于这样的假设:从相机原点到3D空间中的特定点,深度分布沿光线是均匀的。这种假设适用于自动驾驶中的大多数场景,但当涉及起伏道路时,有时会中断。同时,许多BEV地图分割工作[106、107、108、109、110]利用多层感知器或transformer架构[111]来隐式地建模3D-2D投影,而无需摄像机参数。最近,3D-2D几何投影和神经网络的组合变得流行[4,26,47,55,85,112],受特斯拉发布其感知系统技术路线图[6]的启发。请注意,transformer架构中的交叉注意)

在特征提取部分,主要有两个分支将点云数据转换为BEV表示。根据pipilines顺序,将这两个选项分别称为前BEV和后BEV,指示主干网络的输入是来自3D表示还是来自BEV表示。如下图所示,BEV激光雷达感知的一般流程。主要有两个分支将点云数据转换为BEV表示。上分支提取3D空间中的点云特征,提供更准确的检测结果。下分支提取2D空间中的BEV特征(原始点云转换),提供更高效的网络。

除了对原始点云进行基于点的方法处理之外,基于体素的方法将点体素化为离散网格,这通过离散化连续三维坐标提供了更有效的表示。基于离散体素表示、3D卷积或3D稀疏卷积可用于提取点云特征。VoxelNet[43]堆叠多个体素特征编码(VFE)层以编码体素中的点云分布作为体素特征,

PV-RCNN将点和体素分支结合起来,以学习更具辨别力的点云特征。具体而言,高质量的3D提案由体素分支生成,而点分支为提案细化提供额外信息。SA-SSD设计了一个辅助网络,将主干网络中的体素特征转换回点级表示,以明确利用3D点云的结构信息,并减少下采样中的损失。VoxelR-CNN采用3D卷积主干提取点云特征。然后在BEV上应用2D网络以提供目标proposal,这些proposal通过提取的特征进行细化。它实现了与基于点的方法相当的性能。objectDGCNN[141]将3D目标检测任务建模为BEV中动态图上的消息传递。在将点云转换为BEV特征图之后,预测查询点迭代地从关键点收集BEV特征。VoTr[139]引入了局部注意力、扩展注意力和快速体素查询,以使大量体素上的注意力机制能够用于大上下文信息。SST[67]将提取的体素特征视为标记,然后在非重叠区域中应用稀疏区域注意和区域移位,以避免对基于体素的网络进行下采样。AFDetV2[68]通过引入关键点辅助监控和多任务头,形成了单级无锚网络。

由于三维空间中的体素稀疏且不规则,应用三维卷积是低效的。对于工业应用,可能不支持3D卷积等算子,期望合适和有效的3D检测网络。MV3D[142]是将点云数据转换为BEV表示的第一种方法。在将点离散到BEV网格中之后,根据网格中的点获得高度、强度和密度的特征,以表示网格特征。由于BEV网格中有许多点,因此在此过程中,信息损失相当大。其它工作[143、144、145、146、147、148]遵循类似模式,使用BEV网格中的统计数据表示点云,例如最大高度和强度平均值。PointPillars[44]首先介绍了柱的概念,这是一种具有无限高度的特殊类型的体素。它利用PointNet[131]的简化版本来学习柱中点的表示。然后,编码特征可以由标准2D卷积网络和检测头处理。尽管点柱的性能不如其他3D主干网令人满意,但其及其变体具有高效率,因此适合于工业应用。

两部同名的作品BEVFusion[5,95]从不同方向探索了BEV中的融合。由于摄像机到激光雷达投影[72,159]抛弃了相机特征的语义密度,BEVFusion[5]设计一种有效的相机到BEV变换方法,将相机特征有效地投影到BEV中,然后使用卷积层将其与激光雷达BEV特征融合。BEVFusion[95]将BEV融合视为保持感知系统稳定性的鲁棒性主题,它将摄像机和激光雷达特征编码到同一BEV中,以确保相机和激光激光雷达流的独立性。这种设计使感知系统能够在传感器故障时保持稳定性。除了BEVFusion[5,95],UVTR[158]表示模态特定体素空间中的不同输入模式,无需高度压缩,以避免语义歧义,并实现进一步交互。图像体素空间是通过将每个视图的图像特征变换为预定义空间来构建的,其中为每个图像生成深度分布。使用常见的3D卷积网络构建点体素空间。然后在两个体素空间之间进行跨模态交互,以增强模态特定信息。

近年来,BEV感知在行业中的流行趋势。上图描述了工业应用中传感器融合的两个典型范例,在BEV感知研究之前,大多数自动驾驶公司基于perspectiveview输入构建感知系统。图a基于几何先验,将来自图像的3D结果从2D结果转换。然后,我们融合图像和激光雷达的预测,利用一些手工制作的方法,这些方法在现实场景中并不总是表现良好。相反,图b基于BEV的方法使用神经网络执行2D到3D转换,并集成特征,而不是来自不同模态的直接检测输出,从而减少手工设计,提高鲁棒性。

下图总结了全球公司提出的各种BEV感知架构:

下表描述了详细的模型/输入选项,请注意,本调查中提供的所有信息均来自公共资源;不同计划之间的比较和分析基于事实:

基于BEV的感知算法支持不同的数据模式,包括相机、激光雷达、雷达、IMU和GPS。摄像机和激光雷达是自动驾驶的主要感知传感器,一些产品仅使用摄像机作为输入传感器,例如特斯拉[6]、PhiGent[166]、Mobileye[164]。其他采用一套相机和激光雷达组合,例如Horizon[162],HAOMO[163]。请注意,IMU和GPS信号通常用于传感器融合计划[6、162、163],特斯拉和Horizon等的情况也是如此。

特征提取器用于将原始数据转换为适当的特征表示,该模块通常由主干和neck组成。特征提取器有不同的组合,例如,HAOMO[163]中的ResNet[149]和Tesla[6]中的RegNet[167]可以用作图像主干,neck可以是HAOMO[163]的FPN[79],Tesla[6]的BiFPN[168]等。对于点云输入,HAOMO[163]的基于pilliar的选项或Mobileye的基于体素的选项是主干的理想候选。

在行业中执行视图转换主要有四种方法:

(a)固定IPM。基于平坦地面假设,固定变换可以将PV特征投影到BEV空间,固定IPM投影也处理地平面,然而,它对车辆颠簸和路面平整度敏感。

(b)自适应IPM利用通过一些姿态估计方法获得的SDV的外部参数,并相应地将特征投影到BEV。尽管自适应IPM对车辆姿态具有鲁棒性,但它仍然假设地面平坦。

(c)基于transformer的BEV变换采用密集transformer将PV特征投影到BEV空间。这种数据驱动的转换在没有事先假设的情况下运行良好,因此被特斯拉、Horizon和HAOMO广泛采用[61,62,163]。

(d)ViDAR于2018年初由Waymo和Mobileye在不同地点并行提出[13,164],以表明基于相机或视觉输入使用像素级深度将PV特征投影到BEV空间的实践,类似于激光雷达中的表示形式。

术语ViDAR相当于大多数学术文献中提出的伪激光雷达概念。配备ViDAR,可以将图像和后续特征直接转换为点云,然后,可以应用基于点云的方法来获得BEV特征。最近已经看到许多ViDAR应用,特斯拉、Mobileye、Waymo、丰田[6、13、164、169、170]等。总体而言,transformer和ViDAR的选择在行业中最为普遍。

在先前的BEV变换模块中完成了不同摄像机源之间的对准。在融合单元中,进一步整合了摄像机和激光雷达的BEV特征。通过这样做,不同形式的特征最终被整合成一种统一的形式。

在BEV感知中,多头设计被广泛采用。由于BEV特征聚集了来自所有传感器的信息,所有3D检测结果都从BEV特征空间解码。同时,PV结果(对于自动驾驶仍然有价值)也从一些设计中的相应PV特征中解码。预测结果可分为三类:(a)低水平结果与物理约束有关,如光流、深度等。(b)实体级结果包括对象的概念,即车辆检测、车道线检测等。(c)结构级结果表示对象之间的关系,包括对象跟踪、运动预测等。

用于2D识别任务的图像上的通用数据增强适用于基于相机的BEV感知任务。一般来说,可以将增强分为静态增强和空间变换,静态增强仅涉及颜色变化,基于颜色变化的增强是直接适用的。对于涉及空间变换的增强,除了相应变换的地面真相外,还需要摄像机参数的校准。最近的工作中采用的常见增强是颜色抖动、翻转、多尺度调整大小、旋转、裁剪和网格遮罩。在BEVFormer++中,采用了颜色抖动、翻转、多尺度调整大小和网格掩码。输入图像按0.5和1.2之间的因子缩放,以0.5的比率翻转;总面积的最大30%被正方形掩模随机掩模。值得注意的是,在BEV感知中有两种翻转图像的方法。第一种方法是简单地相应地翻转图像、GT和相机参数。第二种方法还翻转图像顺序,以保持图像之间重叠区域的一致性,这类似于对称翻转整个3D空间。下图为BEV下的一些trick和消融实验:

点云数据在推理过程中,使用了多个TTA,包括旋转、缩放和翻转。对于缩放,所有模型的缩放因子都设置为{0.90、0.95、1.00、1.05、1.10},因为缩放因子越大或越小对模型性能有害。翻转与训练阶段相同,即沿X轴、Y轴以及X轴和Y轴。

虽然BEV检测消除了多摄像机对象级融合的负担,但也观察到了可从进一步后处理中获益的显著事实,利用2D检测结果对3D检测结果进行重复移除是有益的,其中2Dbox和3Dbox是二分匹配的。

[1]DelvingintotheDevilsofBird’s-eye-viewPerception:AReview,EvaluationandRecipe.2022

往期回顾

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、多传感器融合、SLAM、光流估计、轨迹预测、高精地图、规划控制、AI模型部署落地等方向;

THE END
1.AI模型训练与优化技巧:从数据增强到模型压缩的实践指南图像数据增强是一种常用的技术,通过对训练数据进行多样性的变换,可以有效提升模型的鲁棒性和泛化能力。常见的图像数据增强方法包括:随机裁剪、旋转、翻转、缩放、色彩变换等。例如,对于分类任务,我们可以通过对图像进行水平翻转和旋转操作,来增加数据的多样性,从而提升模型的分类效果。 https://www.jianshu.com/p/84d2a32572cc
2.一文详细归纳算法数据增强方法需要关注的是,数据增强样本也有可能是引入片面噪声,导致过拟合。此时需要考虑的是调整数据增强方法,或者通过算法(可借鉴Pu-Learning思路)选择增强数据的最佳子集,以提高模型的泛化能力。 常用数据增强方法可分为:基于样本变换的数据增强及基于深度学习的数据增强。 https://blog.csdn.net/2301_78285120/article/details/132388494
3.总结62种在深度学习中的数据增强方式业界新闻混合样本数据增强算法的核心思想是 按一定的比例随机混合两个训练样本及其标签 这种混合方式不仅能够增加样本的多样性,并且能够使不同类别的决策边界过渡更加平滑 减少了一些难例样本的误识别,模型的鲁棒性得到提升,训练时也比较稳定 (35)RICAP RICAP,即随机图像裁剪和修补,是一种新的数据增强技术 https://www.jindouyun.cn/document/industry/article/183115
4.伯克利AI研究院提出新的数据增强算法,比谷歌大脑的AutoAugment雷锋网 AI 科技评论按:数据增强是提升图像识别模型性能的重要手段。伯克利 AI 研究院的一篇关于数据增强的论文便被 ICML 2019 收录为 oral 论文,该论文巧妙地运用基于种群的数据增强算法,在降低计算成本的情况下,既能提高学习数据增强策略的速度,又能提升模型的整体性能。伯克利 AI 研究院也在官方博客上对论文进行了https://www.leiphone.com/news/201906/gfpjijbKYjpKQfE2.html
5.最新车身漆面缺陷检测算法及一些缺陷数据集项目介绍数据:为了实时采集车身油漆缺陷图像,提出了一种新的数据增强算法,以增强数据库处理小样本数据过拟合现象的能力。 方法:针对汽车涂料固有的缺陷特征,通过改进MobileNet-SSD网络的特征层,优化边界框的匹配策略,提出了一种改进的MobileNet-SSD算法,用于油漆缺陷的自动检测。 https://www.yoojia.com/ask/17-11631754346557195974.html
6.基于Mosaic数据增强方法的标签检测算法研究针对原始YOLOv5算法在小目标的复杂情况下的检测效果欠佳的问题,本文引入数据增强和DIOU_nms的方法,有效提高了数据集的利用率和实际检测结果的精确度,大大降低了实际目标的错检率,使得目标框的回归更加稳定迅速,定位更加准确。本文YOLOv5+Mosaic+DIOU_nms模型提高了YOLOv5算法在特定环境下的检测效果和鲁棒性,也验证了https://www.fx361.com/page/2022/0531/10538044.shtml
7.12个常用的图像数据增强技术总结机器学习或深度学习模型的训练的目标是成为“通用”模型。这就需要模型没有过度拟合训练数据集,或者换句话说,我们的模型对看不见的数据有很好的了解。数据增强也是避免过度拟合的众多方法之一。 机器学习或深度学习模型的训练的目标是成为“通用”模型。这就需要模型没有过度拟合训练数据集,或者换句话说,我们的模型对看https://www.51cto.com/article/721267.html
8.深度学习领域的数据增强机器之心在计算视觉领域,生成增强图像相对容易。即使引入噪声或裁剪图像的一部分,模型仍可以对图像进行分类,数据增强有一系列简单有效的方法可供选择,有一些机器学习库来进行计算视觉领域的数据增强,比如:imgaug (https://github.com/aleju/imgaug)它封装了很多数据增强算法,给开发者提供了方便。 但是在自然语言处理领域中,由于https://www.jiqizhixin.com/articles/2019-12-04-10
9.自适应双边滤波的Retinex图像增强算法AET以上各种对Retinex算法的改进都是需要人工调节参数,对此,本文提出一种基于参数估计的双边滤波Retinex图像增强算法:从文献[7]出发,对图像的噪声方差进行估算,从而自动调节双边滤波的空间几何标准差参数;同时,从文献[8]出发,对图像进行边缘检测,得出边缘强度,从而自动调节双边滤波的亮度标准差参数;最后实现了双边滤波的参数http://www.chinaaet.com/article/3000079533
10.指静脉识别中的数据增强及多任务学习算法的研究与实现最近深度学习由于互联网大数据的的爆发获得了快速的发展,在图像领域几近全面超越了传统的算法。本文结合深度学习在指静脉识别领域目前依然存在的问题上进行了探索。并提出了相应的解决方案。本文工作内容如下:(1)针对目前公共数据集数据量少的问题,设计并实现了基于深度学习的图像数量增强算法。该算法利用条件式生成模型,https://cdmd.cnki.com.cn/Article/CDMD-10013-1021025630.htm
11.分析语音数据增强及python实现python数据增强是一种生成合成数据的方法,即通过调整原始样本来创建新样本。这样我们就可获得大量的数据。这不仅增加了数据集的大小,还提供了单个样本的多个变体,这有助于我们的机器学习模型避免过度拟合+ 目录 一、概述 音频时域波形具有以下特征:音调,响度,质量。我们在进行数据增强时,最好只做一些小改动,使得增强数据和https://www.jb51.net/article/214889.htm
12.学习报告:脑电图数据增强——解决睡眠分期任务中的类别失衡问题该文章提出了五种数据增强的方法,包括重复少数类(DAR)、脑电图信号形态变化(DAMC)、信号分割和重组(DASR)、数据集到数据集的传输(DAT),以及最先进的生成算法GAN(DAGAN)。 1.重复少数类(DAR) 少数类的重复样本是一种简单的方法,通过简单地从少数类[2]中随机复制选定的样本。在训练过程中对该方法进行了验证。https://www.scholat.com/teamwork/teamwork/showPostMessage.html?id=13309
13.基于焦点损失函数的嵌套长短时记忆网络心电信号分类研究过量扩充样本数量将会导致特征冗余,故本文采用SMOTE算法仅对少样本类别进行处理,使三类心律失常类别数量总和与N类数量达到相对平衡状态,进而抑制样本不平衡对模型性能的消极影响,进一步提高focal loss下的模型性能,旨在达到平衡数据集的分类的精度。数据增强后的数据分布如表1所示。 在不平衡心律失常分类仿真实验中,对训练https://www.tcsurg.org/article/10.7507/1001-5515.202110002
14.图像增强算法有哪些图像增强算法主要是对成像设备采集的图像进行一系列的加工处理,增强图像的整体效果或是局部细节, 从而提高整体与部分的对比度, 抑制不必要的细节信息, 改善图像的质量, 使其符合人眼的视觉特性。图像增强算法有直方图均衡图像增强,小波变换图像增强 ,偏微分方程图像增强,分数阶微分的图像增强,基于Retinex理论的图像增强,https://aistudio.baidu.com/aistudio/projectdetail/4902656
15.一种基于特征集关联度的乳腺超声分割方法与流程数据增强是提升算法性能、满足深度学习对大量数据的需求的重要工具。数据增强可以 通过生成无限的修改数据流对训练集进行人为扩充。原始数据不同的变换最终趋于同一个结 果是数据一致性的体现。然而正则化是指对模型施加约束以降低模型对训练数据依赖的一般 方法,因此有望使其更好地泛化到无法可视化的数据。一致性正则化https://www.xjishu.com/zhuanli/55/202111049894.html
16.基于基本图像处理技术的数据增强方法在计算视觉领域,生成增强图像相对容易。即使引入噪声或裁剪图像的一部分,模型仍可以对图像进行分类,数据增强有一系列简单有效的方法可供选择,有一些机器学习库来进行计算视觉领域的数据增强,比如:imgaug (https://github.com/aleju/imgaug)它封装了很多数据增强算法,给开发者提供了方便。 但是在自然语言处理领域中,由于https://m.elecfans.com/article/1877181.html