CVPR'24|UniMODE:单目3D目标检测大一统!室内室外全搞定!
添加小助理:dddvision,备注:3D目标检测,拉你入群。文末附行业细分群
扫描下方二维码,加入3D视觉技术星球,星球内汇集了众多3D视觉实战问题,以及各个模块的学习资料:最新顶会论文、书籍、源码、视频(近20门系统课程[星球成员可免费学习])等。想要入门3D视觉、做项目、搞科研,就加入我们吧。
一句话总结:开发了一个统一的单目目标检测器UniMODE,无缝地集成了室内和室外场景。
单目3D目标检测,相较雷达和多模态方案在成本效益和全面语义特征方面具有优势,但是单目3D目标检测在室内和室外的网络架构和权重不一样。
一方面,室内物体通常距离相机几米,而室外目标可能超过100米。由于需要一个统一的BEV检测器来识别所有场景中的物体,BEV特征必须覆盖尽可能广泛的感知范围。与此同时,由于室内物体通常较小,因此室内检测的BEV网格分辨率需要精确。所有这些特性都可能导致不稳定的收敛和巨大的计算负担。因此作者开发了一个两阶段检测架构,第一阶段产生初始目标位置估计,第二阶段使用此估计作为先验信息定位目标,有助于稳定收敛过程。引入了一种创新的不均匀BEV网格分割策略,扩展了BEV空间范围,同时保持可管理的BEV网格大小。此外,还开发了一种稀疏的BEV特征投影策略,将投影计算成本降低了82.6%。
另一方面,另一个障碍来自各种场景之间的异构域分布(例如图像风格,标签定义)。数据可以在真实场景中收集,也可以在虚拟中合成。一类对象可能在一个场景中被标注,但在另一个场景中却没有标签,这导致网络收敛时的混淆。为了处理这些冲突,提出了一个统一的域对齐技术,由域自适应层归一化来对齐特征,以及用于缓解标签定义冲突的类别对齐损失。
下面一起来阅读一下这项工作~
标题:UniMODE:UnifiedMonocular3DObjectDetection
作者:ZhuolingLi,XiaogangXu,SerNamLim,HengshuangZhao
机构:香港大学、浙江大学、中佛罗里达大学
实现统一的单目3D目标检测,包括室内和室外场景,对于诸如机器人导航之类的应用至关重要。然而,涉及多种数据场景来训练模型会带来挑战,因为它们具有显著不同的特征,例如,不同的几何属性和异构的域分布。为了解决这些挑战,我们基于鸟瞰(BEV)检测范式构建了一个检测器,其中显式特征投影有助于解决使用多种数据场景训练检测器时的几何学习歧义。然后,我们将经典的BEV检测架构分为两个阶段,并提出了一种不均匀的BEV网格设计,以处理由上述挑战引起的收敛不稳定性。此外,我们开发了一种稀疏的BEV特征投影策略来减少计算成本,并提出了一种统一的域对齐方法来处理异构域。结合这些技术,我们得到了一个统一的检测器UniMODE,其在具有挑战性的Omni3D数据集上(一个包含室内和室外场景的大规模数据集)比先前的最先进水平提高了4.9%的AP_3D,展示了BEV检测器首次成功泛化为统一的3D物体检测。
下面是在Omni3D中对各个子数据集的检测结果进行可视化。
作者开发了一个统一的单目目标检测器UniMODE,并在Omni3D基准测试中实现了最先进的性能。在统一检测设置中,UniMODE在AP3D方面超越了最先进的检测器CubeRCNN,提高了4.9%。此外,在室内和室外检测设置中分别评估时,UniMODE的性能分别比CubeRCNN提高了11.9%和9.1%。这项工作代表了对BEV检测架构通用性的探索的先导性努力,无缝地集成了室内和室外场景。
特征头和深度头负责将图像特征投影到BEV平面并获取BEV特征。在此投影过程中,开发了一种技术来移除不必要的投影点,从而将计算负担减少约82.6%。此外,提出了不均匀的BEV特征,这意味着相机附近的BEV网格具有更精确的分辨率,而相机远离的网格则覆盖更广泛的感知区域。该设计很好地平衡了室内检测和室外检测之间的网格大小矛盾,而无需额外的内存负担。
获得投影的BEV特征后,采用BEV编码器进一步细化特征,并采用6个解码器生成第二阶段的检测结果。如前所述,在此过程中使用了M+N个查询。在6个解码器之后,通过查询FFN将查询解码为检测结果。在解码器部分,制定了统一的域对齐策略,通过特征和损失两个角度对各种场景的数据进行对齐。
UniMODE与其他3D目标检测器的性能比较。在第2~4列中,检测器是使用KITTI和nuScenes进行训练的。这三列分别反映了在KITTI、nuScenes和整体室外检测性能上的检测精度。第5~6列对应室内检测结果。其中第5列是检测器在SUN-RGBD上进行训练和验证的性能。在第6列中,检测器是通过结合SUN-RGBD、ARKitScenes和Hypersim进行训练和评估的。第7~12列代表了在Omni3D中利用所有数据进行训练和验证的整体检测性能。UniMODE和UniMODE*分别表示提出的检测器,采用DLA34和ConvNext-Base。最佳结果标记为粗体。""表示模型收敛效果不佳,获得的性能非常差。"-"表示这个结果在先前的文献中报告过。
UniMODE在Omni3D中各个子数据集上的性能。利用整个Omni3D训练和测试数据对检测器进行训练和评估。下面给出采用两种不同主干的结果。
对提出的策略进行消融研究,验证了建议头(PH)、不均匀BEV网格(UBG)、稀疏BEV特征投影(SBFP)和统一域对齐(UDA)的影响。最后一列呈现了每一行相对于前一行的改进。APin3D和APout3D分别反映了室内和室外的检测性能。值得注意的是,虽然SBFP并没有提高检测精度,但它将BEV特征投影的计算成本降低了82.6%。
这项工作提出了名为UniMODE的统一单目3D目标检测器,其中包含了一些精心设计的技术,以解决统一3D目标检测中观察到的许多挑战。UniMODE在Omni3D基准测试集上取得了SOTA性能,并且具有较高的效率。
检测器的局限性在于其在不可见数据场景下的零样本泛化能力仍然有限。未来,作者将继续研究如何通过扩大训练数据规模等策略来提升UniMODE的零样本泛化能力。
下载
在公众号「3D视觉工坊」后台,回复「3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。
3D视觉方向交流群成立啦
目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:
[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOTSLAM、NeRFSLAM、机器人导航等。
[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
[无人机]四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
大家可以添加小助理:dddvisiona,备注:加群+方向+学校|公司,小助理会拉你入群。