CVPR'24UniMODE:单目3D目标检测大一统!室内室外全搞定!

CVPR'24|UniMODE:单目3D目标检测大一统!室内室外全搞定!

添加小助理:dddvision,备注:3D目标检测,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉技术星球,星球内汇集了众多3D视觉实战问题,以及各个模块的学习资料:最新顶会论文、书籍、源码、视频(近20门系统课程[星球成员可免费学习])等。想要入门3D视觉、做项目、搞科研,就加入我们吧。

一句话总结:开发了一个统一的单目目标检测器UniMODE,无缝地集成了室内和室外场景。

单目3D目标检测,相较雷达和多模态方案在成本效益和全面语义特征方面具有优势,但是单目3D目标检测在室内和室外的网络架构和权重不一样。

一方面,室内物体通常距离相机几米,而室外目标可能超过100米。由于需要一个统一的BEV检测器来识别所有场景中的物体,BEV特征必须覆盖尽可能广泛的感知范围。与此同时,由于室内物体通常较小,因此室内检测的BEV网格分辨率需要精确。所有这些特性都可能导致不稳定的收敛和巨大的计算负担。因此作者开发了一个两阶段检测架构,第一阶段产生初始目标位置估计,第二阶段使用此估计作为先验信息定位目标,有助于稳定收敛过程。引入了一种创新的不均匀BEV网格分割策略,扩展了BEV空间范围,同时保持可管理的BEV网格大小。此外,还开发了一种稀疏的BEV特征投影策略,将投影计算成本降低了82.6%。

另一方面,另一个障碍来自各种场景之间的异构域分布(例如图像风格,标签定义)。数据可以在真实场景中收集,也可以在虚拟中合成。一类对象可能在一个场景中被标注,但在另一个场景中却没有标签,这导致网络收敛时的混淆。为了处理这些冲突,提出了一个统一的域对齐技术,由域自适应层归一化来对齐特征,以及用于缓解标签定义冲突的类别对齐损失。

下面一起来阅读一下这项工作~

标题:UniMODE:UnifiedMonocular3DObjectDetection

作者:ZhuolingLi,XiaogangXu,SerNamLim,HengshuangZhao

机构:香港大学、浙江大学、中佛罗里达大学

实现统一的单目3D目标检测,包括室内和室外场景,对于诸如机器人导航之类的应用至关重要。然而,涉及多种数据场景来训练模型会带来挑战,因为它们具有显著不同的特征,例如,不同的几何属性和异构的域分布。为了解决这些挑战,我们基于鸟瞰(BEV)检测范式构建了一个检测器,其中显式特征投影有助于解决使用多种数据场景训练检测器时的几何学习歧义。然后,我们将经典的BEV检测架构分为两个阶段,并提出了一种不均匀的BEV网格设计,以处理由上述挑战引起的收敛不稳定性。此外,我们开发了一种稀疏的BEV特征投影策略来减少计算成本,并提出了一种统一的域对齐方法来处理异构域。结合这些技术,我们得到了一个统一的检测器UniMODE,其在具有挑战性的Omni3D数据集上(一个包含室内和室外场景的大规模数据集)比先前的最先进水平提高了4.9%的AP_3D,展示了BEV检测器首次成功泛化为统一的3D物体检测。

下面是在Omni3D中对各个子数据集的检测结果进行可视化。

作者开发了一个统一的单目目标检测器UniMODE,并在Omni3D基准测试中实现了最先进的性能。在统一检测设置中,UniMODE在AP3D方面超越了最先进的检测器CubeRCNN,提高了4.9%。此外,在室内和室外检测设置中分别评估时,UniMODE的性能分别比CubeRCNN提高了11.9%和9.1%。这项工作代表了对BEV检测架构通用性的探索的先导性努力,无缝地集成了室内和室外场景。

特征头和深度头负责将图像特征投影到BEV平面并获取BEV特征。在此投影过程中,开发了一种技术来移除不必要的投影点,从而将计算负担减少约82.6%。此外,提出了不均匀的BEV特征,这意味着相机附近的BEV网格具有更精确的分辨率,而相机远离的网格则覆盖更广泛的感知区域。该设计很好地平衡了室内检测和室外检测之间的网格大小矛盾,而无需额外的内存负担。

获得投影的BEV特征后,采用BEV编码器进一步细化特征,并采用6个解码器生成第二阶段的检测结果。如前所述,在此过程中使用了M+N个查询。在6个解码器之后,通过查询FFN将查询解码为检测结果。在解码器部分,制定了统一的域对齐策略,通过特征和损失两个角度对各种场景的数据进行对齐。

UniMODE与其他3D目标检测器的性能比较。在第2~4列中,检测器是使用KITTI和nuScenes进行训练的。这三列分别反映了在KITTI、nuScenes和整体室外检测性能上的检测精度。第5~6列对应室内检测结果。其中第5列是检测器在SUN-RGBD上进行训练和验证的性能。在第6列中,检测器是通过结合SUN-RGBD、ARKitScenes和Hypersim进行训练和评估的。第7~12列代表了在Omni3D中利用所有数据进行训练和验证的整体检测性能。UniMODE和UniMODE*分别表示提出的检测器,采用DLA34和ConvNext-Base。最佳结果标记为粗体。""表示模型收敛效果不佳,获得的性能非常差。"-"表示这个结果在先前的文献中报告过。

UniMODE在Omni3D中各个子数据集上的性能。利用整个Omni3D训练和测试数据对检测器进行训练和评估。下面给出采用两种不同主干的结果。

对提出的策略进行消融研究,验证了建议头(PH)、不均匀BEV网格(UBG)、稀疏BEV特征投影(SBFP)和统一域对齐(UDA)的影响。最后一列呈现了每一行相对于前一行的改进。APin3D和APout3D分别反映了室内和室外的检测性能。值得注意的是,虽然SBFP并没有提高检测精度,但它将BEV特征投影的计算成本降低了82.6%。

这项工作提出了名为UniMODE的统一单目3D目标检测器,其中包含了一些精心设计的技术,以解决统一3D目标检测中观察到的许多挑战。UniMODE在Omni3D基准测试集上取得了SOTA性能,并且具有较高的效率。

检测器的局限性在于其在不可见数据场景下的零样本泛化能力仍然有限。未来,作者将继续研究如何通过扩大训练数据规模等策略来提升UniMODE的零样本泛化能力。

下载

在公众号「3D视觉工坊」后台,回复「3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOTSLAM、NeRFSLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理:dddvisiona,备注:加群+方向+学校|公司,小助理会拉你入群。

THE END
1.lowe玻璃在线和离线的对比lowe玻璃在线和离线的对比在线与离线Low—e玻璃的区别 ? 1、生产工艺 在线Low—E玻璃是在浮法玻璃生产过程中,在热的玻璃表面上喷涂上以锡盐为主要成分的化学溶液,形成单层具有一定低辐射功能的氧化锡(SnO2)化合物薄膜而制成的. 离线Low-E玻璃是在专门的生产线,用真空磁控溅射的方法,将辐射率极低的金属银(Ag)https://wenku.baidu.com/view/72d04bbca3116c175f0e7cd184254b35eefd1a6d.html
2.lowe玻璃在线和离线的对比.pdflowe玻璃在线和离线的对比.pdf,在线与离线 Low-e 玻璃的区别 1、生产工艺 在线 Low —E 玻璃是在浮法玻璃生产过程中,在热的玻璃表面上 喷涂上以锡盐为主要成分的化学溶液,形成单层具有一定低辐射 功能的氧化锡(SnO2 )化合物薄膜而制成的。 离线 Low —E 玻璃是在专门的https://m.book118.com/html/2023/0718/7064044003005134.shtm
3.在线与离线LowE玻璃的比较和选择玻璃离线lowe低辐射透射比low 全国性建材科技期刊——《玻璃》2004年第6期总第177期在线与离线Low—E玻璃的比较和选择刘欣向.(秦皇岛长城玻璃工业有限公司秦皇岛市066000)随着社会的发展,现代建筑越来越趋向于使用大面积玻璃,注重自然采光,增加建筑的通透性,表现现代设计风格。然而普通玻璃在夏季无法阻挡阳光热能进入室内,https://www.docin.com/touch/detail.do?id=1276655578
4.视觉增强技术简述离线的视频降噪算法效果还是可以达到非常好效果,业界也有很成熟的应用产品,最出名的莫过于PC端的Neat Video和Denoise III,前者主页号称”best noise reduction for digital video”,Neat Video的降噪效果也是标杆,有很多影视作品是通过这两个制作后期降噪的,但对于视频的处理速度则非常慢,因此前后总共参考了8帧。而在移https://zhuanlan.zhihu.com/p/699074441
5.全系列lowe玻璃知识解析在线lowe?离线lowe? 在线和离线就是指两种lowe玻璃的生产工艺,在线lowe玻璃的镀膜是在浮法线上面一次性完成的;离线lowe玻璃就是离开了浮法线,在另一条叫做“真空阴级磁控溅射线”上单独完成的。 离线lowe玻璃的保温隔热性能会更好,可选的颜色也比较多,但是成本更高,它需要厂家额外去购买镀膜线,而且必须在两天之https://m.zhuxiaobang.com/article/7229596423745405498?channel_source=baidu_biji
6.麻烦在线的同志,问一下什么是lowe玻璃?因为靶材不一样,生产环境不一样,在45度 斜视仔细观察:LOW-E玻璃在线的膜层带蓝色,离线的膜层带https://zhidao.baixing.com/question/2660960.html
7.LOWE玻璃种类及辨别在线和离线是两种完全不同的镀膜方法。前者在浮法玻璃生产线上完成,膜层单一,牢固度好,可以单片使用;后者则离开了浮法生产线,在真空阴极磁控溅射镀膜生产线上完成,膜层多样,隔热性能明显优于在线Low-E玻璃,但牢固度较差,不能单片使用。 分辨方法 45度角看膜面 泛金红色的是离线low-e 泛蓝色的是在线 很明显的http://www.360doc.com/content/15/0724/17/26330039_487146721.shtml
8.说说看lowe玻璃多少钱一平方lowe玻璃一平方400元,玻璃门选用的颜色死乳白色,在打印花纹的时候在衣柜门的左上角和右下角,形成一https://m.to8to.com/ask/k8206448.html
9.lowe中空玻璃价格是多少?lowe中空玻璃就是镀膜玻璃的一种,lowe中空玻璃分很多种牌号,牌号不同它的透光率,折射等一些参数都是不一样的,颜色也不一样,一般在南方的话,用普通lowe中空玻璃(2010年新调试出来的,在线LOW-E最便宜,可钢化玻璃)就可以了,现在LOW-E大概210左右;6 12 6的中空玻璃大概230元左右。卓https://m.shejiben.com/ask/wenda/130823.html