必看综述!中科院带你彻底了解基于深度学习的三维点云分类
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
下面一起来阅读一下这项工作~
论文题目:DeepLearning-based3DPointCloudClassification:ASystematicSurveyandOutlook
作者:HuangZhang,ChangshuoWang等
作者机构:新疆大学、中国科学院等
近年来,点云表示已成为计算机视觉领域的研究热点之一,并广泛应用于自动驾驶、虚拟现实、机器人等许多领域。虽然深度学习技术在处理常规结构化的二维网格图像数据方面取得了巨大成功,但在处理不规则、非结构化的点云数据方面仍面临着巨大挑战。点云分类是点云分析的基础,许多基于深度学习的方法已被广泛应用于此任务。因此,本文旨在为该领域的研究人员提供最新的研究进展和未来趋势。首先,我们介绍点云获取、特征和挑战。其次,我们回顾了用于点云分类的3D数据表示、存储格式和常用数据集。然后,我们总结了基于深度学习的点云分类方法,并补充了最近的研究工作。接下来,我们比较和分析了主要方法的性能。最后,我们讨论了点云分类的一些挑战和未来方向。
A.3D数据表示
3D数据有各种表示形式,例如点云、网格和体素。
B.点云数据存储格式
点云有数百种文件格式可用,不同的扫描仪会以许多格式生成原始数据。点云数据文件之间的最大区别在于使用ASCII和二进制。二进制系统直接将数据存储在二进制代码中。常见的点云二进制格式包括FLS、PCD、LAS等。其他几种常见文件类型可以同时支持ASCII和二进制格式。其中包括PLY、FBX。E57以ASCII和二进制代码存储数据,并将许多ASCII和二进制的优点结合在一个文件类型中。以下是一些常用的点云数据存储格式:
C.3D点云公共数据集
今天,许多工业和大学提供了许多点云数据集。不同方法在这些数据集上的表现反映了方法的可靠性和准确性。这些数据集包含虚拟或真实场景,可以为网络训练提供地面真实标签。在本节中,我们将介绍一些常用的点云分类数据集,每个数据集的划分如表I所示。
A.基于多视图的方法
基于多视图的方法利用多个视角的信息来描述和识别3D形状。这种方法的优势在于可以从不同的角度获取丰富的特征信息,从而提高了形状识别的准确性。然而,基于多视图的方法在处理大规模场景和利用3D数据的固有几何关系方面仍然存在挑战。例如,在将多个视图特征转换为全局特征时,会忽略其他非最大元素的信息,导致信息丢失。因此,改进基于多视图的方法以充分利用信息,并解决大规模场景和几何关系的挑战是未来研究的方向。
B.基于体素的方法
C.基于点云的方法
局部特征聚合
基于卷积的方法
基于卷积的方法将传统的卷积神经网络(CNN)扩展到处理不规则的三维点云数据上,是处理点云分类的重要方法。这些方法主要包括以下方面的研究:
这些方法的设计旨在有效地处理点云的不规则性、稀疏性和无序性,从而提高点云分类的准确性和效率。
基于图的方法
基于图的方法利用图神经网络(GNN)等技术处理点云数据。这些方法主要包括以下几种类型:
基于图的方法能够有效地处理点云数据,提取特征并解决分类、分割等任务,为点云分析领域的研究提供了重要的技术支持。
基于注意力机制的方法
全局特征聚合
基于Transformer的方法
基于Transformer的方法在点云处理领域取得了显著的进展。这些方法通过将点云作为输入,并利用Transformer结构中的自注意力机制,实现了对点云的全局特征建模和关联学习。具体而言,这些方法包括以下关键点:
这些方法利用Transformer的优势,在点云处理中取得了令人瞩目的成果,为点云的全局特征建模和关联学习提供了新的思路和方法。
基于全局模块的方法
基于全局模块的方法旨在处理点云中的全局特征聚合问题。这些方法通过设计特定的模块或网络结构,能够有效地捕获整个点云的全局信息,从而提高了点云处理任务的性能。一些方法包括:
基于RNN或LSTM的方法RNN(循环神经网络)
基于RNN或LSTM的方法通常利用这些循环结构处理序列信息或全局上下文信息,以提高点云处理任务的性能和准确性。Engelmann等人提出了扩展了PointNet的PointNet++,以处理大规模场景,并通过引入额外的上下文信息提高了性能。Liu等人提出的3DCNN-DQN-RNN方法融合了多种网络结构,通过这种融合提高了处理大规模点云的准确性。其他方法如RSNet、3P-RNN和Point2Sequence等也通过结合RNN或LSTM等循环结构,有效地利用了上下文信息,提高了点云处理的性能。
D.多态融合方法
多态融合方法将不同的数据表示方式融合在一起,以综合利用它们的优势。Le等人提出了一种将点云和网格结合的策略,通过卷积块和最大池化来表示不同层次的特征,能够更好地识别细粒度模型和表示局部形状。Zhang等人的PVT方法结合了稀疏窗口注意模块和相对注意模块,将体素和点云的思想相结合,在点云分类的准确性方面表现出色。PointCLIP利用预训练的CLIP学习点云,通过投影到多视图深度图中进行编码,实现了从2D预训练知识到3D域的零样本识别。CrossPoint通过最大化点云和对应渲染的2D图像在不变空间中的表现,实现了2D到3D的对应。与传统方法相比,多态融合方法能够更好地利用不同表示方式的信息,有望成为未来点云处理的重要方向。
除了上述指标外,还可以使用整体准确度(OA)、平均准确度(MA)和平均交并比(mIoU)等综合指标来评估方法的性能。这些指标可以帮助研究人员全面了解方法在不同数据集上的表现,并为进一步改进提供参考。
在点云分类领域,深度学习方法不断创新,为3D应用带来新的可能性。本文综述了近年来基于深度学习的点云分类方法,包括多视图、体素、点云和多态融合等不同类型的方法。通过对比分析,可以看出各种方法在准确性、效率和适用场景等方面存在差异。
未来的研究方向包括提高准确性和效率的平衡、针对室外场景进一步优化方法、简化点云处理流程等。创新型方法的研究也是未来的重点,需要不断探索新的思路和技术。
总的来说,基于深度学习的点云分类方法在不断发展,未来有望取得更大的突破,为3D应用带来更多可能性。
3D视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOTSLAM、NeRFSLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
添加小助理:dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓),拉你入群。
▲长按扫码添加助理
3D视觉工坊知识星球
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。