创造整个世界!LayerPano3D:超沉浸式3D场景生成
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
空间计算的发展,包括虚拟和混合现实系统,极大地提升了各类应用中的用户参与度,并推动了对可探索、高质量3D环境的需求。我们认为,理想的虚拟3D场景应满足以下两点:1)在完整的360°×180°视角中,外观和几何形状应呈现高质量和一致性;2)允许在具有清晰视差的复杂场景层次结构中自由探索。近年来,为满足这些需求,提出了许多3D场景生成方法。
一类工作通过利用“导航与想象”策略来创建广泛的场景,该策略连续应用新视角渲染和扩展未见区域以扩展场景。然而,这类方法存在语义漂移问题:长期的连续场景扩展容易因迭代过程中产生的外部绘制伪影累积而导致结果不一致,从而破坏了生成场景的全局一致性和和谐性。
另一类方法采用等距柱状全景图来表示二维中的360°大视野(FOV)环境。然而,大规模全景数据集的缺失限制了全景生成系统的能力,导致生成的图像分辨率低、结构简单且资产稀疏。此外,二维全景图不允许自由场景探索。即使将其提升到全景场景,简单的球形结构也无法提供具有清晰视差的复杂场景层次结构,从而导致生成的3D全景图中出现遮挡空间,造成渲染模糊、歧义和间隙。一些方法通常使用基于修复的去遮挡策略来填充未见空间,但它们需要为每个场景量身定制特定的预定义渲染路径,从而限制了自由探索的潜力。
为此,我们提出了LAYERPANO3D,这是一个新颖的框架,它利用多层3D全景图从文本提示中生成全视角一致且可自由探索的场景。主要思想是通过首先生成一个参考全景图并将其视为多层组合来创建分层3D全景图,其中每一层都描绘了在特定深度级别的场景内容。通过这种方式,我们可以通过在不同深度层中以完整外观放置遮挡资产来创建复杂的场景层次结构。
下面一起来阅读一下这项工作~
标题:LayerPano3D:Layered3DPanoramaforHyper-ImmersiveSceneGeneration
作者:ShuaiYang,JingTan,MengchenZhang,TongWu,YixuanLi,GordonWetzstein,ZiweiLiu,DahuaLin
三维沉浸式场景生成是计算机视觉和图形学领域中一项既具挑战性又至关重要的任务。理想的虚拟三维场景应满足两个条件:1)展现全方位视图一致性;2)允许在复杂的场景层次结构中自由探索。现有方法要么依赖于通过修复技术逐步扩展场景,要么采用全景表示法来呈现大视场场景环境。然而,这些方法在场景扩展过程中容易出现语义漂移,且无法处理场景层次结构中的遮挡问题。为应对这些挑战,我们引入了LayerPano3D,这是一种通过单个文本提示生成全视角、可探索的全景三维场景的新型框架。我们的核心见解是将参考二维全景图像分解成不同深度层次上的多个图层,其中每个图层都通过扩散先验揭示出参考视角中不可见的空间。LayerPano3D包含多个专门设计:1)我们引入了一种新颖的文本引导锚点视图合成管道,用于生成高质量、一致的全景图像;2)我们首创了分层三维全景图作为底层表示法,以管理复杂的场景层次结构,并将其提升为三维高斯分布,以渲染出具有无约束观看路径的详细360度全方位场景。大量实验表明,我们的框架在全方位视图一致性和沉浸式探索体验方面均生成了最先进的三维全景场景。我们相信,LayerPano3D有望推动三维全景场景创作的发展,并在众多应用中展现其潜力。
我们的贡献是双重的。首先,为了生成高质量且连贯的360°×180°全景图,我们提出了一种新颖的文本引导锚点视图合成流程。通过微调T2I模型来生成四个正交透视图作为锚点,我们在全景图生成过程中防止了语义漂移,同时确保了所有视图之间地平线的一致性。此外,锚点视图通过融入来自大规模预训练透视图生成器的复杂结构和详细特征来丰富全景图。其次,我们引入了分层3D全景图表示作为处理具有复杂场景层次结构的不同类型场景中遮挡问题的通用解决方案,并将其提升到3D高斯分布以实现自由3D探索。通过利用预训练的泛景分割先验和K-Means聚类,我们简化了自动层构建流程,将参考全景图分解为不同的深度层。每个层的未见空间都通过微调的全景图修复器进行合成。推荐学习:线结构光(单目&双目)三维重建系统教程
大量实验证明了LAYERPANO3D从单个文本提示中生成超沉浸式分层全景场景的有效性。LAYERPANO3D在创建连贯、合理、与文本对齐的2D全景图和全视角一致、可探索的3D全景环境方面超越了最先进的方法。此外,我们的框架简化了无需任何特定场景导航路径的自动流程,为非专家用户提供了更友好的界面。我们相信,LAYERPANO3D有效提高了全视角、可探索的AIGC3D环境在现实世界应用中的可及性。
我们的工作目标是创建由文本提示引导的全景场景,该场景涵盖场景中广泛范围内的各个视角的完整360°×180°视野,同时允许无约束的轨迹进行沉浸式探索。LAYERPANO3D包含三个阶段。在第一阶段,我们提出了一个文本引导的关键视图合成流程,并结合全景外推技术,以生成高质量、一致的全景图作为参考。在第二阶段,我们利用参考全景图,通过迭代层分解、补全和对齐过程,构建分层3D全景图表示。在第三阶段,分层3D全景图以级联方式提升为3D高斯表示,以实现自由3D探索。
在本文中,我们提出了LAYERPANO3D,这是一个从单个文本提示生成超沉浸式全景场景的新颖框架。我们的主要贡献有两方面。首先,我们提出了文本引导的关键视图合成流程,以生成详细且一致的全景参考图。其次,我们开创性地提出了分层3D全景图表示,以在多个深度层上展示复杂的场景层次结构,并将其提升为高斯表示,以实现自由3D探索。大量实验表明,LAYERPANO3D在生成各个视角的360°×180°一致全景图以及实现3D空间中的沉浸式漫游方面非常有效。我们相信,LAYERPANO3D有望在学术界和工业界推动高质量、可探索的3D场景创作的发展。
局限性和未来工作。LAYERPANO3D利用良好的预训练先验来构建全景3D场景,即用于3D提升的全景深度先验。因此,创建的场景可能包含由于深度估计不准确而产生的伪影。随着更鲁棒的全景深度估计技术的进步,我们希望能够创建具有更精细资产几何形状的高质量全景3D场景。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOTSLAM、NeRFSLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理:dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓),拉你入群。
「3D视觉从入门到精通」知识星球
具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。