38.【用于6DoF物体姿态估计的粗到细表面编码】ZebraPose:CoarsetoFineSurfaceEncodingfor6DoFObjectPoseEstimation●作者:YongzhiSu,MahdiSaleh,TorbenFetzer,JasonRambach,BenjaminBusam,NassirNavab,DidierStricker,FedericoTombari●作者单位:慕尼黑工业大学等
39.【一种多阶段单镜头目标姿态估计框架】OSOP:AMulti-StageOneShotObjectPoseEstimationFramework●作者:IvanShugurov,FuLi,BenjaminBusam,SlobodanIlic●作者单位:慕尼黑工业大学等
40.【单目深度估计的跨模态学习】CroMo:Cross-ModalLearningforMonocularDepthEstimation●作者:YannickVerdie,JifeiSong,BarnabéMas,BenjaminBusam,AlesLeonardis,StevenMcDonagh●作者单位:慕尼黑工业大学等
41.【一个多模态数据集用于具有光度挑战性的类别级目标姿态估计】PhoCaL:AMulti-ModalDatasetforCategory-LevelObjectPoseEstimationwithPhotometricallyChallengingObjects●作者:PengyuanWang,HyunJunJung,YitongLi,SiyuanShen,RahulParthasarathySrikanth,LorenzoGarattoni,SvenMeier,NassirNavab,BenjaminBusam●作者单位:慕尼黑工业大学等
42.【学习对抗性变形点云以进行稳健的3D对象检测】3D-VField:LearningtoAdversariallyDeformPointCloudsforRobust3DObjectDetection●作者:AlexanderLehner,StefanoGasperini,AlvaroMarcos-Ramiro,Mohammad-AliNikoueiMahani,MichaelSchmidt,NassirNavab,BenjaminBusam,FedericoTombari●作者单位:慕尼黑工业大学等
43.【学习局部位移点云补全】LearningLocalDisplacementsforPointCloudCompletion●作者:YidaWang,DavidJosephTan,NassirNavab,FedericoTombari●作者单位:慕尼黑工业大学等
44.【基于几何导向点式投票的类别级对象姿态估计】GPV-Pose:Category-levelObjectPoseEstimationviaGeometry-guidedPoint-wiseVoting●作者:YanDi,RuidaZhang,ZhiqiangLou,FabianManhardt,XiangyangJi,NassirNavab,FedericoTombari●作者单位:慕尼黑工业大学等
45.【医学图像配准中相似度学习的变分贝叶斯方法】AvariationalBayesianmethodforsimilaritylearninginmedicalimageregistration●作者:DanielGrzech,MohammadFaridAzampour,BenGlocker,JuliaSchnabel,NassirNavab,BernhardKainz,LoicleFolgoc●作者单位:慕尼黑工业大学等
46.【学会在野外协调有序的行动】LearningtoAlignSequentialActionsintheWild●作者:WeizheLiu,BugraTekin,HuseyinCoskun,VibhavVineet,PascalFua,MarcPollefeys●作者单位:慕尼黑工业大学等
47.【用于快速鲁棒点云配准的几何Transformer】GeometricTransformerforFastandRobustPointCloudRegistration●作者:ZhengQin,HaoYu,ChangjianWang,YulanGuo,YuxingPeng,KaiXu●作者单位:慕尼黑工业大学等
48.【一种用于连续多任务领域适应的合成驱动数据集】SHIFT:ASyntheticDrivingDatasetforContinuousMulti-TaskDomainAdaptation●作者:TSun,MSegù,JPostels,YWang,LVanGool,BSchiele,FTombari,FYu●作者单位:慕尼黑工业大学等
49.DoExplanationsExplainModelKnowsBest●作者:AshkanKhakzar,PedramKhorsandi,RozhinNobahari,NassirNavab●作者单位:慕尼黑工业大学等
60.【跨模态检索的协同双流视觉-语言前训练模型】BalancedAudio-visualLearningviaOn-the-flyGradientModulation●论文摘要:视听学习通过整合不同的感官,有助于全面了解世界。因此,多输入模态有望提高模型性能,但我们实际上发现即使多模态模型优于其单模态模型,它们也没有得到充分利用。具体来说,在本文中,我们指出现有的视听判别模型(其中为所有模态设计了统一的目标)可能仍然存在欠优化的单模态表示,这是由某些场景中的另一种主导模态引起的。为了缓解这种优化不平衡,我们提出了动态梯度调制,通过监控它们对学习目标的贡献的差异来自适应地控制每种模态的优化。此外,引入了动态变化的额外高斯噪声,以避免梯度调制引起的泛化下降。因此,我们在不同的视听任务上实现了对普通融合方法的相当大的改进,这种简单的策略也可以提升现有的多模态方法,这说明了它的有效性和多功能性。●作者:彭小康*,卫雅珂*,邓安东,王栋,胡迪●作者单位:中国人民大学高瓴人工智能学院
61.【学习在动态视听情境中回答问题】LearningtoAnswerQuestionsinDynamicAudio-VisualScenarios●论文摘要:我们在本文中聚焦于视听问答(AVQA)任务,该任务旨在回答视频中不同视觉对象、声音及其关联的问题。其中问题需要对视听场景进行全面的多模态理解和时空推理。为了对这项任务进行基准测试并促进我们的研究,我们创建了一个大规模的AVQA数据集,其中包含超过45K个问答对,并涵盖了不同模态下的9类问题类型以及33个不同的问题模板。为了探究AVQA任务,我们提出了一些基线方法,并引入了一个时空视听网络。实验结果表明多模态感知可以有益于AVQA任务,并且所提出的模型优于最近的A-、V-和AVQA方法。我们相信构建的数据集能够作为测试平台,用于评估和促进视听场景理解和时空推理的研究。此外,引入了动态变化的额外高斯噪声,以避免梯度调制引起的泛化下降。因此,我们在不同的视听任务上实现了对普通融合方法的相当大的改进,这种简单的策略也可以提升现有的多模态方法,这说明了它的有效性和多功能性。●作者:李光耀*,卫雅珂*,田亚鹏,胡迪,徐成良,文继荣●作者单位:中国人民大学高瓴人工智能学院
62.【深度安全多视图聚类:降低因视图增加而导致聚类性能下降的风险】DeepSafeMulti-viewClustering:ReducingtheRiskofClusteringPerformanceDegradationCausedbyViewIncrease●论文摘要:多视图聚类通过挖掘多个视图的互补信息来提高聚类性能。然而,我们观察到视图数量的增加并不总能确保提高模型的聚类效果。为此,我们提出了一个基于深度学习的通用框架以降低视图增加带来的聚类性能下降的风险。具体地,该模型需要通过自动选择来自不同视图的特征来同时挖掘互补信息和去除无意义的噪声。这两个学习过程通过提出的双层优化目标被集成到统一的框架。在理论上,该框架的经验聚类风险不高于在视图增加前的数据和新增加的单视图数据上的经验聚类风险。同时,在基于散度的聚类损失下,该框架的期望聚类风险以高概率不高于在视图增加前的数据和新增加的单视图数据上的期望聚类风险。在基准多视图数据集上的综合实验证明了该框架在实现安全多视图聚类上的有效性和优越性。●作者:唐华镱,刘勇●作者单位:中国人民大学高瓴人工智能学院
108.【小样本语义分割新视角】LearningWhatNottoSegment:ANewPerspectiveonFew-ShotSegmentation●论文摘要:当前小样本语义分割的研究大多通过元学习框架来实现泛化;然而,在这样的范式下训练的模型往往存在基类偏执,而非理想化的类别无关。为此,本文提出在小样本分割模型(元学习器)上引入一个分支(基学习器)来明确地识别基类的目标,即不需要分割的区域。然后,对两个学习器并行输出的粗结果进行自适应集成以得到精确的预测。更令人惊讶的是,我们的方案利用两个朴素的学习者获得了最优异的性能指标,并能够扩展至更具挑战性的广义设置。●作者:郎春博,程塨,屠斌飞,韩军伟●作者单位:西北工业大学
109.【小样本语义分割新视角】ExploringEffectiveDataforSurrogateTrainingTowardsBlack-boxAttack●论文摘要:在无法获取目标模型的训练数据时,利用本地训练的代理模型完成对目标模型的攻击对于AI安全性来说兹事体大。本文深入探索了对于代理训练最为有效的数据所具备的类别特性——类间相似性及类内多样性,分析了基于合成数据的代理训练方法的潜在优势,进而构建了一个面向黑盒攻击算法的代理训练框架、展示了代理数据对于提升代理训练的潜在优势、设计了两个替代模型的优化目标函数,大大提升了代理模型的训练效率。●作者:孙绪祥,程塨,李虹达,裴蕾,韩军伟●作者单位:西北工业大学
112.【弱监督旋转不变目标检测】WeaklySupervisedRotation-InvariantAerialObjectDetectionNetwork●论文摘要:目标旋转是弱监督目标检测中长期存在但仍未深入研究的难题之一。本文提出了一种旋转不变弱监督目标检测网络,通过渐进精炼的方式,鼓励不同的分支对具有不同旋转角度的同一实例做出一致的预测,首次在图像级标签下实现旋转不变学习。与此同时,该网络自然地将对象实例从稀疏空间投射到具有不同角度感知旋转的子空间。通过耦合不同的子空间以挖掘更多不同角度的目标实例,训练更加鲁棒的旋转不变目标检测网络。●作者:冯晓绪,姚西文,程塨,韩军伟●作者单位:西北工业大学