以下是本周更新的CVPR2022论文,包含包含目标检测、图像处理、三维视觉、医学影像、视频检索等方向。
分类目录:
n检测类
n2D目标检测
n3D目标检测
n伪装目标检测
n显著性目标检测
n边缘检测
n消失点检测
n分割类
n图像分割
n语义分割
n视频目标分割
n人脸
n人脸生成
n人脸检测
n图像处理
n图像复原
n图像编辑/图像修复
n图像翻译
n超分辨率
n去噪/去模糊/去雨去雾
n风格迁移
n三维视觉
n三维重建
n场景重建/视图合成
n点云
n神经网络架构设计
nCNN
nTransformer
nMLP
n神经网络架构搜索
n人体解析/人体姿态估计
n动作识别/检测
n视觉定位/位姿估计
n光流/运动估计
n医学影像
n文本理解
nGAN/生成式/对抗式
n视频检索
n图像&视频生成/合成
n视觉推理/视觉问答
n视觉预测
n图像计数
n机器人
n多模态学习
n视觉-语言
n自监督/半监督/无监督学习
n联邦学习
n度量学习
n增量学习
n迁移学习/domain/自适应
n对比学习
n主动学习
n数据处理
n图像压缩
n图像聚类
n视觉表征学习
n模型训练/泛化
n噪声标签
n模型压缩
n知识蒸馏
n剪枝
n量化
n数据集
01检测类
2D目标检测
[1]MUM:MixImageTilesandUnMixFeatureTilesforSemi-SupervisedObjectDetection(混合图像块和UnMix特征块用于半监督目标检测)
[2]SIGMA:Semantic-completeGraphMatchingforDomainAdaptiveObjectDetection(域自适应对象检测的语义完全图匹配)
[3]AcceleratingDETRConvergenceviaSemantic-AlignedMatching(通过语义对齐匹配加速DETR收敛)
3D目标检测
[1]MonoJSG:JointSemanticandGeometricCostVolumeforMonocular3DObjectDetection(单目3D目标检测的联合语义和几何成本量)
[2]DeepFusion:Lidar-CameraDeepFusionforMulti-Modal3DObjectDetection(用于多模态3D目标检测的激光雷达相机深度融合)
[3]PointDensity-AwareVoxelsforLiDAR3DObjectDetection(用于LiDAR3D对象检测的点密度感知体素)
伪装目标检测
[1]ImplicitMotionHandlingforVideoCamouflagedObjectDetection(视频伪装对象检测的隐式运动处理)
显著性目标检测
[1]Bi-directionalObject-contextPrioritizationLearningforSaliencyRanking(显著性排名的双向对象上下文优先级学习)
[2]DemocracyDoesMatter:ComprehensiveFeatureMiningforCo-SalientObjectDetection(共同显著性目标检测的综合特征挖掘)
边缘检测
[1]EDTER:EdgeDetectionwithTransformer(使用transformer的边缘检测)
消失点检测
[1]Deepvanishingpointdetection:Geometricpriorsmakedatasetvariationsvanish(深度消失点检测:几何先验使数据集变化消失)
02分割类
图像分割
[1]LearningWhatNottoSegment:ANewPerspectiveonFew-ShotSegmentation(学习不分割的内容:关于小样本分割的新视角)
[2]CRIS:CLIP-DrivenReferringImageSegmentation(CLIP驱动的参考图像分割)
[3]HyperbolicImageSegmentation(双曲线图像分割)
语义分割
[1]Scribble-SupervisedLiDARSemanticSegmentation
[2]ADAS:ADirectAdaptationStrategyforMulti-TargetDomainAdaptiveSemanticSegmentation(多目标域自适应语义分割的直接适应策略)
[3]WeaklySupervisedSemanticSegmentationbyPixel-to-PrototypeContrast(通过像素到原型对比的弱监督语义分割)
视频目标分割
[1]LanguageasQueriesforReferringVideoObjectSegmentation(语言作为引用视频对象分割的查询)
03人脸
[1]FaceFormer:Speech-Driven3DFacialAnimationwithTransformers(FaceFormer:带有transformer的语音驱动的3D面部动画)
[2]SparseLocalPatchTransformerforRobustFaceAlignmentandLandmarksInherentRelationLearning(用于鲁棒人脸对齐和地标固有关系学习的稀疏局部补丁transformer)
人脸生成
[1]GCFSR:aGenerativeandControllableFaceSuperResolutionMethodWithoutFacialandGANPriors(一种没有面部和GAN先验的生成可控人脸超分辨率方法)
人脸检测
[1]Privacy-preservingOnlineAutoMLforDomain-SpecificFaceDetection(用于特定领域人脸检测的隐私保护在线AutoML)
04图像处理
图像复原
[1]Restormer:EfficientTransformerforHigh-ResolutionImageRestoration(用于高分辨率图像复原的高效transformer)
图像编辑/图像修复
[1]High-FidelityGANInversionforImageAttributeEditing(用于图像属性编辑的高保真GAN反演)
[2]StyleTransformerforImageInversionandEditing(用于图像反转和编辑的样式transformer)
[3]MISF:Multi-levelInteractiveSiameseFilteringforHigh-FidelityImageInpainting(用于高保真图像修复的多级交互式Siamese过滤)
图像翻译
[1]QS-Attn:Query-SelectedAttentionforContrastiveLearninginI2ITranslation(图像翻译中对比学习的查询选择注意)
超分辨率
[1]ATextAttentionNetworkforSpatialDeformationRobustSceneTextImageSuper-resolution(一种用于空间变形鲁棒场景文本图像超分辨率的文本注意网络)
[2]DetailsorArtifacts:ALocallyDiscriminativeLearningApproachtoRealisticImageSuper-Resolution(一种真实图像超分辨率的局部判别学习方法)
[3]BlindImageSuper-resolutionwithElaborateDegradationModelingonNoiseandKernel(对噪声和核进行精细退化建模的盲图像超分辨率)
去噪/去模糊/去雨去雾
[1]NeuralCompression-BasedFeatureLearningforVideoRestoration(用于视频复原的基于神经压缩的特征学习)(视频处理)
[2]Blind2Unblind:Self-SupervisedImageDenoisingwithVisibleBlindSpots(具有可见盲点的自监督图像去噪)
风格迁移
[1]ExactFeatureDistributionMatchingforArbitraryStyleTransferandDomainGeneralization(任意风格迁移和域泛化的精确特征分布匹配)
05三维视觉
三维重建
[1]AutoSDF:ShapePriorsfor3DCompletion,ReconstructionandGeneration(用于3D完成、重建和生成的形状先验)
[2]InteractingAttentionGraphforSingleImageTwo-HandReconstruction(单幅图像双手重建的交互注意力图)
[3]OcclusionFusion:Occlusion-awareMotionEstimationforReal-timeDynamic3DReconstruction(实时动态3D重建的遮挡感知运动估计)
[4]NeuralRGB-DSurfaceReconstruction(神经RGB-D表面重建)
场景重建/视图合成
[1]StyleMesh:StyleTransferforIndoor3DSceneReconstructions(室内3D场景重建的风格转换)
[2]LookOutsidetheRoom:SynthesizingAConsistentLong-Term3DSceneVideofromASingleImage(从单个图像合成一致的长期3D场景视频)
点云
[1]AutoGPart:IntermediateSupervisionSearchforGeneralizable3DPartSegmentation(通用3D零件分割的中间监督搜索)
[2]GeometricTransformerforFastandRobustPointCloudRegistration(用于快速和稳健点云配准的几何transformer)
06神经网络架构设计
CNN
[1]OntheIntegrationofSelf-AttentionandConvolution(自注意力和卷积的整合)
[2]ScalingUpYourKernelsto31x31:RevisitingLargeKernelDesigninCNNs(将内核扩展到31x31:重新审视CNN中的大型内核设计)
Transformer
[1]AttributeSurrogatesLearningandSpectralTokensPoolinginTransformersforFew-shotLearning
[2]NomMer:NominateSynergisticContextinVisionTransformerforVisualRecognition(在视觉transformer中为视觉识别指定协同上下文)
MLP
[2]RevisitingtheTransferabilityofSupervisedPretraining:anMLPPerspective(重新审视监督预训练的可迁移性:MLP视角)
神经网络架构搜索
[1]GlobalConvergenceofMAMLandTheory-InspiredNeuralArchitectureSearchforFew-ShotLearning(MAML的全局收敛和受理论启发的神经架构搜索以进行Few-Shot学习)
07人体解析/人体姿态估计
[2]PhysicalInertialPoser(PIP):Physics-awareReal-timeHumanMotionTrackingfromSparseInertialSensors(来自稀疏惯性传感器的物理感知实时人体运动跟踪)
[3]Distribution-AwareSingle-StageModelsforMulti-Person3DPoseEstimation(用于多人3D姿势估计的分布感知单阶段模型)
[4]MHFormer:Multi-HypothesisTransformerfor3DHumanPoseEstimation(用于3D人体姿势估计的多假设transformer)
[5]CDGNet:ClassDistributionGuidedNetworkforHumanParsing(用于人体解析的类分布引导网络)
08动作识别/检测
[1]Spatio-temporalRelationModelingforFew-shotActionRecognition(小样本动作识别的时空关系建模)
09视觉定位/位姿估计
[1]ZebraPose:CoarsetoFineSurfaceEncodingfor6DoFObjectPoseEstimation(用于6DoF对象姿态估计的粗到细表面编码)
[2]ObjectLocalizationunderSingleCoarsePointSupervision(单粗点监督下的目标定位)
[3]CrossLoc:ScalableAerialLocalizationAssistedbyMultimodalSyntheticData(多模式合成数据辅助的可扩展空中定位)
10光流/运动估计
[1]GPV-Pose:Category-levelObjectPoseEstimationviaGeometry-guidedPoint-wiseVoting(通过几何引导的逐点投票进行类别级对象位姿估计)
11医学影像
[1]Vox2Cortex:FastExplicitReconstructionofCorticalSurfacesfrom3DMRIScanswithGeometricDeepNeuralNetworks(使用几何深度神经网络从3DMRI扫描中快速显式重建皮质表面)
[2]GeneralizableCross-modalityMedicalImageSegmentationviaStyleAugmentationandDualNormalization(通过风格增强和双重归一化的可泛化跨模态医学图像分割)
12文本理解
[1]XYLayoutLM:TowardsLayout-AwareMultimodalNetworksForVisually-RichDocumentUnderstanding(迈向布局感知多模式网络,以实现视觉丰富的文档理解)
13GAN/生成式/对抗式
[1]ImprovingtheTransferabilityofTargetedAdversarialExamplesthroughObject-BasedDiverseInput(通过基于对象的多样化输入提高目标对抗样本的可迁移性)
[2]TowardsPracticalCertifiablePatchDefensewithVisionTransformer(使用VisionTransformer实现实用的可认证补丁防御)
[3]FewShotGenerativeModelAdaptionviaRelaxedSpatialStructuralAlignment(基于松弛空间结构对齐的小样本生成模型自适应)
[4]EnhancingAdversarialTrainingwithSecond-OrderStatisticsofWeights(使用权重的二阶统计加强对抗训练)
14视频检索
[1]BridgingVideo-textRetrievalwithMultipleChoiceQuestions(桥接视频文本检索与多项选择题)
15图像&视频生成/合成
[1]ModulatedContrastforVersatileImageSynthesis(用于多功能图像合成的调制对比度)
[2]AttributeGroupEditingforReliableFew-shotImageGeneration(属性组编辑用于可靠的小样本图像生成)
[3]TexttoImageGenerationwithSemantic-SpatialAwareGAN(使用语义空间感知GAN生成文本到图像)
[5]Depth-AwareGenerativeAdversarialNetworkforTalkingHeadVideoGeneration(用于说话头视频生成的深度感知生成对抗网络)
[6]FLAG:Flow-based3DAvatarGenerationfromSparseObservations(从稀疏观察中生成基于流的3D头像)
16视觉推理/视觉问答
[1]MuKEA:MultimodalKnowledgeExtractionandAccumulationforKnowledge-basedVisualQuestionAnswering(基于知识的视觉问答的多模态知识提取与积累)
[2]REX:Reasoning-awareandGroundedExplanation(推理意识和扎根的解释)
17视觉预测
[1]OnAdversarialRobustnessofTrajectoryPredictionforAutonomousVehicles(自动驾驶汽车轨迹预测的对抗鲁棒性)
18图像计数
[1]Represent,Compare,andLearn:ASimilarity-AwareFrameworkforClass-AgnosticCounting(表示、比较和学习:用于类不可知计数的相似性感知框架)
19机器人
[1]Coarse-to-FineQ-attention:EfficientLearningforVisualRoboticManipulationviaDiscretisation(通过离散化实现视觉机器人操作的高效学习)
20多模态学习
[1]MERLOTReserve:NeuralScriptKnowledgethroughVisionandLanguageandSound(通过视觉、语言和声音的神经脚本知识)
视觉-语言
[1]Pseudo-Q:GeneratingPseudoLanguageQueriesforVisualGrounding(为视觉基础生成伪语言查询)
21自监督/半监督/无监督学习
[1]SimMatch:Semi-supervisedLearningwithSimilarityMatching(具有相似性匹配的半监督学习)
[2]RobustEquivariantImaging:afullyunsupervisedframeworkforlearningtoimagefromnoisyandpartialmeasurements(一个完全无监督的框架,用于从噪声和部分测量中学习图像)
[3]UniVIP:AUnifiedFrameworkforSelf-SupervisedVisualPre-training(自监督视觉预训练的统一框架)
22联邦学习
[1]Fine-tuningGlobalModelviaData-FreeKnowledgeDistillationforNon-IIDFederatedLearning(通过非IID联邦学习的无数据知识蒸馏微调全局模型)
23度量学习
[1]Non-isotropyRegularizationforProxy-basedDeepMetricLearning(基于代理的深度度量学习的非各向同性正则化)
[2]IntegratingLanguageGuidanceintoVision-basedDeepMetricLearning(将语言指导集成到基于视觉的深度度量学习中)
24增量学习
[1]ForwardCompatibleFew-ShotClass-IncrementalLearning(前后兼容的小样本类增量学习)
[2]Self-SustainingRepresentationExpansionforNon-ExemplarClass-IncrementalLearning(非示例类增量学习的自我维持表示扩展)
25迁移学习/domain/自适应
[1]CategoryContrastforUnsupervisedDomainAdaptationinVisualTasks(视觉任务中无监督域适应的类别对比)
[2]LearningDistinctiveMargintowardActiveDomainAdaptation(向主动领域适应学习独特的边际)
26对比学习
[1]RethinkingMinimalSufficientRepresentationinContrastiveLearning(重新思考对比学习中的最小充分表示)
27主动学习
[1]ActiveLearningbyFeatureMixing(通过特征混合进行主动学习)
28数据处理
图像压缩
[1]TheDevilIsintheDetails:Window-basedAttentionforImageCompression(细节中的魔鬼:图像压缩的基于窗口的注意力)
图像聚类
[1]RAMA:ARapidMulticutAlgorithmonGPU(GPU上的快速多切算法)
29视觉表征学习
[1]ExploringSetSimilarityforDenseSelf-supervisedRepresentationLearning(探索密集自监督表示学习的集合相似性)
[2]Motion-awareContrastiveVideoRepresentationLearningviaForeground-backgroundMerging(通过前景-背景合并的运动感知对比视频表示学习)
30模型训练/泛化
[1]CanNeuralNetsLearntheSameModelTwiceInvestigatingReproducibilityandDoubleDescentfromtheDecisionBoundaryPerspective(神经网络可以两次学习相同的模型吗?从决策边界的角度研究可重复性和双重下降)
31噪声标签
[1]ScalablePenalizedRegressionforNoiseDetectioninLearningwithNoisyLabels
32模型压缩
知识蒸馏
[1]DecoupledKnowledgeDistillation(解耦知识蒸馏)
[2]WaveletKnowledgeDistillation:TowardsEfficientImage-to-ImageTranslation(小波知识蒸馏:迈向高效的图像到图像转换)
剪枝
[1]InterspacePruning:UsingAdaptiveFilterRepresentationstoImproveTrainingofSparseCNNs(空间剪枝:使用自适应滤波器表示来改进稀疏CNN的训练)
量化
[1]ImplicitFeatureDecouplingwithDepthwiseQuantization(使用深度量化的隐式特征解耦)
33数据集
[1]FERV39k:ALarge-ScaleMulti-SceneDatasetforFacialExpressionRecognitioninVideos(用于视频中面部表情识别的大规模多场景数据集)
[2]Ego4D:AroundtheWorldin3,000HoursofEgocentricVideo(3000小时以自我为中心的视频环游世界)
34其他
[1]FastDOG:FastDiscreteOptimizationonGPU(GPU上的快速离散优化)