行人重识别(PersonRe-Identification,简称Re-ID),是一种利用计算机视觉技术来检索图像或者视频序列中是否存在特定行人的AI技术,在智慧城市等监控场景中具有重要的应用意义和前景。
本文介绍我们最新的IEEETPAMI综述论文《DeepLearningforPersonRe-identification:ASurveyandOutlook》,该文作者来自武汉大学、起源人工智能研究院(IIAI)、北理工、英国萨里大学、Salesforce亚洲研究院。
知乎原文:
首先非常感谢领域内的前辈和各位大佬,为该综述提供了非常充实的素材和基础。
这里先总结该综述的几个主要贡献点:
2、展望:
1)一个新的评价指标mINP,用来评价找到最困难匹配行人所需要的代价;
2)一个强有力的AGW方法,在四种不同类型的Re-ID任务,包括12个数据集中取得了较好的效果;
3)从五个不同的方面讨论了未来Re-ID研究的重点和难点,仅供大家参考。
前言
根据个人理解,本文总结Re-ID技术的五大步骤:
2)行人框生成,从视频数据中,通过人工方式或者行人检测或跟踪方式将行人从图中裁切出来,图像中行人将会占据大部分面积;
3)训练数据标注,包含相机标签和行人标签等其他信息;
4)重识别模型训练,设计模型(主要指深度学习模型),让它从训练数据中尽可能挖掘“如何识别不同行人的隐藏特征表达模式”;
5)行人检索,将训练好的模型应用到测试场景中,检验该模型的实际效果。
如下图所示:
图1.构建行人重识别系统的五个主要步骤。包括:1)数据采集,2)行人框生成,3)训练数据标注;4)重识别模型训练,5)行人检索
全文的综述和展望都是围绕这五个步骤来展开和讨论的。针对以上五个步骤的一些约束条件,本文将ReID技术分为Closed-world和Open-world两大子集。
Closed-world概括为大家常见的标注完整的有监督的行人重识别方法,Open-world概括为多模态数据,端到端的行人检索,无监督或半监督学习,噪声标注和一些Open-set的其他场景。
Closed-worldRe-ID
这一章节主要介绍大家常用的封闭世界(Closed-world)Re-ID设置,一般包含以下假设:
(1)通过图像或视频,可见光(RGB)摄像机捕捉行人;
(2)行人由boundingboxes框出;
(3)有足够多的被标注训练数据;
(4)标注的数据标签通常都是正确的;
(5)queryperson必须出现在galleryset中。
根据方法设计流程,将其分为特征学习,度量学习和排序优化三个部分。研究人员的方法通常针对这三方面进行改进,侧重点不同。
有的是提出了新颖的特征学习方法,有的提出有效的度量损失函数,也有的是在测试检索阶段进行优化。在本章节末尾,还概括了现有的常用数据集和评价指标,以及现有SOTA的优缺点分析。
2.1特征学习方法
图2.四种主要的Re-ID特征学习方法
2.2度量学习方法
图3.三种常见的Re-ID度量学习(损失函数)方式
早期的度量学习主要是设计不同类型的距离/相似度度量矩阵。深度学习时代,主要包括不同类型的损失函数的设计及采样策略的改进:
2.3排序优化
用学习好的Re-ID特征得到初始的检索排序结果后,利用图片之间的相似性关系来进行初始的检索结果优化,主要包括重排序(re-ranking)和排序融合(rankfusion)等。
图4.重排序示例
2.4数据集和评价
主要包括现有的一些常用图像和视频数据集的概括,以及现有方法SOTA的一些总结和分析,希望综述里面的一些分析能够在大家进行模型设计时提供一些思路和帮助。具体分析详见原文。
Open-WorldRe-ID
由于常规的Closed-worldRe-ID在有监督的实验场景中已经达到或接近瓶颈了,现在很多的研究都更偏向于Open-WorldRe-ID场景,也是当前Re-ID研究的热点。根据Re-ID系统设计的五个步骤,本章节也从以下五个方面介绍:
1)多模态数据,所采集的数据不是单一的可见光模态;
2)端到端的行人检索(End-to-endPersonSearch),没有预先检测或跟踪好的行人图片/视频;
3)无监督和半监督学习,标注数据有限或者无标注的新场景;
4)噪声标注的数据,即使有标注,但是数据采集和标注过程中存在噪声或错误;
5)一些其他Open-set场景,查询行人找不到,群体重识别,动态的多摄像头网络等。
3.1多模态(异构)数据
总体而言,异构的行人重识别问题需要解决的一大难题是不同模态数据之间的差异性问题
3.2端到端Re-ID(End-to-endPersonSearch)
3.3半监督和无监督的Re-ID
为了缓解对标注数据的依赖,半监督和无监督/自监督现在成为了当前研究的热点,在CV顶会上呈爆炸之势。本文也主要分成两个部分:无监督Re-ID(不需要标注的源域)和无监督域自适应Re-ID(需要标注的源域数据或模型):
考虑到无监督学习也是现在研究的热点,本文也对现有的SOTA做了一个简单的总结和分析,可以看到现在的_无监督学习方法已经是效果惊人了,未来可期_。如下表所示:
表1.现有无监督学习方法在常见数据集上的效果
3.4噪声鲁棒的Re-ID
主要针对标注数据或者数据采集中产生的一些噪声或错误等,方法包括:
3.5Open-setRe-IDandBeyond
主要针对一些其他开放场景进行一些探讨,如1)galleryset中query行人没有出现的场景;2)GroupRe-ID:行人群体匹配的问题;3)动态的多摄像头网络匹配等问题
展望
4.1新的评价指标mINP
考虑到实际场景中,目标人物具有隐匿性,很多时候要找到其困难目标都非常难,给侦查工作带来麻烦。mINP主要目的是为了衡量Re-ID算法用来找到最难匹配样本所要付出的代价,
4.2新的基准方法AGW
主要是在@罗浩的Bagoftricks(感谢)上做的一些改进,主要包括:1)Non-local注意力机制的融合;2)Generalized-mean(GeM)Pooling的细粒度特征提取;3)加权正则化的三元组损失(WeightedRegularizationTriplet(WRT)loss):
图5.AGW方法的示意图
在审稿人的建议下,我们在四种不同类型的任务(图像Re-ID,视频Re-ID,跨模态红外Re-ID和PartialRe-ID)的12个数据集上均对我们提出的新指标mINP和AGW方法进行了测评,在大多数情况下,我们的方法都能够取得比较好的效果。具体的实验结果和分析可以参考我们的论文和补充材料,希望我们的方法和评价指标能对大家有一些帮助。
4.3对未来一些研究方向的思考
这一部分也是紧扣前面提出的五个步骤,针对五个步骤未来亟待解决的关键问题或者热点问题进行归纳。由于每个人理解上的认知偏差,这里的建议仅供大家参考:
后记:很多内容在这里都没办详细描述,具体的细节还请大家移步原文、补充材料以及源代码。因能力有限,部分描述不一定完全客观正确,希望大家能够理解。希望我们的综述能够给领域内的同行提供一些帮助和借鉴。