关键词:人体异常行为;行为识别;异常行为检测;视频监控;特征提取;数据集
0引言
1人体异常行为
1.1异常行为的定义
对于“行为”这一概念,西方学者曾给出如此定义:行为是人类与周围环境做出最基本的有意义的交互[9].文献[10]指出,动物行为包含姿势、动作和环境三个要素.人作为一种高级动物,其行为同样具备如上要素,然而相比于动物行为,人的行为具有更深层的意义及社会性.不同环境下的同一行为会被解读成不同的含义,如在赛场挥拳可视为喝彩,而在街头挥拳则可能被理解成抗议.可见,对行为的判别既要考虑人体动作或姿态对环境造成的影响,又要兼顾环境对于行为的约束作用.
关于“异常”,一般情况下,是指不同于正常状态的现象,如文献[11]将视频场景中的小概率事件定义为异常.对于人体行为而言,违反社会道德及法律或不符合当前场景下的行为均可视为异常,如在操场上奔跑可视为正常,在狭窄的车厢内奔跑则被看作异常.
综上,对人体异常行为作出如下定义,即:当前场景下,目标做出的一切不适宜的动作、姿态或事件等.该定义下,常见的单人异常行为有:摔倒、越界、遗失物品、携带危险物品、损坏公共设施等;常见的多人异常行为有:打斗、持刀行凶、抢劫、推搡、偷窃、踩踏等[12].此外,表1还给出了异常行为判别技术常用场景及各场景下的特定异常行为[13-15].
1.2异常行为的特点与分类
2特征提取方法
特征提取是指从视频数据中提取关键信息用以表征行为的过程,提取特征的好坏直接影响异常行为识别与检测算法的速度和准确率.对近些年特征提取方法研究成果进行总结,具体如下.
2.1基于人体外观和运动信息的特征提取方法
人体的运动信息常通过光流场[21]、运动历史图[18]等方法进行表征.此类方法在普通场景下识别准确率较高,但在背景复杂、人群密集的场景中难以获得理想的效果.对此,文献[22]基于外观和运动信息构建混合动态纹理模型,提出了时空异常联合检测方法,实现了拥挤场景下的异常行为检测.针对人群密集场景,文献[23]将加速度信息与光流特征融合,构造混合光流直方图作为特征描述子,应用稀疏表示的方法实现了异常行为检测.
2.2基于运动轨迹的特征提取方法
基于运动轨迹的特征提取方法通过获取物体在运动过程中的位置、长度、速度等信息构造特征.在该方面,Wang等[24]提出密集轨迹算法,该方法密集采样特征点、提取特征点轨迹特征并编码,通过支撑向量机进行分类.之后,Wang等继续改进特征正则化方式和特征编码方式,提出改进的密集轨迹算法,实现了人体行为识别[25].
基于运动轨迹的异常检测,其主要思想是在训练阶段获得正常轨迹的模式,之后在测试阶段将目标轨迹与正常轨迹比较,当目标轨迹发生重大偏离时,判断其行为异常.Junejo等[26]利用轨迹的大小、位置、速度、加速度和时空曲率特征训练动态贝叶斯网络,实现了异常行为检测.文献[27]跟踪目标的运动轨迹并基于频率分析,应用上下文感知方法实现异常行为检测.针对视频段内的小范围异常,Yang等[28]提出基于轨迹分割和多示例学习的局部异常检测方法.文献[29]利用稀疏重构法重构行为轨迹,并将最小残差法用于异常行为检测中.文献[30]在目标跟踪和轨迹分析方法的基础上,建立稀疏异常检测模型,实现了多目标联合异常检测.文献[31]利用轨迹运动模式特征生成隐马尔可夫模型,从而实现视频中的异常行为检测.利用轨迹分析人体行为的方法,其识别效果很大程度上依赖于对目标跟踪的准确性,当目标数量较小时,此类方法一般可满足识别需求,但对拥挤场所或复杂场景存在一定局限.
2.3基于时空兴趣点的特征提取方法
2.4基于二维人体骨骼信息的特征提取方法
基于二维人体骨骼信息的特征提取方法是通过姿态估计,获取人体关键部位的位置和状态信息,从而构建特征向量来描述人体行为.运用此类方法时,一般需进行人体检测和骨骼关节点检测,并利用目标跟踪算法对关键点进行跟踪,用以辅助人体行为识别.Fujiyoshi等[40]利用人体头部与四肢5个关键节点来表征人体姿态,利用这些点与重心形成的矢量构造特征向量描述人体行为.随着姿态估计算法研究的不断深入,应用于行为识别的关键点数量不断增长,现能够获取的关键点信息超过20个.同时,姿态估计方法的精度和速度也不断提升,可识别的人数不断增加.在对多人姿态估计的研究中,主要有自顶向下和自底向上两种方式.自顶向下的方式首先通过检测算法获得人形轮廓,然后使用估计检测器检测出轮廓内的关键点,进而连接所有关键点获取人体姿态[41],这种方式较为直观,便于理解,骨骼信息提取精度较好.自底向上的方式则是先检测出一幅图像内所有人体部位,然后通过聚类等方法将所有关键点进行连接并分组,拼接成每个人的骨架图[42],这种方式的最大特点是只需对图片进行一次检测,并且检测速度不受图像内人数影响.
基于人体骨骼信息的姿态估计不易受光线和背景变化的影响,具有较好的鲁棒性和适应性,被广泛应用于异常行为判别技术[43-44].相比图像特征,骨骼特征更为紧凑、结构更强、对人体运动的描述更加具体.基于骨骼信息的特征提取方法为异常行为识别与检测技术开辟了新的思路.
2.5基于三维人体骨骼信息的特征提取方法
骨骼特征提取的方法主要有基于人工设计的特征手动提取方法和基于深度学习的特征自动提取方法.在手动提取骨骼特征方面,文献[48]利用关节的高度、速度、位置等特征识别了人体的摔倒行为.文献[49]提取单个关节的运动特征和多个关节的关系特征作为人体运动识别的综合特征,从运动学和空间几何学的角度发掘了人体运动时的关节特征,获得较好的识别效果.这一类利用关节之间角度和运动特征识别人体行为的方法能够较好地反应人体运动的实际规律,易于理解和表达,但在识别过程中建立的模型较为复杂,计算量较大.在自动提取骨骼特征方面,Pham等[50]构造了由骨骼姿势及其运动组成的紧凑图像表示的骨骼位置运动特征,利用自适应直方图均衡化算法对特征进行增强,并应用基于DenseNet结构的深度卷积神经网络,实现了骨架序列与其动作标签之间端到端的映射.类似地,文献[51]将三维骨骼序列中的时空信息编码成三幅二维图像,并将其动态特性编码成图像中的颜色分布,即关节轨迹图,三幅关节轨迹图相互提供补充信息,实现了高效的行为表征.
基于三维人体骨骼特征进行人体异常行为判别时,不易受到人体外形差异的影响,特别是在光线变化、出现阴影等情况下,基于三维骨骼信息的特征可提高智能视频监控系统的识别能力和检测精度,在背景复杂、噪声较多时同样具有较好的鲁棒性.
2.6基于深度学习的特征提取方法
基于深度学习的特征提取方法是利用深度神经网络直接从图像中学习深度特征[56],在使用时需根据特征提取的规则设计网络结构并通过训练和学习获得网络参数.相比于人工设计特征如时空特征、外观及运动特征等,深度神经网络提取的特征可解释性较差,但它对于数据库的依赖较小,提取特征较为客观,对于不同视频数据中的光线变化、遮挡、视角转换等问题具有更好的普适性.一些情况下,可将原始视频和图像直接传入深度神经网络并输出结果,实现端到端的异常行为判别.常用的深度神经网络主要涉及卷积神经网络、递归神经网络等.
2.6.1基于三维卷积神经网络的特征提取
2.6.2基于双流卷积神经网络的特征提取
2.6.3基于递归神经网络的特征提取
相比于其他的特征提取方法,基于深度学习的特征提取方法不必定义提取的具体特征,可以通过较少的预处理、借助自身的多层隐藏节点直接从原始数据中学习有用特征[75].同时,基于深度学习的特征提取方法易与大数据进行结合,在多种场景下取得较好的应用效果.
2.7基于深度图像的特征提取方法
3异常行为判别
取合适的特征表征行为信息后,需根据提取特征的特点及应用场景选择合适的异常行为判别方法.如引言所述,对异常行为的判别可大致分为以异常行为识别为主和以异常行为检测为主两类.
3.1异常行为识别方法
3.2异常行为检测方法
异常行为识别在实际应用中存在以下问题:(1)实际应用中单个目标异常行为样本较少;(2)当视频中人数众多、遮挡严重时,单个人体目标行为识别的精度下降,同时人数的增加使得计算量增大;(3)在拥挤场景中,对每种行为进行标记成本较高,同时无法保证标记能够覆盖全部异常行为.此时,异常行为检测方法就显得格外重要.异常行为检测方法仅将行为分为正常和异常两个类别,从大量的视频数据中学习经验,实现像素级、帧级或视频级的异常行为判别.针对不同场景,采集的视频数据及标签的制作各不相同,基于不同的数据形式,异常行为检测方法可分为有监督、半监督和无监督三种.
3.2.1有监督异常行为检测方法
3.2.2半监督异常行为检测方法
半监督学习是通过学习一部分已知标签的样本和一部分未知标签的样本,从而将输入数据映射到标签.相比于异常数据,获取正常数据相对容易,因此,半监督方法在异常行为检测任务中使用较多.在半监督异常行为检测方法中,仅需对正常样本进行标记,在训练阶段从视频中学习正常模式,在测试阶段计算当前模式与正常模式的相似度,将偏离正常模式的检测视为异常模式.从模型的原理出发,半监督异常行为检测方法可分为基于重构模型的异常行为检测和基于预测模型的异常行为检测.