基于深度卷积网络和在线学习跟踪的驾驶员打哈欠检测

1.上海工程技术大学机械与汽车工程学院,上海,2016202.中国标准化研究院,北京,100191

摘要:提出了一种基于多信息融合的驾驶员打哈欠检测方法。首先,建立驾驶员面部图像数据库并训练深度卷积神经网络来依次检测驾驶员的面部和鼻子;然后,采用局部二比特特征和随机森林分类器训练生成在线鼻子检测器,以此来校正光流跟踪器在鼻子跟踪过程中产生的漂移误差等参数;最后,分析鼻子下方嘴部区域的边界梯度变化情况,并结合鼻子跟踪器置信度、面部横向运动等信息来判断驾驶员是否打哈欠。实验结果表明,深度卷积网络相对于其他面部分类方法,可以获得更好的分类检测效果;基于在线学习的跟踪方法可以很好地减小光流跟踪引起的漂移误差;整个算法可以在多种驾驶环境下以较高准确率检测驾驶员打哈欠事件的发生。

关键词:卷积神经网络;光流跟踪;打哈欠检测;信息融合;二比特特征

驾驶员疲劳是造成交通事故的重要原因[1],而检测驾驶员面部疲劳信号之一的驾驶员打哈欠事件已经成为计算机视觉技术领域研究的热点。驾驶员打哈欠检测的首要任务是定位驾驶员面部,然后在面部区域检测嘴部并分析嘴角或嘴内的形状变化等。在人脸检测方面,学者们已经提出了多种不同的方法,如主成分分析法[2]、神经网络法[3]、支持向量机[4]以及建立人脸几何模型[5]等。VIOLA等[6]提出了一种基于Haar特征的人脸自适应提升训练方法(AdaBoost),获得了较好的检测效果;SOCHMAN等[7]提出的Wald-Boost算法结合序列概率原理改进了AdaBoost算法,使其具有了更高的分类检测效率;HSU等[8]通过皮肤亮度补偿以及非线性颜色变换等技术来检测面部区域,然而该方法只在静态图像上进行了测试,且在具有宽动态光照范围的真实驾驶环境中,其“真白”假设前提不再成立,很难获得可靠的检测结果;CHOI等[9]采用CDF(cumulativedistributionfuntion)分析方法定位驾驶员的瞳孔位置,然后根据检测到的驾驶员视线的变化来确定驾驶员的疲劳状态。实际上当驾驶员处于疲劳状态时,眨眼和点头的频率会显著增加,这些参数都可以用作疲劳评估的指标。

为适应真实驾驶环境,并虑及面部特征易受性别、面部朝向、光照、遮挡、面部表情以及图像尺度和图像低分辨率的影响等因素,本文提出一种基于深度卷积网络[17-18]和在线学习跟踪的驾驶员打哈欠检测方法。

系统框架如图1所示。首先,面部检测器在图像多尺度滑窗中根据深度卷积网络定位驾驶员面部区域,同时,采用基于另一深度卷积网络的鼻子检测器在面部区域定位鼻子区域;然后,通过在线学习的方法训练随机森林目标检测器,对光流跟踪器的漂移误差进行校正。有相对刚性的人脸轮廓中,嘴部区域位于鼻子下方,当打哈欠事件发生时,嘴角具有较大形变,其边缘的水平方向梯度强度值将有剧烈的增大;而驾驶过程中驾驶员经常扭头查看两侧交通状况,因此,打哈欠检测器融合了左右嘴部区域的边缘梯度值、鼻子跟踪置信度以及面部运动方向等信息综合判断是否有打哈欠事件发生。

图1驾驶员打哈欠检测系统原理框图Fig.1Pipelineofdriveryawningdetectionsystem

深度卷积网络实质上是一种多层神经网络,其融合了局部感知野、共享权重以及空间降采样等特性,不仅可以大幅减少训练参数个数,还可以对一定程度的尺度缩放、旋转以及平移等保持鲁棒性。该深度卷积网络主要由交替连接的卷积层和降采样层组成,其中卷积层本质上是由不同的局部滤波器组合而成,而最终将得到的高层级的特征向量全连接到一个神经网络上。在驾驶员面部检测过程中,可以采用大量的原始面部图像数据库进行训练。图2显示了基于深度卷积网络的驾驶员面部检测结构图。

图2用于驾驶员人脸检测的深度卷积网络的多层级结构Fig.2Multi-levelstructureofdeepconvolutionnetworkfordriverfacedetection

在图2的深度卷积网络中,输入图像统一设定为96pixel(宽)×120pixel(高)(图中简写为96×120)。第一层是一个滤波器感知野大小为4×4的卷积层,通过该卷积层,每一个输入图像得到4个特征图,其中显示了2个特征图例子。卷积层的下一层是降采样层,该层通过一个3×3的局部平均核对上一层的特征图进行空间降采样,最终其特征图像素由93pixel×117pixel降低至31pixel×39pixel,使得该卷积网络降低对于旋转和畸变的敏感度,该层中显示了3个经过降采样的特征图例子。经过三次不同的卷积层和降采样层的迭代,输入层最终演变为具有1pixel×2pixel的40个高层级特征图,因此最终形成的特征向量具有80个参数,全部连接至输出层的神经网络进行分类训练。如图2所示,每一层均由不同大小的卷积核或降采样核进行处理,形成不同个数的特征图,为简化表达,将图2所描述的深度卷积网络结构描述为96×120-4C4-3S4-4C6-2S6-3C12-2S12-3C20-2S20-2C40,其中字母C代表卷积层,字母S代表降采样层,字母前的数字为核尺寸,字母后的数字为特征图数量。

采用类似的方法设计了用于驾驶员鼻子检测的深度卷积网络架构。鼻子检测的训练图片全部来自于驾驶员人脸检测的数据集,同时鼻子的图像像素(14pixel×18pixel)远远小于驾驶员面部,且鼻子相对人脸具有较小的个体差异,因此,该深度卷积网络架构具有较少的层级结构和较少的层内滤波参数。用于驾驶员鼻子检测的深度卷积网络简化为14×18-3C6-2S6-3C10-2S10。

在确定跟踪目标的初始位置之后,需要根据目标的外观以及周围背景在线训练目标检测器。为便于实时计算,在线训练的特征应能在反映物体梯度方向性的情况下尽量保持简洁性。启发于物体检测常用训练特征Haar[6]、LBP(localbinarypattern)[21]以及HOG(histogramorientalgradient)[22]等,特设计了更简洁的二比特特征,仅通过计算水平和垂直方向灰度总和,并比较大小便可实现前述三种特征对物体梯度方向的反映,避免了大量的梯度求导运算,具有更快的运行速度。该特征反映了图像区域内的边缘梯度方向,并对该梯度方向性进行了量化,最终获得了四种可能的编码结果。如图3所示,对目标区域随机选取若干个矩形框(图3中虚线框和实线框),对矩形实线框内灰度进行编码结果为00,其中I(Ai)(i=1,2,3,4)代表选定的图像框内的第i个区域内的灰度值总和;所有虚线框内二比特特征构成当前目标图像的特征向量X=(x1,x2,…,xk),其中k是目标区域选定的矩形图像框数量,反映了特征的维度,xk是四种可能的二比特特征。

图3在目标边界框内进行局部灰度梯度方向编码的二比特特征Fig.3Binary-bitfeatureoflocalgraygradientdirectioncodinginthetargetboundingbox

为适应目标外观的动态改变,在线训练检测器的正负样本均来自于当前帧目标周围的图像块,其大小与目标大小一致。为提高在线检测器的分辨能力,只选择那些区域内部像素方差在目标图像方差一半以上的样本图像块。与目标区域的重合率大于0.7的100个图像块选为训练的正样本,重合率小于0.7的300个图像块视为训练的负样本。样本图像块与目标图像区域的重合率O的计算方法为

其中,b1和b2分别为样本图像块和目标图像区域的边界面积;∩代表图像边界框之间重叠部分的面积。

随机森林分类器是一种由多棵决策树组合而成的联合预测模型,是一种快速且有效的分类模型[23]。各决策树独立进行样本类别的预测,对所有的预测类别进行投票,票数最高的类别被选举为最终的结果。在训练中,每棵树上的叶节点记录了经过该节点的正样本的数量p和负样本数量n。而每棵决策树对每个输入图像的特征向量通过叶节点的后验概率进行类别的预测,其目标类别的后验概率

其中,k既是目标区域选定的矩形图像框数量,也代表了随机森林分类器中决策树的数量。

最终对来自所有决策树的后验概率进行均值计算,若均值大于0.5,则随机森林分类器输出类型为目标,否则为背景。而在整幅图像的扫描窗内检测单目标时,往往只选择具有最高随机森林预测概率输出的扫描窗格作为目标物体的边界框。

随机森林分类器由两个参数来决定其精度和速度:森林中决策树的数量m以及每棵决策树中包含特征的数量k。决策树的数量越多,随机森林分类器的分类性能越好,但运行的速度越慢。在本试验中,决策树数量m设定为10可以在满足实时性的同时保证分类的性能。而每棵树中所使用的特征维度k越大,随机森林分类器的判别能力越强。由于每个特征有4种可能的编码模式,因此每个决策树中叶节点的数量有4k个。在本文中,选定k为10。

采用LK光流法由帧Ft到帧Ft+1前向跟踪目标时,跟踪点坐标Pt转换为Pt+1,而Pt+1也可由LK光流法在帧Ft上得到反向虚拟跟踪点P′t。若LK光流法跟踪正确,则跟踪误差e=|Pt-P′t|应足够小,如图4所示。

根据LK光流跟踪的误差以及在线随机森林检测器的目标位置,最终目标边界框的范围为

图4LK光流跟踪误差Fig.4Opticalflowtrackingerror

其中,PLk(x,y,w,h)为LK光流法得到的纯跟踪边界框的左上角坐标(x,y)以及边界框的宽度w和高度h;POLD(x,y,w,h)为在线检测方法得到的目标边界框位置;eth为跟踪误差,其阈值为5个像素,大于此误差时认为光流法跟踪失败。

根据相邻帧得到的跟踪目标的边界框所选定的图像块bt之间的相似程度,可以大概估计目标跟踪的质量,即跟踪置信度T:

整个视频算法在公开的行人跟踪视频测试集[24]上进行了测试,并与行人的标准参考位置进行了对比,其效果如图5所示。

图5中,行人跟踪测试视频的分辨率为QVGA格式,各跟踪方法使用的测试函数(如光流、均值漂移、梯度直方图、随机森林分类器等)均采用MATLABR2014a库函数。从图5中可以明显看出,梯度直方图与均值漂移等方法的跟踪效率随着视频帧数增加逐渐降低,大部分视频帧内不能有效跟踪行人的移动,而光流法虽能根据帧差原理检测到行人移动,但跟踪效率受光照影响太大而导致大部分跟踪结果产生漂移误差,与标准参考框的重合率大部分在0.5以下,而通过在线学习的方式训练的检测器可以有效地校正光流跟踪器产生的漂移误差,在随机森林决策树数量m为10的情况下(配置1)可以显著地改善跟踪效果,能连续跟踪复杂场景下的行人目标,使得大部分视频帧的跟踪重合率大部分在0.7以上,而决策树数量m降低为8(配置2)时,跟踪重合率有所下降,如图5a所示。

图5在公开测试集上的跟踪重合率及其帧数统计直方图Fig.5Thetrackingoverlapandframehistogramonopendatasets

在通过检测跟踪获得驾驶员鼻子位置之后,可以在鼻子正下方直接选定一个区域为嘴部形变分析区域。根据经验,该嘴部区域的宽度和高度分别设定为鼻子的1.5倍和1.8倍。嘴部区域由其竖直中心线分为左右两部分,如图6所示。

当打哈欠事件发生时,在嘴角处有明显的形变发生,竖直边沿的比例增大,因此,在嘴部区域对图像进行水平和竖直方向边缘滤波器卷积,并求取绝对梯度方向在0~10°内的像素的梯度强度和:当打哈欠事件发生时,0~10°范围内的像素梯度强度和会有明显的增大。像素梯度计算方法如下:

图6两种状态嘴角梯度方向示意图Fig.6Twostateofmouthcornergradient

其中,I(x,y)为坐标点(x,y)处的像素值;θ和M分别为点(x,y)处的梯度角度值和强度值。

图7显示了在打哈欠过程中,左侧嘴角部分0~10°范围内的像素梯度强度和(在3左右浮动)相对于正常状态数值明显增大(最高可达20)。在不同的光照条件下,相同的打哈欠事件的梯度强度和应该会有较大的差异。为在不同光照场景下确定不同嘴型打哈欠检测的统一阈值,需要将所有嘴部区域大小正则化至同一尺度(36×46),亮度值均由0~255正则化至0~1范围内。然而,当外界光照强烈变化时,跟踪质量急剧下降,此时无法分析嘴角梯度强度;当驾驶员扭头观察两侧车流时,嘴部区域往往包含面部与背景之间的竖直边沿,这为嘴角梯度强度的分析造成了极大的干扰。图8显示了车辆通过桥梁下方时光照的突变导致鼻子跟踪失败的情景。很明显,由于鼻子跟踪失败导致嘴部区域的误判,在右侧嘴角处面部与背景之间形成了较长的竖直边沿,使得右侧嘴角0~10°内的梯度强度和增大至29.40,该值远远大于左侧嘴角的8.7,同时右侧嘴角10°~20°范围内的梯度强度和18.61也远大于左侧梯度强度和3.68,而鼻子跟踪置信度降低至0.5743,但此时并没有明显的嘴部打哈欠事件发生。

图7正常状态和打哈欠状态(矩形框内)下左侧嘴角0~10°范围内梯度强度和Fig.7Gradientintensityin0~10degreeofleftmouthcornerinnormalandyawningstate(rectanglebox)

为获得打哈欠检测的精确描述,在进行嘴角梯度强度分析的同时,引入鼻子跟踪置信度以及面部横向运动等信息以作综合判断。设定打哈欠判别值YD来融合以上三种信息:

图8车辆通过桥梁时面部目标跟踪失败后的左右侧嘴部梯度强度和的对比Fig.8Comparisonsofgradientintensityofleftandrightmouthcornersafterfailureoffacialtrackingwhenvehiclepassbridge

其中,SL和SR分别为尺寸亮度正则化后的左右两侧嘴部区域0~10°范围内梯度强度和,T为鼻子跟踪器输出的跟踪置信度,Tth为可靠跟踪的置信度阀值,设定为0.6。当跟踪失败时,T值为0。而面部运动方向可以通过跟踪过程中的鼻子中心位置进行判断:如果鼻子中心横向像素值突然增大,则代表驾驶员面部向右运动;反之,则代表驾驶员面部向左运动,即

其中,vh和vth分别为驾驶员鼻子中心横向运动速度(横向坐标的帧间差分值)及其速度阈值。

驾驶员面部分类数据库图像截取于本实验室内9名驾驶员的行车视频,以及公开的打哈欠测试视频YawDD[25]中的89个驾驶视频,该数据库共有52344个正样本图像以及108323个负样本图像,样本图像大小为96pixel×120pixel,图9显示了部分正样本示例。

图9驾驶员面部数据库正样本示例Fig.9Positivesamplesofdriverfacialdatabase

从图9可以看出,驾驶员面部数据库正样本中包含多种光照条件下的不同面部角度的驾驶员面部图像。训练和测试均经过图2所示的卷积神经网络配置下的十折交叉验证,其中图2中的参数配置为缺省配置。为对比深度卷积网络的训练检测性能,分别设定了另外两种不同配置的深度卷积网络架构:第一种与本文缺省配置具有同样的网络层数,但每层具有更多的特征图数量,其网络结构简化为96×120-4C4-3S4-4C8-2S8-3C16-2S16-3C32-2S32-2C64,该网络架构称为“多特征图网络”;第二种较本文缺省配置仅缺少最后一层降采样层,其他层数配置相同,其网络结构简化为96×120-4C4-3S4-4C6-2S6-3C12-2S12-3C20-2S20,该网络称为“少一卷积层网络”。图10显示了三种方法下驾驶员面部检测深度卷积网络的ROC(receiveroperatingcharacteristic)性能曲线。

图10不同深度卷积网络配置下的驾驶员面部分类ROC曲线Fig.10TheROCcurvesofdriverfacialclassificationwithdifferentdeepnetworkconfigurations

从图10可以看出,具有相同网络层数的情况下,多特征图网络相对于本文缺省配置具有更好的分类性能,但性能改善效果一般;而本文缺省配置若缺少一层网络配置,则其性能下降较为明显。表1显示了三种方法在同一工作站(配置酷睿i5-6500CPU和MATLABR2014a)上的训练开销和测试精度。

表1不同深度卷积网络配置下的训练开销和测试精度Tab.1Trainingoverheadandtestaccuracywithdifferentdeepnetworkconfigurations

图11用于驾驶员面部图像分类的深度卷积网络与Boost算法的ROC曲线性能比较Fig.11PerformancecomparisonofROCcurvesbetweendepthconvolutionnetworkandBoostalgorithmfordriverfaceimageclassification

图12车辆通过桥梁下方时跟踪失败引起的打哈欠误警事件的典型视频序列截图Fig.12Typicalvideosequencesofyawningerroralerteventscausedbytrackingfailurewhenvehiclespassunderbridges

另一种易引起误警率的现象是驾驶员行车过程中扭头引起的嘴部区域选择误差。图14显示了驾驶员面部在视频331~385帧中转向右侧时右侧嘴角梯度强度与鼻子中心横向位置分析。

图13跟踪质量下降时的驾驶员打哈欠检测的多数据分析Fig.13Multi-dataanalysisofyawningdetectionwhenthetrackingqualityisdegrading

图14驾驶员扭头时的打哈欠检测的多数据分析Fig.14Multi-dataanalysisofyawningdetectionwhendriverturninghead

在图14所示的视频序列中,打哈欠事件发生在517~645帧之间,如矩形实线区域所示,然而仅进行梯度强度分析将在331~382帧之间引入误警,如矩形虚线区域所示,此段区间内驾驶员面部转向右侧,如图14b所示。因此有必要综合考虑嘴部区域的梯度强度、鼻子跟踪置信度以及驾驶员面部运动方向等信息来确定是否有打哈欠事件发生。

图15显示了图13和图14两个视频序列内对应的打哈欠判别值YD的变化情况。

图15图13和图14对应的视频序列内的打哈欠判别值YD的变化情况Fig.15ThechangesofyawningdiscriminationvalueYDinFig.13andFig.14videosequences

图15中,在打哈欠事件发生时,YD可以智能化地选择左侧或右侧嘴部区域作为分析对象,从而在图15a和图15b分别显示了图13和图14视频序列内打哈欠事件发生时YD值的明显增大,可以通过左侧区域的恒虚警率自适应阈值[26]检测到矩形实线框内打哈欠事件的发生,且最大限度地降低了误警事件发生的可能性。该驾驶员打哈欠检测方法在YawDD视频集[25]上进行了测试,打哈欠检测成功率达到93.7%,远高于文献[25]中60%的检测成功率。本方法仍未达到完全的检测效率,其主要原因在于:①少量视频内驾驶员打哈欠时面部有旋转,在鼻子正下方无法准确选定嘴部区域;②少量视频内驾驶员打哈欠时有用手遮挡面部的习惯,导致面部跟踪失败或嘴部区域无法定位。

(1)根据交通场景复杂多变、光照强度变化范围大、驾驶员面部特征个体差异大的特点,设计了深度卷积网络架构对驾驶员面部进行分类检测,根据其监督式训练学习机制,可以深度提取面部的主要特征,使得该分类网络获得较为理想的分类检测效果。

(2)设计了低维的局部二比特特征,同时利用该类特征在线训练了随机森林面部目标检测器,将其与传统的光流跟踪器搭配,可以克服光流跟踪器易受光照影响的缺点,弥补了光流跟踪器的漂移误差。整个在线学习跟踪算法可以通过跟踪置信度反映跟踪质量。

(3)采用统计方式分析了嘴角区域的梯度强度,可以避免低分辨率下直接定位嘴角的困难;同时,在驾驶视频测试集上的实验结果证明,结合鼻子跟踪器置信度以及面部运动方向等综合判断驾驶员打哈欠行为,在提高检测正确率的同时也降低了误警事件发生的可能。

参考文献:

[1]李家文,成波.驾驶员疲劳状态适应式复合预警方法的研究[J].汽车工程,2012,34(3):211-216.LIJiawen,CHENGBo.AStudyontheAdaptiveMultipleWarningsSchemeforDriverDrowsiness[J].AutomotiveEngineering,2012,34(3):211-216.

[2]LIUChengjun.Gabor-basedKernelPCAwithFractionalPowerPolynomialforFaceDetection[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2004,26(5):572-581.

[3]FERAUNDR,BERNIERQJ,VIALLETJE,etal.AFastandAccurateFaceDetectorBasedonNeuralNetwork[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2001,23(1):42-53.

[4]祝海龙,屈梁生,张海军.基于小波变换和支持向量机的人脸检测系统[J].西安交通大学学报,2002,36(9):947-950.ZHUHailong,QULiangsheng,ZHNAGHaijun.FaceDetectionBasedonWaveletTransformandSupportVectorMachine[J].JournalofXi’anJiaotongUniversity,2002,36(9):947-950.

[5]CASTRILLONM,DENIZO,GUERRAC,etal.ENCARA2:Real-timeDetectionofMultipleFacesatDifferentResolutionsinVideoStreams[J].JournalofVisualCommunicationandImageRepresentation,2007,18:130-140.

[6]VIOLAP,JONESMJ.RobustReal-timeFaceDetection[J].InternationalJournalofComputerVision,2004,57(2):137-154.

[7]SOCHMANJ,MATASJ.WaldBoost-LearningforTimeConstrainedSequentialDetection[C]//IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition(CVPR).Diego:IEEE,2005:150-156.

[8]HSURL,ABDELMOTTALEBM,JAINAK.FaceDetectioninColorImages[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2002,24(5):696-706.

[9]CHOIIH,KIMYG.HeadPoseandGazeDirectionTrackingforDetectingaDrowsyDriver[C]//IEEEInternationalConferenceonBigData&SmartComputing.Bangkok,2014:241-244.

[10]SHABNAMA,BEHBOOSHH,SHERVINS.DriverDrowsinessMonitoringBasedonYawningDetection[C]//IEEEInstrumentationandMeasurementTechnologyConference(I2MTC).Binjiang,2011:1-4.

[11]MANDALAPUS,PREETIB.DriverFatigueDetectionUsingMouthandYawningAnalysis[J].InternationalJournalofComputerScienceandNetworkSecurity,2008,8(6):183-188.

[12]童兵亮.基于嘴部状态的疲劳驾驶和精神分散状态监测方法研究[D].长春:吉林大学,2004.TONGBingliang.StudyontheMonitoringMethodforDriver’sFatigueandDistractionBasedonMouthState[D].Changchun:JilinUniversity,2004.

[13]SHABNAMA,SHERVINS,BEHBOOSHH,etal.AYawningMeasurementMethodUsingEmbeddedSmartCamera[C]//2013IEEEInternationalConferenceonInstrumentationandMeasurementTechnology.Minneapolis,2013:1605-1608.

[14]NENOITA,CAPLIERA.FusingBio-inspiredVisionDataforSimplifiedHighLevelSceneInterpretation:ApplicationtoFaceMotionAnalysis[J].ComputerVisionandImageUnderstanding,2010,114:774-789.

[15]FANXiao,YINBC,SUNYF.YawningDetectionforMonitoringDriverFatigue[C]//2007IEEEInternationalConferenceonMachineLearning&Cybernetics.Hongkong,2007:664-668.

[16]HYUNYangji,LIMS.DriverStateEstimationbyConvolutionalNeuralNetworkUsingMultimodalSensorData[J].ElectronicsLetters,2016,52(17):1495-1497.

[17]CIRE爧ANDC,MEIERU,GAMBARDELLALM,et.al.Big,SimpleNeuralNetsforHandwrittenDigitRecognition[J].NeuralComputation,2010,22(12):3207-3220.

[18]YANNL,KORAYK,CLMENTF.ConvolutionalNetworksandApplicationsinVision[C]//InternationalSymposiumonCircuitsandSystems.Paris,2010:253-256.

[19]MATURANAD,MERYD,SOTOA.FaceRecognitionwithLocalBinaryPatterns,SpatialPyramidHistogramsandNaiveBayesNearestNeighborClassification[C]//InternationalConferenceoftheChileanComputerScienceSociety.Chile,2009:125-132.

[20]ALBERTOA,DAVIDM,ANTOINEMetal.FaceRecognitionUsingHOG-EBOM[J].PatternRecognitionLetters,2008,29(10):1537-1543.

[21]李平岐,陈万春,邢晓岚.复杂背景下运动目标的检测与跟踪[J].红外与激光工程,2007,36(增刊2):182-186.LIPingqi,CHENWanchun,XINGXiaolan.DetectionandTrackingofMovingObjectinComplexBackground[J].InfraredandLaserEngineering,2007,36(S2):182-186.

[22]李光,金学波.基于张量梯度直方图的MeanShift跟踪算法[J].浙江理工大学学报,2009,26(6):880-885.LIGuang,JINXuebo.MeanShiftTrackingAlgorithmBasedonTensorGradientHistogram[J].JournalofZhejiangSci-TechUniversity,2009,26(6):880-885.

[23]刘足华,熊惠霖.基于随机森林的目标检测与定位[J].计算机工程,2012,38(13):5-8.LIUZuhua,XIONGHuilin.ObjectDetectionandLocalizationBasedonRandomForest[J].ComputerEngineering,2012,38(13):5-8.

[24]KWONJ,LEEKM.VisualTrackingDecomposition[C]//IEEEConferenceonCompnterVisionandPatternRecognition.SanFrancisco,2010:1269-1276.

[25]SHABNAMA,MONAO,SHERVINS,etal.YawDD:AYawningDetectionDataset[C]//Proceedingsofthe5thACMMultimediaSystemsConference.NewYork,2014:24-28.

[26]刘盼芝,韩崇昭.分布式自动删除平均恒虚警率检测技术[J].自动化学报,2007,35(7):903-910.LIUPanzhi,HANChongzhao.DistributedAutomaticCensoredCell-averagingCFARDetector[J].ActaAtuomaticSinica,2007,35(7):903-910.

DriverYawningDetectionBasedonDeepConvolutionalNetworkandTrackingwithOnlineLearning

ZHANGWeiwei1MIZeyang1XIAOLingyun2QIANYubin11.SchoolofMechanicalandAutomotiveEngineering,ShanghaiUniversityofEngineeringScience,Shanghai,2016202.ChinaNationalInstituteofStandardization,Beijing,100191

Abstract:Amethodfordriveryawningdetectionwasproposedbasedonmulti-informationfusion.Firstly,thedriverfacedatabasewasbuilt,andthedeepconvolutionalneuralnetworkwastrainedfordriverfaceandnosedetectioninsequence.Secondly,anonlinenosedetectorwasgeneratedthroughtrainingarandomforestclassifierwithlocalbinaryfeature,whichwasintroducedtocompensatethenosetrackingerrorscausedbyopticalflow-basednosetracker.Atlast,theedgegradientchangeswereanalyzedinthemouthareaunderthenose.Theinformationslikenosetrackingconfidenceandfacelateralmovementwerecombinedtodeterminethedriverswereyawning.Theexperimentalresultsshowthat,comparedwithotherfaceclassificationmethod,thedeepconvolutionnetworkmayobtainbetterclassificationdetectioneffectiveness.Theonlinelearning-basedtrackingmethodmayreducethedrifterrorsgreatlyintroducedbytheopticalflow-basedtracker.Thewholealgorithmmaydetectdriveryawningeventwithsatisfactoryaccuracyunderdifferentdrivingconditions.

Keywords:convolutionalneuralnetwork;opticalflowtracker;yawningdetection;informationfusion;binaryfeature

中图分类号:U471.15;TP29

DOI:10.3969/j.issn.1004-132X.2019.08.004开放科学(资源服务)标识码(OSID):

收稿日期:2018-01-15

基金项目:国家重点研发计划资助项目(2016YFC0800702-1);国家自然科学基金资助项目(51805312,51675324,51575169);中央高校基本科研业务费专项资金资助项目(282019Y-6694,282018Y-5976)

(编辑王艳丽)

作者简介:张伟伟,男,1987年生,博士、讲师。研究方向为智能网联汽车、图像处理、计算机视觉。发表论文10余篇。E-mail:zwwhnu@163.com。肖凌云(通信作者),男,1980年生,博士。研究方向为车辆先进主动安全评价理论、标准与应用。E-mail:xiaoly@dpac.gov.cn。

THE END
1.在线学习管理系统:重塑教育未来的创新工具随着互联网技术的飞速发展,教育领域正经历着前所未有的变革。在线学习管理系统作为这一变革的重要推手,正逐步成为教育行业不可或缺的一部分。本文将全面解析在线学习管理系统的内涵、优势、功能及应用场景,为您揭示这一创新工具如何重塑教育未来。 一、在线学习管理系统的内涵 https://www.pbids.com/aboutUs/pbidsNews/1861300265132593152
2.在线学习系统新启在线学习系统支持PC,PAD,手机,微信多平台多通道的学习。新启科技在承接传统教育的基础之上充分实现了E-learning的设计理念, 它为现代学习型组织提供了卓有成效的学习与培训方案, 能够通过在线学习、在线考试和在线评估的方式轻松完成针对员工制订的培训计划。 http://www.newstartsoft.com/Html/OLS.html
3.在线学习系统在线学习管理系统,只允许教师使用吗?通过在线学习系统的建设,完成了对于在线学习课程的远程化授课。可以使学生不受时间空间的限制,通过在线对于这门课程进行学习。建立起了基于B/C的在线化在线学习系统。本系统采用当前最流行的JSP在线编程技术,可以实现数据的高效、动态、交互访问,具有强大的Server/Client交互能力。本文中所做的主要工作:介绍Win2000 +JSPhttps://blog.csdn.net/qq_61141142/article/details/134977906
4.在线学习平台还可以将学员在线下参加过的培训、考试等内容导入到平台中,组成完整的学员学习培训档案,为领导者对员工素质进行公正评价和准确分析提供有力的数据支持。设计理念 在线学习系统本着简单、适用、高效的原则,实行通用化、标准化、智能化、人性化的产品设计思想,帮助企业形成学习型组织,对员工培训进行高效、有序的管理。https://baike.baidu.com/item/%E5%9C%A8%E7%BA%BF%E5%AD%A6%E4%B9%A0%E5%B9%B3%E5%8F%B0/9554384
5.史密斯PrepSmith在线学习系统雅思托福备考,就选启德考培prepsmith在线学习系统!系统包含测评、模考、刷题、自适应练习等多种功能,满足各阶段的考生备考需求,通过智能化的练习,高效提分https://www.eickaopei.com/special/qdsms/
6.fif口语训练系统FiF口语训练系统 语音技术,科学评测,即时反馈 训练题库,内容丰富,题型多样 > FiF在线课程 多个平台,个性课程;学习进度,一目了然 消息通知,直达高效;易学易教,益教益学 FiF外语学习资源库 富媒体、多语种外语学习产品 讯飞语音技术,海量优质资源 讯飞AI考试纸笔 https://www.fifedu.com/
7.红杉树小红本记忆引擎?智能英语训练系统在线教学的开展使得学生用于对于终端硬件的需求趋于低龄化,越来越多低领儿童家长为孩子选购PC、普通平板、学习机等相关产品。 2022年4月,教育部发布《义务教育课程方案和课程标准(2022年版)》,英语新课标推进信息技术与英语教学的深度融合的课程理念,与小红本记忆引擎?智能英语训练系统的研发理念完全一致。记忆引擎?http://www.1637.com/hongshanshu/news/5I1M21QKWX54141899.html
8.AI智能英语培训学习APP陪练口语记背单词软件服务内容全部包含: 将AI技术融入到英语培训中,包括教师用的英语教学系统、学生用的英语学习系统,以及英语自习室等,涉及单词记诵、语法学习、听力训练和写作等。 AI英语教学版利用AI学习软件,通过网络实现1对1陪练,借助先进的人工智能和教练的强力督学,让学员的英语综合能力获得快速提升。用于培训机构的教师(教练)端。https://www.zbj.com/fw/1921913.html
9.国家税务总局吉林省税务局12366系统征纳互动功能拓展项目需求公告之间的互动服务从以政策业务为主向政策业务和技术操作全覆盖转变、从解答问题向解决问题转变、从被动等待服务需求向主动提供服务转变、从人工服务向智能服务转变,不断提升办税服务便利化水平,满足纳税人多渠道、多维度、全业务域的咨询互动需求和税务机关精细服务、精准监管要求,需对12366纳税缴费服务热线系统进行升级拓展http://jilin.chinatax.gov.cn/art/2021/11/25/art_22893_449634.html
10.企业在线培训企业培训平台企业直播系统小鹅通企业培训系统,企业专属的培训学习管理工具,帮助企业搭建集平台+内容+运营于一体的一站式数字化的企业培训平台,通过图文/音视频/企业直播/考试等多种内容组合形式,高效赋能企业培训。https://www.xiaoe-tech.com/corporateTraining
11.新闻资讯提供私有部署培训平台企业内训系统在线移动学习平台私有部署培训平台供应商Traingo为企业提供在线培训平台,信创学习平台,国产化学习平台,信创考试平台,国产化考试平台,干部培训平台,为您提供课程管理、考试管理、知识管理、培训计划、会议直播、社区互动、激励体系、培训分析、答疑等,改善人才培养效率及绩效表现,提https://www.traingo.cn/news/
12.银行职业技能综合训练与考核平台1、 银行职业技能学习与训练系统 该系统能够实现学生登陆后,根据教师设定的权限,开展翻打传票和中文输入课程的自主学习与训练,该系统能够记录学生的训练情况并根据设定的条件评定训练积分和等级,给出训练诊断意见。学生也可在线开展技能竞技比赛。 2、 银行职业技能教师综合管理系统 该系统能够实现教师根据学生类别,对学生http://zjtjyj.cn/index.aspx?menuid=5&type=productinfo&lanmuid=67&infoid=174&language=cn
13.KISSABC英语学习训练系统KISSABC英语学习训练系统 六大核心板块 趣味英语启蒙 同时启蒙英语开设了288节英语趣味启蒙,故事与教学相结合,激发学习兴趣,让孩子听得进、看得懂、更爱学。 互动成长营 三年864次互动,高频陪伴式互动学习,告别填鸭式死记硬背,重塑孩子口语表达与母语思维。 http://www.kissabc.cn/
14.2022年在线网课学习课堂《运动训练基本原理与方法(北京体育大学2024年在线网课学习课堂《运动训练基本原理与方法(北京体育大学 )》单元测试考核答案.pdf,注:不含主观题 第 1 题 运动训练学的学科特征不包括 ()。 A 本源性 B 综合性 C 实践性 D 专项性 第 2 题 运动训练学的母学科是 () A 生理学 B 解剖学 C 教育学 D 都不是 第 3 题 https://m.book118.com/html/2022/0725/6202243220004214.shtm
15.体育总局干部培训中心至于其他的场馆基本不开放,只有国家队和地方队都不在这里训练的时候才可能向社会短暂开放。 上海市干部培训中心怎么样? ① 求大虾上海科技管理干部学院怎么样 上海科技管理干部学院座落在历史文化 名城和国际汽车城——嘉定。1980年经上海市人民 *** 批准成立,隶属上海市科委,是上海科技系统干部教育培训基地,是 国科https://www.govjiaoyu.cn/peixun/1763.html
16.线上教学听课巡课方案(通用13篇)在因防控病毒感染的肺炎疫情延期开学期间,确保防疫特殊时期学生身心健康的前提下,面向全区中小学搭建或推荐在线学习平台,借助网络,为教师和学生建立教学和辅导的双向交流渠道,努力减少因疫情给学生学习带来的损失,实现全区教育系统“停课不停学”和学生学有所获的工作目标。https://www.ruiwen.com/fangan/6607211.html
17.北京大学计算机学院七篇论文入选数据库领域顶级会议VLDB2023腾讯公司的多款产品和服务,如微信、QQ和腾讯广告,已经广泛应用这些先进的预训练模型以提升用户体验和服务质量。论文“Angel-PTM: A Scalable and Economical Large-scale Pre-training System in Tencent”提出了Angel-PTM,一个专为大模型预训练而精心构建的工业级深度学习系统,可以利用GPU服务器中的多层存储高效地https://laoyaoba.com/n/877399
18.Dotcpp编程(C语言网)编程入门学习训练题库C语言网(dotcpp.com)奉行“学练同步,知行合一”的学习理念,希望大家都能理论与动手一起加强!拒绝理论编程训练题库OJ 如何获取音频文件总时长 访问者模式 模板模式 策略模式 空对象模式 Linux date命令:显示或设置系统时间 Linux su命令:切换用户 Linux clear命令:清除屏幕 https://www.dotcpp.com/