原标题:从传统方法到深度学习,人脸关键点检测方法综述机器之心专栏作者:余霆嵩人脸关键点检测是人
原标题:从传统方法到深度学习,人脸关键点检测方法综述
机器之心专栏
作者:余霆嵩
关键词:人脸关键点;人脸特征点;人脸对齐;卷积神经网络
目录
一、引言
二、人脸关键点检测方法
2.1ASM(ActiveShapeModels)
2.2AAM(ActiveAppearanceModels)
2.3CPR(Cascadedposeregression)
2.4DCNN
2.5Face++版DCNN
2.6TCDCN
2.7MTCNN
2.8TCNN(TweakedConvolutionalNeuralNetworks)
2.9DAN(DeepAlignmentNetworks)
三、结语
参考文献
人脸关键点检测也称为人脸关键点检测、定位或者人脸对齐,是指给定人脸图像,定位出人脸面部的关键区域位置,包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等和人脸检测类似,由于受到姿态和遮挡等因素的影响,人脸关键点检测也是一个富有挑战性的任务。
人脸关键点检测是人脸识别任务中重要的基础环节,人脸关键点精确检测对众多科研和应用课题具有关键作用,例如,人脸姿态矫正、姿态识别、表情识别、疲劳监测、嘴型识别等。因此,如何获取高精度人脸关键点,一直以来都是计算机视觉、模式识别、图像处理等领域的热点研究问题。
人脸关键点检测方法大致分为三种,分别是基ASM(ActiveShapeModel)[1]和AAM(ActiveAppearnceModel)[2,3]的传统方法;基于级联形状回归的方法[4];基于深度学习的方法[5-10]。若是按照参数化与否来分,可分为参数化方法和非参数化方法,ASM、AAM和CLM[11]就属于参数化方法,而级联回归和深度学习方法属于非参数化方法。基于参数化形状模型的方法可依据其外观模型的不同,可进一步分为,基于局部的方法[12-14]和基于全局的方法[15-17];对于非参数化进一步可分为基于样例的方法[18,19]、基于图模型的方法[20,21]、基于级联回归的方法[4,22,23]和基于深度学习的方法[24-26]。更为详细的划分请参考文献[27]。目前,应用最广泛,效果精度最高的是基于深度学习的方法,因此本文主要针对深度学习在人脸关键点检测上的应用进行研究。
人脸关键点定位方法中具有里程碑式的有如下五种方法:
1)1995年,Cootes的ASM(ActiveShapeModel)。
2)1998年,Cootes的AAM(ActiveAppearanceModel)算法。
3)2006年,Ristinacce的CLM(ConstrainedLocalModel)算法。
4)2010年,Rollar的cascadedRegression算法。
5)2013年,Sun开创深度学习人脸关键点检测的先河,首次将CNN应用到人脸关键点定位上。
定量评价方面,目前主要的衡量标准是算法所获取的关键点位置与真实关键点位置之间的偏差。在评价偏差时,由于不同人脸图像的实际大小难免会有所差异,为便于在同样的尺度下比较算法性能,需要采用一定的数据归一化策略.目前主流的方法是基于两眼间的距离进行人脸大小的标准化,即:
,其中分子表示估计值与真实值的欧式距离,分母表示双眼距离,即两眼中心的欧式距离。也有采用边界框对角线作为归一化因子来评价偏差,如文献[20]。
传统人脸关键点检测数据库为室内环境下采集的数据库,比如Multi-pie、Feret、Frgc、AR、BioID等人脸数据库。而现阶段人脸关键点检测数据库通常为复杂环境下采集的数据库.LFPW人脸数据库有1132幅训练人脸图像和300幅测试人脸图像,大部分为正面人脸图像,每个人脸标定29个关键点。AFLW人脸数据库包含25993幅从Flickr采集的人脸图像,每个人脸标定21个关键点。COFW人脸数据库包含LFPW人脸数据库训练集中的845幅人脸图像以及其他500幅遮挡人脸图像,而测试集为507幅严重遮挡(同时包含姿态和表情的变化)的人脸图像,每个人脸标定29个关键点。MVFW人脸数据库为多视角人脸数据集,包括2050幅训练人脸图像和450幅测试人脸图像,每个人脸标定68个关键点。OCFW人脸数据库包含2951幅训练人脸图像(均为未遮挡人脸)和1246幅测试人脸图像(均为遮挡人脸),每个人脸标定68个关键点。
人脸关键点检测方法根据是否需要参数化模型可分为以下两类,基于参数化形状模型的方法和基于非参数形状模型的方法。目前,最为常用的是基于非参数形状模型的深度学习方法,因此本文讨论深度学习方法。但是,为了更好的理解人脸关键点的发展和历史,本文也简单介绍了最为经典的人脸关键点检测方法:ASM和AAM。
ASM(ActiveShapeModel)[1]是由Cootes于1995年提出的经典的人脸关键点检测算法,主动形状模型即通过形状模型对目标物体进行抽象,ASM是一种基于点分布模型(PointDistributionModel,PDM)的算法。在PDM中,外形相似的物体,例如人脸、人手、心脏、肺部等的几何形状可以通过若干关键点(landmarks)的坐标依次串联形成一个形状向量来表示。ASM算法需要通过人工标定的方法先标定训练集,经过训练获得形状模型,再通过关键点的匹配实现特定物体的匹配。
ASM主要分为两步:第一步:训练。首先,构建形状模型:搜集n个训练样本(n=400);手动标记脸部关键点;将训练集中关键点的坐标串成特征向量;对形状进行归一化和对齐(对齐采用Procrustes方法);对对齐后的形状特征做PCA处理。接着,为每个关键点构建局部特征。目的是在每次迭代搜索过程中每个关键点可以寻找新的位置。局部特征一般用梯度特征,以防光照变化。有的方法沿着边缘的法线方向提取,有的方法在关键点附近的矩形区域提取。第二步:搜索。首先:计算眼睛(或者眼睛和嘴巴)的位置,做简单的尺度和旋转变化,对齐人脸;接着,在对齐后的各个点附近搜索,匹配每个局部关键点(常采用马氏距离),得到初步形状;再用平均人脸(形状模型)修正匹配结果;迭代直到收敛。
ASM算法的优点在于模型简单直接,架构清晰明确,易于理解和应用,而且对轮廓形状有着较强的约束,但是其近似于穷举搜索的关键点定位方式在一定程度上限制了其运算效率。
1998年,Cootes对ASM进行改进,不仅采用形状约束,而且又加入整个脸部区域的纹理特征,提出了AAM算法[2]。AAM于ASM一样,主要分为两个阶段,模型建立阶段和模型匹配阶段。其中模型建立阶段包括对训练样本分别建立形状模型(ShapeModel)和纹理模型(TextureModel),然后将两个模型进行结合,形成AAM模型。
2010年,Dollar提出CPR(CascadedPoseRegression,级联姿势回归)[4],CPR通过一系列回归器将一个指定的初始预测值逐步细化,每一个回归器都依靠前一个回归器的输出来执行简单的图像操作,整个系统可自动的从训练样本中学习。
人脸关键点检测的目的是估计向量
,其中K表示关键点的个数,由于每个关键点有横纵两个坐标,所以S得长度为2K。CPR检测流程如图所示,一共有T个阶段,在每个阶段中首先进行特征提取,得到,这里使用的是shape-indexedfeatures,也可以使用诸如HOG、SIFT等人工设计的特征,或者其他可学习特征(learningbasedfeatures),然后通过训练得到的回归器R来估计增量ΔS(updatevector),把ΔS加到前一个阶段的S上得到新的S,这样通过不断的迭代即可以得到最终的S(shape)。
2013年,Sun等人[5]首次将CNN应用到人脸关键点检测,提出一种级联的CNN(拥有三个层级)——DCNN(DeepConvolutionalNetwork),此种方法属于级联回归方法。作者通过精心设计拥有三个层级的级联卷积神经网络,不仅改善初始不当导致陷入局部最优的问题,而且借助于CNN强大的特征提取能力,获得更为精准的关键点检测。
如图所示,DCNN由三个Level构成。Level-1由3个CNN组成;Level-2由10个CNN组成(每个关键点采用两个CNN);Level-3同样由10个CNN组成。
Level-1分3个CNN,分别是F1(Face1)、EN1(Eye,Nose)、NM1(Nose,Mouth);F1输入尺寸为39*39,输出5个关键点的坐标;EN1输入尺寸为39*31,输出是3个关键点的坐标;NM11输入尺寸为39*31,输出是3个关键点。Level-1的输出是由三个CNN输出取平均得到。
Level-2,由10个CNN构成,输入尺寸均为15*15,每两个组成一对,一对CNN对一个关键点进行预测,预测结果同样是采取平均。
Level-3与Level-2一样,由10个CNN构成,输入尺寸均为15*15,每两个组成一对。Level-2和Level-3是对Level-1得到的粗定位进行微调,得到精细的关键点定位。
Level-1之所以比Level-2和Level-3的输入要大,是因为作者认为,由于人脸检测器的原因,边界框的相对位置可能会在大范围内变化,再加上面部姿态的变化,最终导致输入图像的多样性,因此在Level-1应该需要有足够大的输入尺寸。Level-1与Level-2和Level-3还有一点不同之处在于,Level-1采用的是局部权值共享(LcallySharingWeights),作者认为传统的全局权值共享是考虑到,某一特征可能在图像中任何位置出现,所以采用全局权值共享。然而,对于类似人脸这样具有固定空间结构的图像而言,全局权值共享就不奏效了。因为眼睛就是在上面,鼻子就是在中间,嘴巴就是在下面的。所以作者借鉴文献[28]中的思想,采用局部权值共享,作者通过实验证明了局部权值共享给网络带来性能提升。
DCNN采用级联回归的思想,从粗到精的逐步得到精确的关键点位置,不仅设计了三级级联的卷积神经网络,还引入局部权值共享机制,从而提升网络的定位性能。最终在数据集BioID和LFPW上均获得当时最优结果。速度方面,采用3.3GHz的CPU,每0.12秒检测一张图片的5个关键点。
2013年,Face++在DCNN模型上进行改进,提出从粗到精的人脸关键点检测算法[6],实现了68个人脸关键点的高精度定位。该算法将人脸关键点分为内部关键点和轮廓关键点,内部关键点包含眉毛、眼睛、鼻子、嘴巴共计51个关键点,轮廓关键点包含17个关键点。
针对内部关键点和外部关键点,该算法并行的采用两个级联的CNN进行关键点检测,网络结构如图所示。
算法主要创新点由以下三点:(1)把人脸的关键点定位问题,划分为内部关键点和轮廓关键点分开预测,有效的避免了loss不均衡问题;(2)在内部关键点检测部分,并未像DCNN那样每个关键点采用两个CNN进行预测,而是每个器官采用一个CNN进行预测,从而减少计算量;(3)相比于DCNN,没有直接采用人脸检测器返回的结果作为输入,而是增加一个边界框检测层(Level-1),可以大大提高关键点粗定位网络的精度。
Face++版DCNN首次利用卷积神经网络进行68个人脸关键点检测,针对以往人脸关键点检测受人脸检测器影响的问题,作者设计Level-1卷积神经网络进一步提取人脸边界框,为人脸关键点检测获得更为准确的人脸位置信息,最终在当年300-W挑战赛上获得领先成绩。
2014年,Zhang等人将MTL(Multi-TaskLearning)应用到人脸关键点检测中,提出TCDCN(Tasks-ConstrainedDeepConvolutionalNetwork)[7]。作者认为,在进行人脸关键点检测任务时,结合一些辅助信息可以帮助更好的定位关键点,这些信息如,性别、是否带眼镜、是否微笑和脸部的姿势等等。作者将人脸关键点检测(5个关键点)与性别、是否带眼镜、是否微笑及脸部的姿势这四个子任务结合起来构成一个多任务学习模型,模型框架如图所示。
网络输出为40*40的灰度图,经过CNN最终得到2*2*64的特征图,再通过一层含100个神经元的全连接层输出最终提取得到的共享特征。该特征为所有任务共同享用,对于关键点检测问题,就采用线性回归模型;对于分类问题,就采用逻辑回归。
在传统MLT中,各任务重要程度是一致的,其目标方程如下:
其中,第一项表示主任务的损失函数,即人脸关键点检测的损失函数,第二项表示其余各子任务的损失函数,其中表示任务a的重要性。针对人脸关键点检测任务,本文结合了四个子任务,分别是:性别、是否带眼镜、是否微笑和脸部的姿势,目标函数为:
其中,第一项是平方和误差,表示人脸关键点损失函数,第二项是分类任务,采用的是交叉熵误差,第三项即正则项。
其中,表示训练的误差,表示验证的误差,为阈值,第一项表示训练误差的趋势,第二项表示泛化误差与训练误差之比,当两项之积大于阈值,则该任务停止。
TCDCN采用多任务学习方法对人脸关键点进行检测,针对多任务学习在人脸关键点检测任务中的两个主要问题——不同任务学习难易程度不同以及不同任务收敛速度不同,分别提出了新目标函数和提前停止策略加以改进,最终在AFLW和AFW数据集上获得领先的结果。同时对比于级联CNN方法,在IntelCorei5cpu上,级联CNN需要0.12s,而TCDCN仅需要17ms,速度提升七倍有余。
2016年,Zhang等人提出一种多任务级联卷积神经网络(MTCNN,Multi-taskCascadedConvolutionalNetworks)[9]用以同时处理人脸检测和人脸关键点定位问题。作者认为人脸检测和人脸关键点检测两个任务之间往往存在着潜在的联系,然而大多数方法都未将两个任务有效的结合起来,本文为了充分利用两任务之间潜在的联系,提出一种多任务级联的人脸检测框架,将人脸检测和人脸关键点检测同时进行。
MTCNN包含三个级联的多任务卷积神经网络,分别是ProposalNetwork(P-Net)、RefineNetwork(R-Net)、OutputNetwork(O-Net),每个多任务卷积神经网络均有三个学习任务,分别是人脸分类、边框回归和关键点定位。网络结构如图所示:
MTCNN实现人脸检测和关键点定位分为三个阶段。首先由P-Net获得了人脸区域的候选窗口和边界框的回归向量,并用该边界框做回归,对候选窗口进行校准,然后通过非极大值抑制(NMS)来合并高度重叠的候选框。然后将P-Net得出的候选框作为输入,输入到R-Net,R-Net同样通过边界框回归和NMS来去掉那些false-positive区域,得到更为准确的候选框;最后,利用O-Net输出5个关键点的位置。
在具体训练过程中,作者就多任务学习的损失函数计算方式进行相应改进。在多任务学习中,当不同类型的训练图像输入到网络时,有些任务时是不进行学习的,因此相应的损失应为0。例如,当训练图像为背景(Non-face)时,边界框和关键点的loss应为0,文中提供计算公式自动确定loss的选取,公式为:
其中,表示任务的重要程度,在P-Net和R-Net中,
,在R-Net中,由于要对关键点进行检测,所以相应的增大任务的重要性,。作为样本类型指示器。
为了提升网络性能,需要挑选出困难样本(HardSample),传统方法是通过研究训练好的模型进行挑选,而本文提出一种能在训练过程中进行挑选困难的在线挑选方法。方法为,在mini-batch中,对每个样本的损失进行排序,挑选前70%较大的损失对应的样本作为困难样本,同时在反向传播时,忽略那30%的样本,因为那30%样本对更新作用不大。
代码实现:
2016年,Wu等人研究了CNN在人脸关键点定位任务中到底学习到的是什么样的特征,在采用GMM(GaussianMixtureModel,混合高斯模型)对不同层的特征进行聚类分析,发现网络进行的是层次的,由粗到精的特征定位,越深层提取到的特征越能反应出人脸关键点的位置。针对这一发现,提出了TCNN(TweakedConvolutionalNeuralNetworks)[8],其网络结构如图所示:
上图为VanillaCNN,针对FC5得到的特征进行K个类别聚类,将训练图像按照所分类别进行划分,用以训练所对应的FC6K。测试时,图片首先经过VanillaCNN提取特征,即FC5的输出。将FC5输出的特征与K个聚类中心进行比较,将FC5输出的特征划分至相应的类别中,然后选择与之相应的FC6进行连接,最终得到输出。
作者通过对VanillaCNN中间层特征聚类分析得出的结论是什么呢?又是如何通过中间层聚类分析得出灵感从而设计TCNN呢?
作者对VanillaCNN中间各层特征进行聚类分析,并统计出关键点在各层之间的变化程度,如图所示:
从图中可知,越深层提取到的特征越紧密,因此越深层提取到的特征越能反应出人脸关键点的位置。作者在采用K=64时,对所划分簇的样本进行平均后绘图如下:
2017年,Kowalski等人提出一种新的级联深度神经网络——DAN(DeepAlignmentNetwork)[10],以往级联神经网络输入的是图像的某一部分,与以往不同,DAN各阶段网络的输入均为整张图片。当网络均采用整张图片作为输入时,DAN可以有效的克服头部姿态以及初始化带来的问题,从而得到更好的检测效果。之所以DAN能将整张图片作为输入,是因为其加入了关键点热图(LandmarkHeatmaps),关键点热图的使用是本文的主要创新点。DAN基本框架如图所示:
DAN包含多个阶段,每一个阶段含三个输入和一个输出,输入分别是被矫正过的图片、关键点热图和由全连接层生成的特征图,输出是面部形状(FaceShape)。其中,CONNECTIONLAYER的作用是将本阶段得输出进行一系列变换,生成下一阶段所需要的三个输入,具体操作如下图所示:
从第一阶段开始讲起,第一阶段的输入仅有原始图片和S0。面部关键点的初始化即为S0,S0是由所有关键点取平均得到,第一阶段输出S1。对于第二阶段,首先,S1经第一阶段的CONNECTIONLAYERS进行转换,分别得到转换后图片T2(I)、S1所对应的热图H2和第一阶段fc1层输出,这三个正是第二阶段的输入。如此周而复始,直到最后一个阶段输出SN。文中给出在数据集IBUG上,经过第一阶段后的T2(I)、T2(S1)和特征图,如图所示:
从图中发现,DAN要做的「变换」,就是把图片给矫正了,第一行数据尤为明显,那么DAN对姿态变换具有很好的适应能力,或许就得益于这个「变换」。至于DAN采用何种「变换」,需要到代码中具体探究。
接下来看一看,St是如何由St-1以及该阶段CNN得到,先看St计算公式:
其中是由CNN输出的,各阶段CNN网络结构如图所示:
该CNN的输入均是经过了「变换」——的操作,因此得到的偏移量是在新特征空间下的偏移量,在经过偏移之后应经过一个反变换还原到原始空间。而这里提到的新特征空间,或许是将图像进行了「矫正」,使得网络更好的处理图像。
关键点热度图的计算就是一个中心衰减,关键点处值最大,越远则值越小,公式如下:
为什么需要从fc1层生成一张特征图?文中提到「Suchaconnectionallowsanyinformationlearnedbytheprecedingstagetobetransferredtotheconsecutivestage.」其实就是人为给CNN增加上一阶段信息。
总而言之,DAN是一个级联思想的关键点检测方法,通过引入关键点热图作为补充,DAN可以从整张图片进行提取特征,从而获得更为精确的定位。
深度学习技术的出现,有效促进了不同尺度和不同任务信息之间的融合,使得信息的结合方式由平面开始向立体方法发展,对于人脸关键点提取模型的发展,具有突出的实际意义。正因为如此,本文对目前人脸关键点检测任务中常用的深度学习方法进行综述。
尽管深度学习方法在人脸关键点检测任务上已经获得了长足的发展,算法性能不断提升,与实际应用的要求也越来越接近。然而,该任务的研究还远未结束,目前还有一些关键性难题亟待解决。在此总结三点:
(1)缺乏统一的方法集成框架。近年来,随着深度学习、回归分析等技术的应用,人脸关键点检测技术的方法模型更为丰富。但若要完全解决关键点检测问题,还需要建立一个统一的综合性方法框架。因此,如果要实现任意情况下的高精度人脸关键点提取,就需要建立一个集成各类情况下最优方法的综合方法框架。
(2)缺少简洁模型。近年来出现的方法正变得越来越复杂、参数越来越多、其所综合利用的信息和技术也越来越繁杂。遵循奥卡姆剃刀原理,过于复杂的模型,必然难以成为最优解决方案.目前的人脸关键点提取研究,迫切需要发展能够以简单清晰的模型和方法解决问题的合理思路。
(3)多变的人脸姿态和遮挡。姿态和遮挡是人脸关键点检测所面临的经典难题,近年来也出现了很多处理这两方面问题的思路和方法,但目前在实际应用中,尤其在实时低图像质量条件下,对于这两类难题的处理还难以令人满意.尤其当姿态发生快速和剧烈改变,以及遮挡比例较大时,现有方法的精度距离实际应用的要求还有较大差距,需要进一步研究和提升。
[1]T.F.Cootes,C.J.Taylor,D.H.Cooper,etal.ActiveShapeModels-TheirTrainingandApplication[J].ComputerVisionandImageUnderstanding,1995,61(1):38-59.
[2]G.J.Edwards,T.F.Cootes,C.J.Taylor.Facerecognitionusingactiveappearancemodels[J].ComputerVision—Eccv』,1998,1407(6):581-595.
[3]CootesTF,EdwardsGJ,TaylorCJ.Activeappearancemodels[C]//EuropeanConferenceonComputerVision.SpringerBerlinHeidelberg,1998:484-498.
[4]DollárP,WelinderP,PeronaP.Cascadedposeregression[J].IEEE,2010,238(6):1078-1085.
[5]SunY,WangX,TangX.DeepConvolutionalNetworkCascadeforFacialPointDetection[C]//ComputerVisionandPatternRecognition.IEEE,2013:3476-3483.
[6]ZhouE,FanH,CaoZ,etal.ExtensiveFacialLandmarkLocalizationwithCoarse-to-FineConvolutionalNetworkCascade[C]//IEEEInternationalConferenceonComputerVisionWorkshops.IEEE,2014:386-391.
[7]ZhangZ,LuoP,ChenCL,etal.FacialLandmarkDetectionbyDeepMulti-taskLearning[C]//EuropeanConferenceonComputerVision.2014:94-108.
[8]WuY,HassnerT.FacialLandmarkDetectionwithTweakedConvolutionalNeuralNetworks[J].ComputerScience,2015.
[9]ZhangK,ZhangZ,LiZ,etal.JointFaceDetectionandAlignmentUsingMultitaskCascadedConvolutionalNetworks[J].IEEESignalProcessingLetters,2016,23(10):1499-1503.
[10]KowalskiM,NaruniecJ,TrzcinskiT.DeepAlignmentNetwork:AConvolutionalNeuralNetworkforRobustFaceAlignment[J].2017:2034-2043.
[11]CristinacceD,CootesTF.FeatureDetectionandTrackingwithConstrainedLocalModels[C]//BritishMachineVisionConference2006,Edinburgh,Uk,September.DBLP,2006:929-938.
[12]LuceyS,WangY,CoxM,etal.EfficientConstrainedLocalModelFittingforNon-RigidFaceAlignment[J].Image&VisionComputing,2009,27(12):1804.
[13]WangY,LuceyS,CohnJF.Enforcingconvexityforimprovedalignmentwithconstrainedlocalmodels[C]//IEEEConferenceonComputerVision&PatternRecognition.ProcIEEEComputSocConfComputVisPatternRecognit,2008:1.
[14]SaragihJM,LuceyS,CohnJF.DeformableModelFittingbyRegularizedLandmarkMean-Shift[M].KluwerAcademicPublishers,2011.
[15]PapandreouG,MaragosP.AdaptiveandconstrainedalgorithmsforinversecompositionalActiveAppearanceModelfitting[C]//ComputerVisionandPatternRecognition,2008.CVPR2008.IEEEConferenceon.IEEE,2014:1-8.
[16]MatthewsI,BakerS.ActiveAppearanceModelsRevisited[J].InternationalJournalofComputerVision,2004,60(2):135-164.
[17]AmbergB,BlakeA,VetterT.OncompositionalImageAlignment,withanapplicationtoActiveAppearanceModels[C]//ComputerVisionandPatternRecognition,2009.CVPR2009.IEEEConferenceon.IEEE,2009:1714-1721.
[18]SmithBM,ZhangL,BrandtJ,etal.Exemplar-BasedFaceParsing[C]//ComputerVisionandPatternRecognition.IEEE,2013:3484-3491.
[19]ZhouF,BrandtJ,LinZ.Exemplar-BasedGraphMatchingforRobustFacialLandmarkLocalization[C]//IEEEInternationalConferenceonComputerVision.IEEEComputerSociety,2013:1025-1032.
[20]CoughlanJM,FerreiraSJ.FindingDeformableShapesUsingLoopyBeliefPropagation[C]//EuropeanConferenceonComputerVision.Springer-Verlag,2002:453-468.
[21]LiangL,WenF,XuYQ,etal.AccurateFaceAlignmentusingShapeConstrainedMarkovNetwork[C]//IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.IEEEComputerSociety,2006:1313-1319.
[22]WeiY.FacealignmentbyExplicitShapeRegression[C]//IEEEConferenceonComputerVisionandPatternRecognition.IEEEComputerSociety,2012:2887-2894.
[23]XiongX,TorreFDL.SupervisedDescentMethodandItsApplicationstoFaceAlignment[C]//ComputerVisionandPatternRecognition.IEEE,2013:532-539.
[24]TangX,WangX,LuoP.Hierarchicalfaceparsingviadeeplearning[C]//IEEEConferenceonComputerVisionandPatternRecognition.IEEEComputerSociety,2012:2480-2487.
[25]WuY,WangZ,JiQ.FacialFeatureTrackingUnderVaryingFacialExpressionsandFacePosesBasedonRestrictedBoltzmannMachines[C]//ComputerVisionandPatternRecognition.IEEE,2013:3452-3459.
[26]ZhangJ,ShanS,KanM,etal.Coarse-to-FineAuto-EncoderNetworks(CFAN)forReal-TimeFaceAlignment[C]//EuropeanConferenceonComputerVision.Springer,Cham,2014:1-16.
[27]WangN,GaoX,TaoD,etal.FacialFeaturePointDetection:AComprehensiveSurvey[J].Neurocomputing,2017.
[28]LearnedmillerE,LeeH,HuangGB.Learninghierarchicalrepresentationsforfaceverificationwithconvolutionaldeepbeliefnetworks[C]//ComputerVisionandPatternRecognition.IEEE,2012:2518-2525.
个人介绍:
余霆嵩,广东工业大学研三学生,研究方向:深度学习,目标检测,图像分类。