FACE ANTI-SPOOFING VIA HYBRID CONVOLUTIONAL NEURAL NETWORK

xungeer29 2018-07-14 20:26
关注文章
提交模型

基于混合卷积神经网络的人脸反欺诈

description

摘要

因为人脸识别系统的成功应用,人脸反欺诈技术已经发展了好几年。目前的人脸反欺诈主题中的方法仅使用人脸的全部区域,但是,人脸不同的部分有不同的特征,全脸模型可能削弱了特定部位的差异。因此,训练针对人脸不同部分的特殊模型可以提高反欺诈的性能。因此,在本篇论文中,我们提出了一种针对部分人脸的混合卷积神经网络(CNN)进行人脸反欺诈的方法。我们的主要工作可以总结为以下几点: • 将人脸分为几个部分; • 基于不同的部分,训练针对每个部分的相应CNN模型,构成混合CNN; • 级联混合模型的最后一层来训练SVM分类器; • 利用SVM对真伪脸进行判别。 我们在两个公共可用数据库Replay-Attack和CASIA中测试了我们方法的有效性,实验表明,我们所提出的方法相对于当前最新方法可以获得满意的结果。

1. 引言

随着计算机视觉技术的成熟,在过去20年里,人脸识别被成功应用于人脸特征识别。尽管许多生物特征在人脸识别的准确率上获得了相当好的结果,但像在多个近期研究[1]中说明的那样,这些方法还是容易收到多种方式的欺诈攻击。人脸欺诈攻击发生于当有人想使用将假的人脸展示给识别装置(相机),以此通过人脸识别系统时。基于虚假人脸的材质,人脸欺诈攻击方式可以分为 • print attacks 打印照片攻击 • replay attacks 视频重复播放攻击 • 3D mask attacks 3D面具攻击 Print attacks 是使用用户的面部打印图像,Replay attacks 是运用用户的面部视频,3D mask attacks 需要复杂的生产过程和高昂的代价,需要使用看起来类似人体皮肤的软塑料。 目前对于人脸欺诈攻击的研究主要集中在整个人脸区域的分析[2][3],因此忽略了面部不同部分差异,这部分差异对于区分真实人脸与虚假人脸很有帮助。尽管目前的方法对于特定的数据集可以获得非常好的结果,但他们无法在其他数据集上获得相同或近似的效果[4][5]。从人脸识别的角度来看,在多个人脸特殊部位上训练的模型可以提高识别的准确率[6][7]。这揭示了特定局部模型可以比使用整张面部的模型提取更多的细节信息。人脸反欺诈的本质就是识别真假脸,这与人脸识别关系密切。人脸反欺诈的研究人员很少,将研究重点集中于划分人脸成部分的研究者更少。为了探索不同人脸部位的有效性,我们将整个人脸分为多个部分。 另外,随着显卡和大数据的获得途径的发展,深度学习已经取得了令人满意的结果。尤其是在人脸识别领域,CNN优于之前提出的所有方法,并且取得了超越人类的表现[8]。基于CNN可以获得最好的效果,在本篇论文中,我们使用人脸不同的部分训练了混合CNN,该模型由在不同的人脸区域上训练的多个特殊CNN组成。我们工作的贡献是: • 首次使用训练的混合CNN来检测虚假人脸 • 成功将人脸识别的思想转移到人脸反欺诈 • 有效结合整张面部的结构信息和面部局部的细节信息 • 提升了在不同数据集上的鲁棒性 我们在Replay-Attack 和 CASIA数据集上验证混合CNN模型。实验表明,相比于当前的最新方法,我们的混合CNN有更好的鲁棒性,并且在单个数据集上Equal Error Rate(EER)低于基于方法[9]的IQA将近12倍。

2. 基于人脸反欺诈的混合CNN

人脸欺诈攻击可以看作对面部再捕获的过程。因为一些影响因素,例如光照和硬件缺陷,导致虚假人脸与真实人脸有本质的区别。例如,printed atttack的分辨率较低,the replay attacks总是出现屏幕的反光。如果我们训练基于整张面部区域的模型,该模型对局部信息变化就不够敏感。在这种情况下,我们需要能够捕捉真假脸之间的细微特征的特殊模型。此外,深度学习已经成功应用于计算机视觉,特别是在人脸识别领域。因此,在我们的工作中,我们提出混合CNN来检测虚假人脸。我们方法中的主要思想总结如下: • 训练一个基于不同人脸区域的混合CNN模型 • 将混合CNN最后的全连接层级联以构成特征 • 将特征输入给SVM分类器 混合CNN的主要架构如Fig.1所示。

description

2.1 训练混合CNN

CNN已经被用于人脸反欺诈[10][11]。在之前的工作中,作者使用已有的人脸反欺诈数据库训练他们的CNN模型,但是,他们的反欺诈数据集太小,而且是在可控的特定环境下采集的,因此,很难训练深度模型。另外,他们将整张人脸图像放入深度学习框架,不考虑人脸不同区域有不同的结构的事实。为了克服先前提到的问题,我们提出了一种新的基于预训练VGG-face模型的人脸反欺诈方法。该VGG-face模型是为了人脸识别而设计的,该模型的结构在表I中给出。

description

为了获得混合CNN,我们应该将整张人脸划分为K=p.q部分,每个部分记为{Ru – Cu | u=1,2,…,p; v-1,2,…,q},p和q分别为行和列分割的数量。然后使用这K个部分人脸区域对VGG-face模型分别进行微调。考虑到人脸的整体结构,我们使用整张人脸图像对CNN进行微调。Eq.1显示的softmax损失函数作为微调VGG-face时的代价函数。

description

其中,i是训练样本的索引,n是训练样本的数量, 是第i个样本的预测向量,v是类别数目,yir是第i个样本的预测值。最后,我们获得K+1个CNN模型,记为 ,m0是整张面部的CNN模型,mk是面部第k个部分的CNN模型。

2.2 级联最后的全连接层

对于整张面部图像 ,我们首先将其分为K个部分,即 ,然后将全面部图像与局部面部图像当作K+1个CNN模型的输入。然后,我们提取并级联每个模型的最后一层,description ,最后,训练集 description组成特征矩阵F,如Eq.2所示。

description

索引i是X中训练样本的标号,每一列F表明一个训练样本 特征的级联。

2.3 分类

在获取最后的全连接层的深度特征后,我们使用SVM进行人脸反欺诈分类。在本篇论文中使用了LIBLINEAR工具[13]。

3 实验数据和步骤

3.1 实验数据

在本篇论文中,我们在Replay-Attack和CASIA这两个公开人脸反欺诈数据集上进行多次实验验证我们提出的方法,关于这两个数据集的描述如下: Replay-Attack:该IDIAP Replay-Attack数据集由50个人的1300段真实视频和尝试攻击视频组成,数据集被分为训练、development和测试三个主题不相关的子集(分别占15,15,20)。真实视频是在光照不同、条件不好但可控环境下拍摄的,包含重播视频攻击和打印照片攻击这两种攻击方式,在重播视频攻击中,使用iPhone 3GS和iPad播放真实对象的高质量视频和图像。在打印照片攻击中,使用A4纸打印高质量人脸图像,然后使用相机拍摄。 CASIA:该CSSIA人脸反欺诈数据集由50个人的600段视频组成,被分为训练集和测试集两个不相关的子集(分别占20,30),包含video replay attacks、wraped attacks和cut attacks三种攻击方式。真实和攻击数据是使用低、中、高三种不同分辨率的相机拍摄的。

3.2 实验步骤

为了评估性能,我们遵守这两个数据集的所有相关协议。对于每个数据库,我们使用训练集对VGG-face模型进行微调,使用测试集评估性能。在CASIA数据集中,结果评估使用Equal Error Rate。在Replay-Attack数据集中提供了development集来调节模型参数,因此,实验结果是就development集上的Equal Error Rate(EER)和在测试集上的Half Total Error Rate(HTER)来报告的,HTER公式如Eq.3所示。在我们的实验中,我们报告了这些性能: • 人脸的不同区域对于反欺诈的影响 • 级联深度特征的结果

description

其中,D表示使用的数据集,k是在EER上计算的数值,FRR(k,D)是对真实人脸的错误拒绝率,FAR(k,D)是虚假人脸的错误接受率。 在本篇论文中,人脸被分为K=4和9份,这意味着人脸被分为(R1-C1,R1-C2,R2-C1,R2-C2)四部分或分成(R1-C1,R1-C2,R1-C3,R2-C1,R2-C2,R2-C3,R3-C1,R3-C2,R3-C3)九个部分。每个CNN模型最后的全连接层的维数是4096,当我们级联最后的全连接层时,F的维数将会达到40,000。相比于训练集的数量,很容易使SVM过拟合,因此我们使用主成分分析(PCA)减少特征维度。此外,捕捉面部图像的外貌和运动偏差,对两个数据库同一时间窗口内的特征取平均。

4 结果与讨论

4.1 人脸不同区域的影响

我们使用两个数据库的全部性能指标来说明人脸不同部分的影响,结果表II和表III所示。表II显示了四部分人脸的影响,对于Replay-Attack数据集,R1-C2部分人脸对虚假检测的影响最大,HTER和EER的最小值为3.4%,但是对于CASIA数据集,R2-C1部分的影响最大,R1-C2部分的影响最小。表III展示了九分人脸的总体结果,在Replay-Attack数据集上HTER和EER最小分别为4.6%和5.2%,在CASIA数据集上,最小是7.0%,最大是56.0%,最大值是最小值的8倍。比较这两张表,可以看出级联所有脸部区域的结果总是优于单个脸部区域,整张面部的影响小于所有面部区域。

description

对于表II,当级联全部面部和四部分面部区域时,在Replay-Attack和CASIA上的性能激增到HTER=0.5%,EER=2.6%,这也优于九分人脸,因此,我们得到将人脸分为更多部分不是好主意的结论。

description

4.2 所提方法的结果

表IV将我们的方法与当前最新方法进行比较。从表中可以看出,在Replay-Attack数据集上当前最小的EER是0.4%[16],而我们的是0.5%,这已经很接近最好的结果了。在HTER指标上,我们的方法低于之前[16]提出的方法的两倍。特别是在CASIA数据集上,当前最大的EER是32.4%,比我们的方法高了12倍。因此,我们提出的方法在CASIA和Replay-Attack数据集上优于当前最优的方法。

description

5 结论

在我们的工作中,提出了一种基于混合CNN的新人脸反欺诈方法。与之前提出的方法不同,我们的方法是基于VGG-face来识别真假脸,实验表明混合CNN优于当前最新方法。在未来,我们计划在多个其他数据集上评估我们的方法,也评估其他种类的反欺诈任务。

{{panelTitle}}
支持Markdown和数学公式,公式格式:\\(...\\)或\\[...\\]

还没有内容

关注微信公众号