人脸AI技术论文解读系列(一)MTCNN

发布网友 发布时间:3小时前

我来回答

1个回答

热心网友 时间:2小时前

论文题目:Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks(简称MTCNN)

在人脸检测与对齐任务中,MTCNN以其显著性能超越其他对比算法。本文将从论文思想、网络设计、训练策略等方面对MTCNN进行详细解读。

首先,面对不同姿势、光照和遮挡等非条件,人脸检测与对齐面临着巨大挑战。为解决这一问题,论文[1]提出一种级联多任务框架,通过探索任务间关系,显著提高性能表现。框架包含三个深度神经网络级联,采取自粗到细的方式进行人脸预测与位置标定。

整体框架示意图展示了MTCNN的流程:给定输入图片后,通过resize操作构建图像金字塔。三个阶段分别使用P-Net、R-Net和后续阶段输出最终面部标定位置。

阶段1:采用全卷积网络P-Net获取候选框和边界回归框矢量,通过校正候选框并使用非极大值抑制NMS合并高度重合的候选。

阶段2:所有候选进入R-Net中,进一步拒绝错误候选,校正候选框并采用NMS合并。

阶段3:输出5个最终面部标定位置。

网络结构设计采用3x3卷积,包括max pooling(最大值池化),与[2]相比,MTCNN所获结果表现更优。

训练任务包括人脸分类、边界框回归和关键点检测。其中,人脸分类为二分类问题,采用交叉熵损失;边界框回归和标志检测均为回归问题,分别采用欧氏距离和对关键点进行回归。

为提升训练效率,MTCNN引入在线难样本挖掘,即在训练人脸分类器时进行难样本挖掘。在进行前向传播时计算所有样本损失,选择前70%作为难样本,反向传播时仅计算难样本梯度值,忽略简单样本。

实验结果在三个数据集上进行验证,MTCNN性能明显优于其他优秀算法。在Face Detection Data Set and Benchmark (FDDB)、WIDER FACE和Annotated Facial Landmarks in the Wild (AFLW) benchmark数据集上,MTCNN展现出卓越的性能。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com