人脸AI技术论文解读系列(一)MTCNN

发布网友发布时间：3小时前

共1个回答

热心网友时间：2小时前

论文题目：Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks（简称MTCNN）

在人脸检测与对齐任务中，MTCNN以其显著性能超越其他对比算法。本文将从论文思想、网络设计、训练策略等方面对MTCNN进行详细解读。

首先，面对不同姿势、光照和遮挡等非条件，人脸检测与对齐面临着巨大挑战。为解决这一问题，论文[1]提出一种级联多任务框架，通过探索任务间关系，显著提高性能表现。框架包含三个深度神经网络级联，采取自粗到细的方式进行人脸预测与位置标定。

整体框架示意图展示了MTCNN的流程：给定输入图片后，通过resize操作构建图像金字塔。三个阶段分别使用P-Net、R-Net和后续阶段输出最终面部标定位置。

阶段1：采用全卷积网络P-Net获取候选框和边界回归框矢量，通过校正候选框并使用非极大值抑制NMS合并高度重合的候选。

阶段2：所有候选进入R-Net中，进一步拒绝错误候选，校正候选框并采用NMS合并。

阶段3：输出5个最终面部标定位置。

网络结构设计采用3x3卷积，包括max pooling（最大值池化），与[2]相比，MTCNN所获结果表现更优。

训练任务包括人脸分类、边界框回归和关键点检测。其中，人脸分类为二分类问题，采用交叉熵损失；边界框回归和标志检测均为回归问题，分别采用欧氏距离和对关键点进行回归。

为提升训练效率，MTCNN引入在线难样本挖掘，即在训练人脸分类器时进行难样本挖掘。在进行前向传播时计算所有样本损失，选择前70%作为难样本，反向传播时仅计算难样本梯度值，忽略简单样本。

实验结果在三个数据集上进行验证，MTCNN性能明显优于其他优秀算法。在Face Detection Data Set and Benchmark (FDDB)、WIDER FACE和Annotated Facial Landmarks in the Wild (AFLW) benchmark数据集上，MTCNN展现出卓越的性能。

全部栏目

人脸AI技术论文解读系列(一)MTCNN