发布网友 发布时间:3小时前
共1个回答
热心网友 时间:2小时前
论文题目:Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks(简称MTCNN)
在人脸检测与对齐任务中,MTCNN以其显著性能超越其他对比算法。本文将从论文思想、网络设计、训练策略等方面对MTCNN进行详细解读。
首先,面对不同姿势、光照和遮挡等非条件,人脸检测与对齐面临着巨大挑战。为解决这一问题,论文[1]提出一种级联多任务框架,通过探索任务间关系,显著提高性能表现。框架包含三个深度神经网络级联,采取自粗到细的方式进行人脸预测与位置标定。
整体框架示意图展示了MTCNN的流程:给定输入图片后,通过resize操作构建图像金字塔。三个阶段分别使用P-Net、R-Net和后续阶段输出最终面部标定位置。
阶段1:采用全卷积网络P-Net获取候选框和边界回归框矢量,通过校正候选框并使用非极大值抑制NMS合并高度重合的候选。
阶段2:所有候选进入R-Net中,进一步拒绝错误候选,校正候选框并采用NMS合并。
阶段3:输出5个最终面部标定位置。
网络结构设计采用3x3卷积,包括max pooling(最大值池化),与[2]相比,MTCNN所获结果表现更优。
训练任务包括人脸分类、边界框回归和关键点检测。其中,人脸分类为二分类问题,采用交叉熵损失;边界框回归和标志检测均为回归问题,分别采用欧氏距离和对关键点进行回归。
为提升训练效率,MTCNN引入在线难样本挖掘,即在训练人脸分类器时进行难样本挖掘。在进行前向传播时计算所有样本损失,选择前70%作为难样本,反向传播时仅计算难样本梯度值,忽略简单样本。
实验结果在三个数据集上进行验证,MTCNN性能明显优于其他优秀算法。在Face Detection Data Set and Benchmark (FDDB)、WIDER FACE和Annotated Facial Landmarks in the Wild (AFLW) benchmark数据集上,MTCNN展现出卓越的性能。