2019/07/22 14:26

爱奇艺多模态人物识别挑战赛TOP3团队经验分享：明确目标，奋力前行

一、团队介绍

“一个名字”团队由来自南京大学R&L实验室的四位成员——董传奇、顾峥、黄中豪以及季雯组成，指导老师为霍静。在比赛过程中，成员间互相交流，在github上共同协作，最终取得0.8986的成果，排名第三。其代码现已在github上进行开源，开源地址为https://github.com/LegenDong/IQIYIVIDFACE_2019。

二、团队方案

iQIYI多模态挑战赛是一个针对视频中人物所展开的检索任务，需从视频数据集中检索到和每一个类别相对应的视频片段，为了评估检索的性能，iQIYI官方使用了平均精度（MAP）作为评估方式，如下所示。

iQIYI多模态数据集中总共有将近20W视频片段，由10034位人物组成，在每一段视频中只有一个主要人物，同时官方提供了人脸特征、头部特征、身体特征以及语音特征，但是官方提取的特征并没有进行对齐以及fine-tune等操作。

我们最开始希望可以重新提取在挑战赛中最重要的人脸特征，但是由于这次比赛的测试过程需要在官方提供的docker环境中完成，如果重新进行人脸的对齐与特征提取，时间成本过高，因此在最终的方案中我们使用了官方提供的人脸特征，同时在时间成本可以接受的前提下提取了场景特征作为辅助。

该团队的方案主要可以分为三部分，包括视频特征融合模块、多模态特征融合模块以及最终的模型集成模块，下面对这三部分分别进行详细的介绍。

1、视频特征融合

由于视频中存在一定的噪音，该团队参考了DANet中的Channel Attention设计其模块的第一部分，这个模块通过度量不同帧特征之间的相似性，达到增强相似特征、抑制离群特征的作用，其网络结构如下：

在等到了新的特征后，如何从多帧中得到有效的表示的问题亟待解决，于是参考了NAN网络中的设计，使用CNN提取视频中多帧人像的特征，之后使用聚合模块对所有帧的特征向量进行学习累积，其结构如下图所示。实验结果表明，这种方法优于质量分数加权平均等手工设计的方法。

在损失方面，该团队将Additive Angular Margin Loss和Focal Loss结合起来作为损失计算方式，但由于Additive Angular Margin Loss的过程中会将特征进行归一化，特征会失去自己的模长信息，而模长信息又与质量分数紧密相关。因此，该团队采取将分数信息与归一化后的特征进行再拼接，从而再次引入这一部分信息的方案。

2、多模态特征融合

人脸、头部等特征在低质量视频中的效果都比较差，因此该团队提取了场景特征进行辅助判断。其基本模型是SE-ResNeXt，在ResNet的基础上增大了基数，并引入了注意力机制。在训练过程中，每一段视频采样一帧，使用余弦退火算法训练20个epoch。在测试过程中，也同样对每一段视频采样一帧，以此作为视频特征。

得到了上述的场景特征后，将这个特征降维至128维，然后和视频人脸特征拼接起来，通过三层感知机得到最终的结果，如下图所示：

3、模型集成

模型集成是竞赛中常见的方法之一。由于在数据集中，许多视频仅仅只有一两段视频，使用Bagging会造成大量的ID缺失，平均90%采样会造成160个ID的缺失。

在协同训练中，如果不同的特征可以对同一事物进行多角度的描述，那么就有可能集成针对不同特征的弱分类器而得到一个更强的分类器。而由于深度特征往往都是冗余的，这就意味着即使丢弃特征中的某些维度的数值，特征仍有一定的判别性。因此，可以在特征的层面上对数据集进行分割。比如下图中白色的部分就是舍弃的特征，绿色的部分则是选择的特征子集，然后使用得到的特征子集分别训练一个子模型，集成得到最终的模型。

对于没有人脸的视频，使用场景的预测结果作为最终的预测结果；而对于质量分数最低的1%的视频，则将多模态预测结果和场景预测结果进行加权，得到最终结果。

三、经验总结

对于参赛者而言，首要工作是明确任务，才能更好地开展后续工作；其次，对于数据的分析亦非常重要，没有对数据的充分分析，就无从知晓应该引入什么样的方法；快速并且高质量地实现想法在竞赛中更是不可或缺的。

在比赛的前期，团队应该更加注意数据集的理解和新方法的探索，而不要过早沉溺于调参和寻找trick，否则到了比赛后期，时间紧张，一个好的想法往往来不及实现或进行更多的调试。

四、参考文献

[1] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009.

[2] J. Deng, J. Guo, N. Xue, and S. Zafeiriou. Arcface: Additive angular margin loss for deep face recognition. arXiv preprint arXiv:1801.07698, 2018.

[3] J. Fu, J. Liu, H. Tian, Z. Fang, and H. Lu. Dual attention network for scene segmentation. arXiv preprint arXiv:1809.02983, 2018.

[4] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.

[5] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7132–7141, 2018.

[6] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár. Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988, 2017.

[7] I. Loshchilov and F. Hutter. Sgdr: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983, 2016.

[8] J. Yang, P. Ren, D. Zhang, D. Chen, F. Wen, H. Li, and G. Hua. Neural aggregation network for video face recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4362–4371, 2017.

爱奇艺技术产品团队

爱奇艺做一家以科技创新为驱动的伟大娱乐公司，用大数据指导内容的制作、生产、运营、消费。并通过强大的云计算能力、带宽储备以及全球性的视频分发网络，为用户提供更好的视频服务。

入门多模态视频人物识别智能文娱多模态学习计算机视觉

2 2

相关数据

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中，我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。数据通常包含噪音，错误，例外或不确定性，或者不完整。错误和噪音可能会混淆数据挖掘过程，从而导致错误模式的衍生。去除噪音是数据挖掘（data mining）或知识发现（Knowledge Discovery in Database，KDD）的一个重要步骤。

来源：Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题，其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射（projection）。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归（principal component regression）和偏最小二乘法（partial least squares）。

来源：机器之心