梁大为作者

爱奇艺短视频打标签技术解析

写在前面

最近几年出现了很多以短视频的创作和分发作为主打的手机应用软件,这极大地丰富了文本和图像之外的信息创作和分发方式。这些短视频应用自从问世以后,便迅速地占领了市场,得到了广大用户的青睐。目前,短视频正逐渐成为互联网上的一种重要的信息传播方式,由此产生了大量的短视频数据。

为了更好地利用短视频数据,提升短视频的创作和分发效果及效率,需要为短视频打上各种有用的标签,这些标签可以作为短视频所记录的内容的概括和总结。以此为基础,推荐系统或搜索引擎就可以利用短视频标签为用户提供精准的短视频推荐或搜索服务了。

为了推动视频理解的技术进展,2016年谷歌发布了目前业内最大的视频数据集YouTube-8M,并基于此在2017年和2018年举办了两届视频理解挑战赛,挑战赛的目标是在谷歌给定的训练数据以及预先提好的音视频特征上设计并训练机器学习模型,以求在测试集上达到最佳的性能。以2018年的挑战赛为例,谷歌发布的视频数据共计600多万条,包含的标签共计3800多个,吸引了来自全球40多个国家和地区的390多支队伍参赛。这个比赛具有很大的挑战性,所有标签的标注都是视频级别的,也就是我们只知道这个视频中有给定的标签,但是,我们并不知道它在视频中出现的具体时间段。我们针对爱奇艺短视频打标签的解决方案便是源于对这两次竞赛自研的神经网络模型。

技术分析

在预先提好的音视频特征基础上设计神经网络模型进行打标签的问题,可以归结为设计一个有效的音频和视频特征聚合模块的问题,这里所谓聚合就是将若干个特征向量组成的矩阵变成一个向量,从而可以输入任意的分类器进行分类。

我们针对音频和视频特征聚合采用了相似的处理流程,并在最后对音频和视频的聚合结果进行融合,然后输入混合专家神经网络进行分类并输出标签。以视频特征聚合为例,视频首先通过采样变成了若干张图像,然后对每张图像提取一个固定长度的特征向量。我们分别考察了特征向量的不同分量的重要性以及不同的特征向量的重要性,提出了基于门控和注意力机制神经网络聚合模块,简称为门控注意力神经网络,该模块的所有参数可以通过反向传播算法学习得到。

特征向量的不同分量的重要性主要是通过将一个视频的所有特征向量进行时序平均池化生成一个池化向量,并将其输入一个两层的神经网络,第一层的神经元数目小于池化向量的元素数目,这构成了一个瓶颈结构,这个两层的神经网络的输出经过Sigmoid函数激活后逐点地乘以视频的每个特征向量的不同分量,这个结构被称为瓶颈门控,通过学习可以自动地得到特征向量每个分量的重要性。

不同的特征向量的重要性是通过注意力机制实现的,通过引入若干个可学习的注意力向量,对于每个注意力向量我们可以得到每个特征向量的权重,然后将特征向量进行加权平均得到一个池化向量,最后将这些池化向量拼接起来就可以得到视频的所有特征向量的聚合结果。

案例

下面我们给出在姜饼短视频上采用我们研发的模型打标签的结果,如下面的图片所示。这里的每一张图片来自一段15秒的短视频的截图,我们把打出的标签以及置信度叠加到了图片上。我们的打标签模型可以打出实体类标签,比如,宠物和美食;可以打出人物类标签,比如,萌娃;可以打出动作类标签,比如,舞蹈;可以打出时尚类标签,比如,美妆;还可以打出技术流特效这种标签。这里仅举了几个例子,实际上我们的模型可以涵盖姜饼短视频的几十种类型标签。

效果说明

我们研发的单个神经网络模型在2017年YouTube-8M挑战赛的测试集上领先于最佳单模型NetVLAD达到0.9个百分点GAP(Global Average Precision)。2018年的YouTube-8M挑战赛增加了模型大小的限制,要求提交的模型解压缩后小于1GB,并且可以被TensorFlow的API直接读取。我们扩展了针对2017年挑战赛设计的模型,提出了一种多分支特征聚合方法,该方法在2018年的YouTube-8M挑战赛的测试集上领先于两个并列的最佳单模型NeXtVLAD和谷歌最新版本的DBoF达到0.3个百分点GAP,并且是唯一一个GAP超过88%的单模型。

针对上面介绍的模型,我们进一步加入了文本特征,文本特征来自于标题经过神经网络处理后的固定长度的向量。通过融合音视频和文本特征我们的打标签模型的性能可以得到进一步的提升。目前短视频打标签模型已经在公司内部的姜饼短视频、信息流等业务中落地,覆盖上万种高质量内容标签和几十种类型标签,每天持续而稳定地提供短视频打标签服务。

总结/延伸

我们针对弱标注下的短视频打标签这个问题进行了深入研发,得到了几种神经网络模型,取得了业内性能领先的短视频打标签单模型,申请了若干项中国发明专利,并成功地在公司的几个业务中落地。但是现在的技术只输出了视频级别的标签,对于更长的视频可能会有需求希望能够定位到标签出现的具体时间段,未来可以扩展相关技术不仅实现打标签,还要实现标签的时间段定位。

未来规划

短视频应用方兴未艾,可以预见的是未来将会有大量的短视频数据被创造出来并发布到互联网上,将短视频打上标签是活用短视频数据的主要途径之一。我们针对短视频打标签这个问题进行了深入的研发,并取得了一些结果,但是,仍然有很多问题亟待解决。

第一,我们目前的模型只覆盖了上万种高频的标签词,但是,这些标签词只能代表短视频内容的一部分,未来还需要对标签词的数量进行扩展,以覆盖尽可能多的视频内容;

第二,我们研发的模型受限于底层提取音视频和文本特征的神经网络的性能,未来还需要研发性能更好的提取音视频和文本特征的神经网络模型;

第三,我们无法期望仅用一个模型解决所有的短视频打标签问题,未来我们会针对现有模型无法很好处理的标签类型研发更好的短视频打标签模型。

爱奇艺技术产品团队
爱奇艺技术产品团队

爱奇艺做一家以科技创新为驱动的伟大娱乐公司,用大数据指导内容的制作、生产、运营、消费。并通过强大的云计算能力、带宽储备以及全球性的视频分发网络,为用户提供更好的视频服务。

工程推荐系统标签预测短视频
2
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

反向传播算法技术

反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

图像提取技术

图像提取包括图像的特征检测和特征提取过程。 特征检测是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征检测的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。 特征被检测后它可以从图像中被提取出来。这个过程可能需要许多图像处理的计算机。其结果被称为特征描述或者特征向量。 低层次的特征提取方法包括:边缘检测、角检测、区域检测、脊检测等,还有曲度检测以及运动检测。 高层次的特征提取方法包括:1.固定形状匹配方法如阈值、模板匹配和霍夫变换等;2.灵活变形分析方法。 进一步特征提取与降维有关,常用的降维技术有主成分分析法、独立成分分析法、等距特征映射等。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

推荐文章
暂无评论
暂无评论~