Moment作者

视频场景下的自然语言处理应用

作者介绍:Moment, 2016年至今任职于爱奇艺技术产品中心-搜索广告部,主要负责自然语言处理(NLP)和商业系统的研发和管理工作。博士毕业于中科院自动化所自然语言处理方向,先后在日本ATR研究所、日本情报通信研究机构(NICT)、英国爱丁堡大学(短期访问)和索尼中国研究院担任自然语言处理语音识别机器翻译等研发工作。曾在EMNLP、COLING、CIKM、INTERSPEECH、ICASSP、Computer Speech & Language等国际会议和期刊发表文章20余篇。
摘要:自然语言处理(Natural Language Processing,简称NLP)是人工智能的一个重要分支,它研究能实现人与机器之间用自然语言进行有效通信的各种理论和方法,即让机器“懂”人类的语言。

爱奇艺是一家以科技创新为驱动的娱乐公司,致力于为用户提供丰富、高清、流畅、和智能化的专业视频体验。

在爱奇艺的视频场景下,自然语言处理的使命即是让机器更好地理解娱乐相关的视频/图文内容,从而为用户提供智能化的服务。

本文简介爱奇艺自然语言处理团队专注在哪些nlp课题以及取得的进展,并举例说明我们的使用场景。

一.引言 

NLP涉及的面非常广,包括语音识别 / 合成、信息检索信息抽取问答系统机器翻译、对话系统等。

在爱奇艺,自然语言处理团队专注于以下7个方向:

1.词法分析知识图谱

2.打标签(Tag Recommendation)

3.查询理解

4.热门事件发现和聚合

5.语音助手

6.舆情分析

7.电影票房和电视剧VV(video view)预测

从而实现更好地理解视频/图文内容,用户的搜索意图和用户的评论,为搜索、推荐、广告、社交、舆情监控的智能化提供基础服务和技术支持,并探索nlp的直接应用业务。

二.词法分析知识图谱 

我们的词法分析作为文本分析的基础服务,已广泛引用于多个亿级流量的业务线。        

图1:词法分析平台

图1显示了现阶段的词法分析功能:

分词、词性标注、词权重、新词发现、实体识别/链接功能等,采用的技术主要包括CRF、L2R、CNN、CNN+CRF、LSTM+CRF。

其中,实体识别是词法分析中的重点也是难点。除了通用的人名、地名、组织机构名的识别,我们还特别关注娱乐领域的影视剧名、游戏名、文学作品名、游戏解说名等的识别。

上述的娱乐领域的实体识别挑战较大,主要包括:

1. 目前工业界和学术界还鲜有相关工作的介绍。

2. 实体本身的规律性弱。任何一个词都有可能是实体的一部分,例如“杀破狼”、“西游记之孙悟空三打白骨精”等;

3. 实体词与实体词之间、以及实体词与普通词之间的歧义性大,如电影“十二生肖”、“功夫”、“长城”、电视剧“解密”,既是普通名词也是实体词,“非诚勿扰”即可能是电影,也可能是综艺或普通词。

4. 缺乏训练语料

我们首先在训练语料的准备上做了大量的工作,包括:

(1)使用启发式规则自动构建了100万句弱标注的视频语料。

(2)人工方式标注了几万句的精准标注的视频语料。

在实体词典的构建上,使用数据挖掘技术实时地从全网挖掘影视剧名/角色名/艺人名/游戏名等领域词典。

算法上不仅在传统的CRF模型上做了很多的尝试,也在深度学习方法进行了一些探索。CRF vs. CNN vs. LSTM等对比实验表明,如图2所示的双层CNN+CRF模型获得较优的性能。在2个不同的测试集上,我们的模型对剧名识别的f-score分别是82.1%和72.6%。

实体识别/链接服务除了作为底层的nlp基础服务应用于各业务线,我们也开发了多个直接应用业务。

1.通过实体识别进行泡泡圈子的内容分发:即从图文/视频/图集中的文本中准确地识别明星、剧名;对识别出的明星、剧名按照和内容的匹配度进行重要性打分、并根据重要性将内容自动分发到对应的明星圈子和影视剧圈子。

2.通过实体识别将feed流中的视频和电影票(图3左)、游戏(图3中)、电商(图3右)、漫画和文学等垂线业务进行关联。可在不损伤用户体验的情况下,提高对垂直业务线的导流,进而实现一键购买电影票、下载游戏和下单电商等。

图3:基于实体识别/链接的feed流视频与垂线业务的关联

在视频领域知识图谱,我们可以分析出视频与视频、视频与人、人与人,人与视频的关系。再结合精确的语义分析、实现了用户查询的精确回答(图4)。未来我们还要继续挖掘游戏、文学等更多垂直领域的实体属性和实体关系。

图4:基于知识图谱问答系统

三. 打标签 

标签是从对内容(视频、图文、或图集)的描述(标题、摘要、或正文)中提取可表示内容的一种元数据(关键词或术语)、有助于更好的个性化内容推荐、更高效的内容编辑。

标签可以是一个封闭的预定义分类体系(我们称之为类型标签),也可以是从内容中提取的开放的关键词集合(内容标签)。

标题

                          范爷辣眼睛新街拍, 难道减肥真的可以无止尽吗?

内容标签

                范爷 (http://www.iqiyi.com/lib/s_200044305.html)街拍  减肥

类型标签娱乐  明星  内地

表1:视频描述(标题)及其类型和内容标签

类型标签采用的是基于SVM的分类算法,特征包括字的n-gram、词的n-gram、主题语言模型特征、词典特征等。

传统的内容标签抽取方法分二步走:

1.基于启发式规则的候选标签生成。

2.基于无监督(TextRank,ExpandRank)或有监督(Maui,CeKE)算法的候选打分,并输出概率最大的作为系统标签。

按我们经验和对业务的了解,我们将基于打分或者分类的内容标签任务转化为一个序列标注任务,并采用CRF模型。该算法具有:

01.可以抽取任意长度的词组作为标签

02.不再需要单独的候选抽取模块

03.可以获得最佳的性能

目前、标签服务已经应用于视频推荐、爱奇艺头条、泡泡、视频编辑等业务等。

四.查询理解 

查询理解包括个性化的默认搜索词查询补全查询纠错查询分类等。

其中个性化的默认搜索词是在用户发生搜索行为前,通过用户在爱奇艺的历史行为猜测用户可能感兴趣的query。其本质是一个推荐系统,方法是计算用户画像和query的相似度。优秀的个性化默认搜索词可以增加用户黏性,提高用户体验,进一步地引导用户行为。

查询补全是在用户发生搜索行为的过程中,通过用户不完整的输入(我们称之为token)与query的匹配度,query的点击量、专辑与否、freshness等提示用户一些可能感兴趣的query,提高搜索效率。

五.语音助手 

我们的语音助手已落地在爱奇艺VR一体机和爱奇艺APP上。通过VR语音助手,可以实现和VR一体机的虚拟女友Vivi进行40多种交互,包括视频播放/搜索、天气查询、和Vivi的互动、VR设备设定(亮度调高、音量调低)等。

在APP里,语音助手可实现便捷地购买VIP会员(我要买爱奇艺VIP会员),下载游戏(我想下载爱奇艺斗地主游戏)、直接观看电视剧的某一集或电影等。

图5:APP上的语音助手

语音助手简单来说,即是把用户说的话(utterance),转换为结构化的语义表示,从而执行相应的动作(action),分为如图6所示的3个大模块:语音识别语音识别纠错、语义解释。

语义解析模块又进一步分为意图分类(intent classification)和要素抽取(slot filling)。

需要说明的是,第二节介绍的词法分析,特别是影视剧名识别,和第四节介绍的基于爱奇艺全网搜索的查询纠错让我们的语音助手鲁棒性,特别是在影视娱乐、游戏领域得到较大的优化。

图6:语音助手框架图

六.舆情分析 

舆情分析可直观反映观众对剧和艺人的关注焦点和态度,为版权方和自制剧的内容运营、内容营销策略制定、营销趋势把握提供参考

我们使用自然语言处理中的句法分析技术,从UGC内容(用户评论、弹幕、泡泡圈子)中抽取评价对象、评价词以及情感色彩,从而形成对用户观影评论、社交互动的多维度结构化舆情分析。

图7是对电影“战狼2”从视觉效果场面演员三个维度的舆情分析结果。

图7:电影“战狼2”的部分舆情分析结果


带情感的热词分析效果可以访问爱奇艺指数网站http://index.iqiyi.com/,其中词的大小反应提及频度, 词的颜色反映情感色彩

七.电影票房和电视剧VV预测 

无论是票房还是VV的预测,都面临很大的挑战,包括:

01、提前时间长(提前1年 / 半年等), 可获取的信息有限

02、上线前影响因素较多 (如同期影片、突发事件)

03、训练样本少(少于1000部)

04、站内外多个数据源的数据融合、清洗等

基于大数据机器学习算法,我们对电影票房、电视剧VV(video view)、综艺VV等提前60天、180天、360天等多个时间窗口预测,为版权剧采购立项、自制剧立项、广告售卖等提供科学的数据支撑。

为获得较好的性能,我们在数据清洗和特征工程上做了很多尝试。最后采用了包括时间类, 题材类, 播放平台和方式类, 指数类, ip类, 前作类、趋势类等100多维特征、并对丢失特征的补全和部分特征的变换。

模型上对比了线性模型, SVM, 随机森林, GBDT, DNN, stacking集成方法等。

在最近的90部版权电视剧上最优的R2准确率为85%。vv超10亿的头部剧预测误差在30%以内的占67%,误差在50%以内是100%。

图8是部分剧的预测vv与真实vv的比较。

图8:部分头部版权剧提前180天、60天

预测值和真实值的对比

八.总结 

基于用户弱标注和人工精准标注数据、使用机器学习深度学习自然语言处理技术更好地理解视频、理解用户,从而让搜索、推荐、数据挖掘更智能,为用户提供智能化的专业视频体验。

接下来,我们要进一步优化上述功能模块,并拓展在视频场景下的更多应用。

在算法上,将进一步探索更有效的深度学习模型、文本和图像的融合、迁移学习等提高系统的性能。

爱奇艺技术产品团队
爱奇艺技术产品团队

爱奇艺做一家以科技创新为驱动的伟大娱乐公司,用大数据指导内容的制作、生产、运营、消费。并通过强大的云计算能力、带宽储备以及全球性的视频分发网络,为用户提供更好的视频服务。

理论NLP
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

查询理解技术

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

文本分割技术

文本分割是将书面文本分割成有意义的单位的过程,如单词、句子或主题。这个术语既适用于人类阅读文本时使用的心理过程,也适用于计算机中实现的人工过程,计算机是自然语言处理的主题。这个问题并不简单,因为虽然有些书面语言有明确的词界标记,例如书面英语的单词空间和阿拉伯语独特的最初、中间和最后的字母形状,但这种信号有时是含糊不清的,在所有书面语言中都不存在。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

词法分析技术

词法分析是计算机科学中将字符序列转换为标记序列的过程。进行词法分析的程序或者函数叫作词法分析器,也叫扫描器。词法分析器一般以函数的形式存在,供语法分析器调用

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~