阿里文娱首次公开!AI 如何对爆款内容未卜先知?

阿里妹导读:文娱内容很难有完整的量化指标体系,内容的复杂性决定了文娱产品的不确定性。我们如何利用AI+大数据能力,建造文娱的内容认知大脑?串联内容全生命周期,实现对内容、流量、宣推等的“未卜先知”,提升对爆款的预测和生产能力?这本《5G+AI 阿里文娱技术实践》会告诉你。


一、文娱产业趋势及技术挑战


文娱内容不像商品有完整的量化指标体系,它是一个复杂的实体,它跟意识形态以及用户体验强相关,对内容进行量化评估和衡量是非常困难的。
 
比如,选角儿。我们不能通过单一指标去衡量一个演员,我们需要综合考量演员的演技、气质、颜值、潜力等与否与某一个角色匹配,并且能生成数据指标,以实现纵横向的对比。另外,导演、主演组盘是否为最优组合,能否成为爆款?这是更加复杂的选择模式问题。今天面临的技术挑战是如何进行知识的抽取、挖掘以及推理,确定什么样的组合是最优解。
 
除上述两个问题,影片的拍摄过程更是一个庞大的系统工程和艺术创作过程。以《长安十二时辰》为例,该片非群演有约1000人,群演有300到1500人,历时7个月拍摄217天。我们参考软件工程行业,软件工程发展了70年,主要研究三个层面:方法论、过程以及工具,然后是如何将三者组合。软件行业的敏捷开发对于软件工程的质量和效率都有非常大的提升,如何将这些理论应用到内容制作产业,让内容制作敏捷起来?
 
内容敏捷即知晓过程对结果造成的影响是什么,并快速地调整内容创作过程,让它更敏捷。但内容行业面临的独有特点“延迟满足”,让用户在内容的某一分钟特别嗨,可能来自于前面的30分钟铺垫在那一分钟爆发了,针对内容的这个特点,我们除了要做基本的知识图谱语义的理解之外,还要考虑如何去做有效的对应分析,如何去做对应的知识抽取等问题。


今天这个问题加剧了,比过去还要复杂。在过去的5到10年里,UPGC加上整个内容的生产量极大的发展,用户的消费分层化、多样化。全民爆款越来越少,用户对内容的需求更加个性化。相应于内容生产端,就需要考虑不同用户群的个性化需求。
 
二、文娱大脑基本框架:内容认知新动力

 
针对上面几大困难,我们今天在做文娱大脑——优酷北斗星智库来解决。我们将所有的内容形式和用户消费的数据都采集下来,将人工智能的技术手段、业务领域的细分理论做整合融合,构建内容认知框架。


内容认知框架分为两部分,内容和用户。其思路就是心理学发展的基本的思路。


1)内容侧:对内容进行理解,包括外延和内涵。外延就是内容的各种基本属性,比如主创阵容、题材类型等;内涵主要研究内容的戏剧理论和视听语言,围绕制作内容的支撑要素,我们用传统的机器学习方式对内容进行理解,再基于戏剧理论和视听语言构造内容的衡量要素。

2)用户侧:分析用户的观看行为。用户行为来自于用户的心理偏好、心理情绪。用户心理偏好、心理情绪来自于生理构造,基于心理学的五大人格理论和用户的观看行为,构建模型建立左边和右边的连接,从而知道创造什么样的内容,用户会有什么样的感受。
 
三、贯穿全生命周期的文娱大脑生产力


基于内容认知框架,我们在内容生命周期的每个阶段都做了具体工作:开播前提供内容评估、艺人挖掘和内容情绪挖掘等能力;在早期为内容评估提供有效的数据支撑;在制作阶段提供现场解决方案,比之前更敏捷的反馈机制;同样在播出后也提供数据支持,实现更好的宣发。


1、IP/剧本分析

上图是《长安十二时辰》的分析示例,我们把已有的剧本作为样本,让机器去学习,识别出剧本的所有角色,把角色直接交互的对白、行为识别出来,再进行社团的划分。《长安》剧本最终划分出来几个群体:反恐防暴小分队以张小敬为中心,唐朝核心管理团队以皇上为中心。通过这种方式快速定位整个剧本的人物和人物关系的展开。

 
2、用户情绪识别与成片情绪挖掘

围绕角色关系,将整个剧本的角色情绪也识别出来,构造成如上的曲线。基于对海量剧本的分析曲线,抽取出各个指标(出镜率、戏份、情绪值等)并形成benchmark,对于之后的每一个剧本进行衡量,相当于对剧本进行一个“体检”。


同样是“体检”的方法,对于《药神》和《长安十二时辰》,我们做了用户情绪的识别、体检的扫描,参考零线的位置。我们发现《药神》几乎都是正向和负向级的,直到最后出现一个正向区间,基本上后期都是以眼泪为主。而《长安十二时辰》的情绪状态比较稳定。对照情绪高低点的具体情节,我们发现,曲线表达的情绪和具体的故事情节是非常相符的。
 
3、情绪强度预测与网络收视率


然后我们拿更多的方式去验证它的合理性,上图抽取《长安十二时辰》的剧集,每集有两条曲线,蓝线是刚才预测的情绪曲线,黄线是播放指数(表示每一秒钟有多少用户在看),通过两条曲线对比,我们可以发现,两条曲线的相关性比较高的将近60%,情绪的高峰、低谷和用户的观看行为状态是吻合的,由此我们就提供了一种能力,基于这种能力对剧本或影片做情绪扫描,实现对影片热度的未播先知,再对比benchmark,帮助制作者更高效的完成制作。

4、用户情感曲线在技术上是如何实现的?

首先,我们把用户观影情绪的表述,映射到认知计算中常用的二维空间表示,也就是Valence 和Arousal。Valence表示情绪正负极性,Arousal表示情感激烈程度;

其次,基于情绪极性跟强度提供一个预测,这个是我们今年产出的论文。近两年,心理学研究的核心观点是为什么用户会感同身受?这来自于前两年的一个理论——静向神经元,所以我们选择场景、表情、动作以及声音作为基本的模型的输入,对模型参数进行学习。

如上所讲,内容产业有强延迟满足的问题,我们通过两层分析来解决长短期满足的问题,除用户情绪分析,我们也做内容角色的情绪识别。通过图片表情识别模型,识别不同题材类型的影片,可以获得不同角色刻画的人物性格。如2004年的《反贪风暴》,时隔十多年,主创人物形象的脸谱还是正向的。上图显示的负面角色情绪以开心、害怕为主,正面形象以悲伤、生气为主,与负面反派的开心正好相对,正面的人一直很沮丧,是一个有些压抑角色形象。

同样,我们分析角色的每秒情绪,形成角色的正负情绪曲线,部分影片的分析结果曲线如上图,不同题材类型的节目会有不同的情绪密度。所以,你想放松的时候,要看的不一定是喜剧,喜剧其实不一定会放松,因为角色的正负向情绪不停交替,由于延迟满足,大脑负荷非常大,需要做长短记忆,反而很多爱情片对大脑的占用相对低。

角色情绪检测是一个分类问题,所以利用人脸landmark对初始图像做识别,生成densemap作为附加通道,和原始图片RGB三通道拼接合并后作为模型输入,这样可以使densemap对应的关键区域权重更大,更容易让模型捕捉关键区域特征;合成的输入送入到Reduced Xception 网络进行特征提取;在loss方面,我们引入了基于SVM的marge loss,提升各情绪类别的类间差距,提升情绪识别的效果,具体如上图。


基于前面对内容的各种理解产生的各种纬度的内容的量化纬度,我们构建了预测模型,可以提前预测出节目的流量走势,如内容认知框架中所讲的,首先对内容进行量化,然后对内容相应的量化纬度进行提前的预测,为业务决策提供辅助支撑。
 
最后,分享我对未来趋势的一些见解。在强人工智能尚遥远的情形下,如何结合机器AI和人工经验将是个永恒主题。一是结合符号学派智能和链接学派智能,建设和完善决策引擎,包括结合人工逻辑规则和可学习数据AI,不确定性分析框架和经久不衰的贝叶斯因果决策,以及神经元化的混合智能计算框架。二是量化的心理学研究也越来越重要,如何结合大数据应用价值非常大。这也是阿里文娱大脑探索的方向。
阿里技术
阿里技术

分享阿里巴巴的技术创新、实战案例、经验总结,内容同步于微信公众号“阿里技术”。

专栏二维码
产业数据挖掘推荐系统大数据技术
1
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

强人工智能技术

强人工智能或通用人工智能(Strong AI或者 Artificial General Intelligence)是具备与人类同等智慧、或超越人类的人工智能,能表现正常人类所具有的所有智能行为。强人工智能是人工智能研究的主要目标之一,同时也是科幻小说和未来学家所讨论的主要议题。相对的,弱人工智能(applied AI,narrow AI,weak AI)只处理特定的问题。弱人工智能不需要具有人类完整的认知能力,甚至是完全不具有人类所拥有的感官认知能力,只要设计得看起来像有智慧就可以了。由于过去的智能程式多是弱人工智能,发现这个具有领域的局限性,人们一度觉得强人工智能是不可能的。而强人工智能也指通用人工智能(artificial general intelligence,AGI),或具备执行一般智慧行为的能力。强人工智能通常把人工智能和意识、感性、知识和自觉等人类的特征互相连结。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

暂无评论
暂无评论~