智能相对论颜璇

为什么这两家娱乐公司都在不务正业搞AI竞赛?

十数年时间,中国互联网视频历经风云变幻,总是你方唱罢我才休。

市场一直在变,而在公众认知范围内,视频行业的竞争点在内容、在流量、在资金。直到近期,爱奇艺AI竞赛“发榜”,市场惊觉在竞争格局越发紧张的现在,在线视频已经在凭技术突围。

其实在AI领域,竞赛并不鲜见。不过近几年,越来越多的AI竞赛将命题从单纯的物体识别聚焦到了人物甚至人物动态识别上。这使得越来越多流媒体平台现身其中。前有美国Netflix通过AI竞赛,现在爱奇艺也拿出高额奖金旨在进一步拓展在人物识别领域的技术进步,中美的两家娱乐头部公司不约而同地做起了技术方面的竞赛,无疑是娱乐行业中值得关注的全新的风向标。只是,竞赛往往意味着长时间的赛程,多资源的调动,以及不确定的赛果回馈,爱奇艺和Netflix举办AI竞赛,究竟释放了什么样的信号?

中美纷纷瞄准AI竞赛,究竟想赛出什么

AI一直是各个巨头抢滩布局的主阵地,在让人眼花缭乱的各式招数之中,“竞赛”成为诸多科技企业的选择。就在上个月,谷歌推出了AI Impact Challenge,这是一项高达2500万美元奖金的优秀作品竞赛,这项竞赛旨在将最佳创意转化为行动,推动行业技术研究和应用,对整个社会产生积极影响。

再往前推,ICRA在过去几年分别和亚马逊、空客等公司合办过机器人挑战赛。通过机器人挑战赛,亚马逊希望加强工业和学术机器人之间的关系,并促进共享和开放的解决方案,解决亚马逊平台在非结构化自动化领域面临的技术挑战。而空客则希望寻求一个创新的想法和数字解决方案,带来了航空航天行业的技术变革。

Netflix也在几年前就启动了AI竞赛,公开征集电影推荐系统的电脑算法。赛后,Netflix在比赛结果的基础上,把现有推荐系统的准确率提高了10%。

AI竞赛不仅让举办公司实现了技术上的突破,还推动了AI技术在行业的落地,不少竞赛更是成为了AI发展史上的里程碑,成为了技术以及相关产业发展的助推器。

最著名的是ImageNet大规模视觉识别挑战赛(ILSVRC),从2010年以来,ImageNet每年都会举办一次软件竞赛,主要评价算法在大尺度上对物体检测和图像分类的效果。在这几年的比赛中,涌现了大量优胜算法,比如2013年的ZFNet、2014年的VGGNet、GoogLeNet和2015年的ResNet,该竞赛不仅成为了各团队、巨头展示实力的竞技场,还促进了AI领域卷积神经网络的研究和发展。

目前,大家所熟知的AlexNet便是从这个竞赛中脱颖而出。时隔六年,AlexNet中的一些方法比如数据增强和dropout,直到现在也在使用。而相关的论文《ImageNet Classification with Deep Convolutional Networks》迄今被引用约7000次,被业内普遍视为行业最重要的论文之一。这项技术的提升将对机器翻译、自然语言处理、医学影像分析、在线多人游戏等领域起到极其关键的作用。

不同于大多数计算机视觉识别领域的竞争集中在人脸识别,此次爱奇艺AI大赛是全球范围内首个“多模态视频人物识别”领域的科研竞赛。基于人脸、声纹、姿态、场景等多模态特征的人物识别技术属于AI领域中前沿的技术。目前在人脸识别领域最热门的评测竞赛包括LFW与MegaFace,前者侧重于对比两张人脸照片是否具有相同身份,后者则是以在海量注册人脸中检索特定人脸的准确率为重要指标。而此次爱奇艺推出“多模态视频人物识别挑战赛”则是侧重基于人物的声音、体态、着装、行为举止等多维度进行综合识别,更接近真实场景的需求,难度更大。在胜出团队的MAP平均精度均值88.65%的基础上,爱奇艺利用头部、声音、人体等多模态特征融合信息和更少的模型,将精准度提高了0.8%,推动了该技术在视频领域的应用。

多种多样AI竞赛的举办,显示了行业对AI技术的探索热情。AI正在爆发新的产能,不论哪个行业,任何一家公司只有不断创新,才能在AI主战场上抢得阵地;竞赛在最大范围内调动了国内外AI研发团队的参赛积极性,为技术领域提供了选拔创新人才和项目的渠道;资金、商业数据由企业投放给学术界,学术界反哺给企业科研结果和人才,形成产学研的有机孵化生态,利于技术向生产力转化的效率提升。

用户观看体验需求再升级,娱乐生态行业如何转型破局

AI技术受到视频平台的追捧与行业面临的变革不无关系。视频行业发展初期,资本的能力和意愿是视频网站最核心的流量入口。对于内容制作商而言,通常是把内容卖给出价最高的,由此,视频平台通过资本驱动,实现了内容从无到有的变化。

随着用户对内容的要求越来越高,近几年,各大视频平台开始围绕优质内容进行竞争,也是在这个时期,内容成为流量入口,各大视频网站都有了自己制作的内容,包括电视剧、网综、网络大电影等,诞生了诸如《奇葩说》《河神》此类的影视爆款。

如今,人们对视频形态的要求再一次发生了变化。比如观看视频的时间越来越碎片化,短视频、倍速观看、养肥了再看、跨屏看等等,人们观看视频的自主化和个性化也越来越强。在视频行业转型的关键时期,视频平台凭借AI技术破局,要解决的是C端体验和B端效率的问题。从这方面来看,爱奇艺举办AI竞赛,抢占多模态视频人物识别赛道,也有了更深层次的意义。

首先,视频人物识别技术的应用能够应对碎片时代内容精准获取的问题。基于智能人物识别的“只看TA”、以图搜剧等功能,用户可更精确地捕捉视频画面,为用户带来更为个性化的观看体验,在大型综艺节目《中国新说唱》的后期制作中,人物识别就实现了精彩画面查找功能,后期制作人员通过特定标签,可以在数秒内调出特定表演者的视频素材。

其次,人物识别技术能够有效提升平台分发、运营的效率,这也给行业带来了新的创业和创新机遇——基于全网最大的智能明星库,AI能识别出明星、剧情、行为、动作、情感、台词等多种类别海量场景,让广告与内容实现智能匹配,达到广告投放效果和用户体验的双重提升,进而增强平台的货币化能力。爱奇艺的“创可贴”广告就是一种全新的广告形态。

但是,目前的主流人物识别技术都是针对轻量级人脸图像数据库。在实际应用中,识别效果往往受到多姿态、多表情、多年龄、多光照、多分辨率、不同角色化妆、局部遮挡等影响,还无法达到应用所需的满意精度。

所以,如果能掌握更多维度的人物识别技术,将更能应对用户体验的升级,并提升平台的运营效率和货币化能力。爱奇艺洞察用户需求,举办AI竞赛,显然是为了形成更好的AI战略布局,打造新的内容形态,进而解决提升用户体验和平台效率。

迈入技术战场,爱奇艺的挑战与机遇

长期来看,技术已经成为现在视频行业转型破局的关键。而在这个战场上,爱奇艺虽然先发制人,首先抢占了多模态视频人物识别技术的赛道,但以爱奇艺为首的视频平台们依然面临着挑战。

虽然视频行业的商业逻辑简单,但AI技术的门槛较高。纵观整个视频生命周期,包含了视频采集、生产制作、播出、用户体验这几个环节,视频平台必须有足够的技术实力和对整体的把控力,才能提升每个环节的效率和质量,进而让AI技术发挥应用和商业价值,带来视频的变革。

2014年爱奇艺开始布局AI技术,不断提升用户体验,目前爱奇艺已经成为了年轻用户的聚集地。据爱奇艺Q3财报显示,爱奇艺的会员规模已经增长到8070万。而且根据QuestMobile的统计数据,2018年8月,爱奇艺APP月总使用时长59.08亿小时,在线视频领域排名第一,全网排名第三。因此,爱奇艺在大数据的数量和维度上有着行业领先的优势,进而导致用户模型的基础更加夯实。

其次,爱奇艺已经将AI技术应用于内容创作、生产、标注、分发、播放、货币化与客户服务等环节,实现多线AI技术的转化落地,搭建起以技术为驱动的娱乐生态平台,而多模态视频人物识别技术的突破无疑又为平台增添了一份筹码。同时,这次竞赛也让AI+视频的话题进一步发酵,获得公众的关注。

而多模态视频人物识别技术的突破也将进一步优化爱奇艺娱乐生态系统的方方面面:爱创媒资系统、艺汇智能选角系统等已经应用于自制内容的制作,将会进一步优化娱乐生态系统的效率;在智能拆条、智能化广告点位选取,更在保证用户体验的基础上,最大化广告主的收益,进而增强爱奇艺的货币化能力。

同时,该技术产生的数据也能反哺爱奇艺AI生态系统。爱奇艺创始人、CEO龚宇曾表示,目前爱奇艺引入的人工智能算法已经可以精准预测在本平台播出的电视剧和节目的收视情况,并以此作为制作标准,反过来指导内容选择与策划。同理,将用户使用人物识别功能的数据赋予知识图谱和深度学习技术,能够优化视频推荐模型,研发出更多实用性很强的功能。

结论

随着AI技术对视频产业影响的逐渐深入,各大视频平台纷纷布局AI领域,而这显然是一道技术优劣决定胜负的题目。总体来看,爱奇艺的AI基因还是十分强大,对AI应用的创新也使其在在线视频领域拔得头筹。而对于整个行业而言,爱奇艺的AI技术能力能够为市场带来更多可能。而不论技术发展如何,从用户体验出发,总能让公司先行一步。

*以上图片来源于网络。

智能相对论
智能相对论

深挖人工智能这口井,评出咸淡,讲出黑白,道出深浅。重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及芯片、算法、人机交互等。

专栏二维码
产业深度学习NLP图像分类物体识别爱奇艺Google多模态视频人物识别计算机视觉人脸识别多模态系统AlexNet
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

GoogLeNet技术

同样在2014年,谷歌提出了 GoogLeNet(或Inception-v1)。该网络共有22层,且包含了非常高效的Inception模块,它同样没有如同VGG-Net那样大量使用全连接网络,因此参数量非常小。GoogLeNet最大的特点就是使用了Inception模块,它的目的是设计一种具有优良局部拓扑结构的网络,即对输入图像并行地执行多个卷积运算或池化操作,并将所有输出结果拼接为一个非常深的特征图。

Alex网络技术

AlexNet是一个卷积神经网络的名字,最初是与CUDA一起使用GPU支持运行的,AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky设计的。该网络达错误率大大减小了15.3%,比亚军高出10.8个百分点。AlexNet是由SuperVision组设计的,由Alex Krizhevsky, Geoffrey Hinton和Ilya Sutskever组成。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

推荐文章
暂无评论
暂无评论~