AI 是短视频平台的核心能力AI 是短视频平台的核心能力,快手其实是一家人工智能公司

AI 如何赋能短视频平台?

这是快手科技 AI 技术副总裁郑文在极客公园「创新之火」活动上的演讲主题。从纯粹用于制作、分享 GIF 图的工具性应用,到如今成为日活跃用户量过亿,用户日均使用时长超一小时的新型短视频社区,这是快手七年走过的创业路。

七年,快手用户累计发布短视频超过 70 亿条,从搞笑、幽默,游戏、娱乐,到各地风土、民情,内容各异。对于快手,不少人认为它只是一家短视频公司,短视频平台跟 AI 技术的关系并不大。

但是,如何将每位用户的注意力高效分配给海量丰富的短视频,而非集中在少数爆款之上,光靠人工运营的方法是不可行的,这必须通过人工智能技术来实现。

AI 技术让记录生活更有趣

https://mmbiz.qpic.cn/mmbiz_png/8cu01Kavc5ZmWuYRr6OI0aAVpxZ9Ztaeib8D6icHKRfPBOA3HZMdWINB14MtWTsnoDrguP8bNzSpEHEv091mdoaQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1

面对每日数以千万的新增视频,该如何将其精准匹配到用户眼前?快手 CEO 宿华曾形容,这是快手员工需要面对的前所未有的难题。为此,快手提出了一整套基于 AI 技术的解决方案,贯穿视频生产、内容理解,用户理解,系统分发等使用快手的每个环节。在极客雇主交流会现场,快手科技 AI 技术副总裁郑文说,AI 是快手连接内容生产与消费两个端口的核心能力。

快手上线了一批爆款特效,像是叫做快手时光机的「变老」表情,可以在十几秒钟中,让视频中人物的容颜变成 60 年之后、还有可以实时进行肢体识别的舞蹈游戏、AR 换脸等等。这些玩法背后是快手对前沿 AI 技术的开发,涉及人体姿态估计、手势识别、背景分割等多个技术模块。这是在内容生产领域,快手努力将记录形式变得更加有趣的新尝试。

用户通过快手 app 拍摄、上传了一段短视频后,后台机器会提取其内含的基本信息,诸如视频中人脸的性别、表情、颜值等,尝试理解视频内容。机器还会依照场景识别、物体跟踪、图像质量评估等维度,对图像进行分类。语音识别,也是机器理解视频的重要方面。机器会把语音转化成文字,通过文字理解视频表达的含义。快手多媒体内容理解(Multi-Media Understanding)部门利用 AI 技术通过感知和推理两个阶段来解读一个视频,首先感知获取视频的客观内容信息,进而推理获取视频的高层语义信息。

像人把学到的知识存到大脑一样,我们把快手的内容整理并存储到快手知识图谱中,这样融合感知内容和知识图谱,就可以完成对视频高层语义及情感的识别。

促使机器理解用户本身同样不可或缺。用户年龄、性别、是否使用 WiFi 等注册的基本信息,用户在使用快手时产生的大量行为数据,都将传输到一个深度学习的模型中用于机器训练,从而得到一组综合性的用户信息,以预测用户的喜好,个体用户之间的关联。

快手如何破除「信息茧房」?

https://mmbiz.qpic.cn/mmbiz_png/8cu01Kavc5ZmWuYRr6OI0aAVpxZ9ZtaeMkAX06rYibmud80hZpXX3WkKKic9zbrQD7UOFYG0ox1qKg6Im4sibVicDQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1

让记录形式更有趣,让机器理解视频内容、深度洞悉用户,这是快手利用 AI 技术赋能短视频平台的试探。

快手科技 AI 技术副总裁郑文说,作为前沿技术,人工智能在研发、执行过程中还没有一个非常成行的流程。根据自身发展情况,快手以问题为导向开展 AI 项目,首先明确需求,接着针对需求进行预研、收集数据、训练模型,之后才是相应的功能开发与产品化。

人工智能与算法推荐曾引发一些争议,大众普遍认为,智能算法根据用户兴趣推荐内容,久而久之,用户便会被自己关心的事物围绕,失去对外部世界的整体认知,形成「信息茧房」。对此,郑文举例快手的推荐机制作答:快手的推荐给用户的内容,绝非仅仅用户最感兴趣的部分,而是会考虑到内容的多样性,在更广阔的领域发现感兴趣的内容。

郑文举例说,比如在社区中,会有一些跟你比较相似但不完全一样的用户,那么他们喜欢的内容,你也有可能会感兴趣,这样就不是用户自己一个人去探索,而是成千上万相似但不同的人在一起探索。基于这个逻辑的分发系统,也可以真正顾及到长尾视频,让更多的人被看见。

作为记录载体,短视频形态本身具备普惠性。它极大降低了信息交流门槛,通过技术赋能,让人们可以公平、有趣地记录与分享生活。在极客雇主的交流会现场,郑文说,记录生活能够提高人们的幸福感,在快手,人们可以看到更丰富的世界,而他们自己也能够被世界看见。

今年四月,快手还与清华联合成立了未来媒体数据研究院。该院以清华软件学院与快手的技术难题攻关为基础,联合新闻学院、社会学系等开展社会人文领域研究,涉及计算机图形学、图像处理大数据人工智能等领域,以合作开放的姿态,探索技术赋能短视频的更多可能。

产业人工智能应用视频快手
2
相关数据
快手科技机构

快手自2011年创立,在过去6年时间里,稳步成长为中国最大的生活分享平台。快手APP是面向普通人的记录和分享生活的短视频社交平台。以“记录世界 记录你”,用有温度的科技提升每个人独特的幸福感为核心使命。 截止2018年11月,快手拥有超过1.5亿日活用户,3亿月活用户,每日上传短视频超过1500万条,库存短视频数量超过80亿条,是全球领先的生活分享社区。

http://www.kwai.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

推荐文章
暂无评论
暂无评论~