作者李泽南

提升用户幸福感:快手在AI技术上的探索与应用

在中国短视频 APP 领域,「快手」从渗透率、用户数量上都名列第一,其日活跃用户已超 1 亿。在快速发展的背后,快手应用了很多人工智能技术。

5 月 21 日,中国图灵大会(ACM TURC 2018)在上海举行。快手创始人兼 CEO 宿华和快手 AI 技术副总裁郑文出席了大会,并在会上向人们分享了快手在 AI 方面的探索以及应用。

最热门的短视频社交平台

快手成立于 2011 年,自 2013 年转型为短视频社交应用以来,已成为了国内最热门的短视频社交平台。在快手上,用户可以用短视频和照片记录自己的生活片段,也可以通过直播与他人进行交流互动。据快手 AI 技术副总裁郑文介绍,目前用户在快手上累计发布短视频的数量已超 50 亿条,而这些视频每天被播放 150 亿次,用户日均使用时长超过 60 分钟。

「我一直在思考 AI 应该用来解决什么样的问题,」快手 CEO 宿华说道。「这不是数学层面上的问题,而是能为社会、人类解决的问题。在这些年实践的领域中,我明白了技术最终都应该用于提升人类的幸福感。」

今天,快手已成长为拥有 1 亿日活跃用户的庞大网络社区。在这里,每天都会新增 1000-2000 万条视频。每个用户打开快手,都可以看到有关任何一个地方的内容,涵盖生活的方方面面。面对总量达 50 亿条的视频内容,这家公司还希望能够照顾到所有用户,为每个人都带来关注。

这意味着必须对所有视频进行准确的内容标注,而人工智能是唯一的技术手段。

快手背后的 AI 技术

据宿华介绍,快手目前的人工智能技术主要应用在四个方面:视频生产、视频理解、用户理解、视频分发。

今年 4 月,快手上线了「快手时光机」功能,它能够在手机屏幕中快速模拟人从年轻到老去的面部变化过程。5 月,快手推出了「AR 换脸」的玩法。很早之前,快手还推出了基于人体姿态检测技术的游戏,这一切的背后是基于快手自行研发的 YCNN 深度学习推理引擎。快手称,该系统的核心优势在于其可以适配于各类高端和低端硬件,可以方便地跨平台部署。为了在移动端部署神经网络,快手的开发者对模型结构进行了优化,并大幅提高了运行效率。

快手的 YCNN 深度学习推理引擎是其 AI 技术实现的基础

为了实现更多视频玩法,快手探索了姿态识别、人脸关键点检索、视觉惯性和手势识别等方向,并最终将其依次实现。「快手会通过深度学习算法来检测用户拍摄的场景类别,并据此选择最适合的滤镜效果以提升视频的质量。」郑文表示

「这其中还有和语音有关的理解,」宿华介绍道。「我们经常会发现视频中的很多信息是包含在音频里面的,特别是传递情绪。人类的很多情绪是在声音里面,再转化为语速、语调起伏。」

据介绍,快手目前视频最高的并发量约为 20 万。这意味着存在几十万并发、实时的语音识别需求。快手正在使用自研的机器学习平台处理这类业务。

训练高准确率机器学习模型需要大量已标注数据,这对于快手而言并不困难,在它的社交网络中,每天都有上亿人次的人工标注行为发生。每个用户的点击、点赞、关注和转发行为,每一条视频的播放时长,用户之间的相互关系,都可以作为可用数据。但如何把这些行为数据和平台中的内容结合,进行连续、深度的分析,则是一个复杂的课题。

在获取大量数据的同时,快手需要理解用户,帮助观看者找到他最喜欢的内容,这就需要推荐系统能够理解每个人的偏好,甚至找到潜在的喜好,这样才能不断拓展推荐的范围。

快手使用了协同过滤模型等算法帮助人们找到自己的新兴趣。每个人都有不同的喜好,但也有相同的兴趣点,机器学习算法可以帮你找到类似的人,推荐他人喜好中和你不一样的东西——你很有可能也会喜欢这些新内容。

通过不断地数据挖掘,快手实现了高效的内容分发系统。

在视频分发上,快手希望能够在推荐热点内容的同时照顾到以往难以「火」起来的长尾内容。在发展早期,快手应用了逻辑回归等机器学习方法。而最近,基于深度学习方法的分发系统已经可以做到实时响应用户的行为,并更新视频推荐了。

未来展望

作为风头正劲的科技公司,快手正在努力加大对于人工智能等技术的研发投入,以不断提高用户体验。今年 4 月,这家公司与清华大学合作成立了未来媒体数据联合研究院,其中包括 AI 技术相关的诸多课题。

视频是一种多模态信息,人们一直希望在视觉、音频和自然语言中获取观点和不变性表示。具有提取不变性表示的识别能力可以让机器从大量数据中学习特征,从而获得接近人类的识别效果。在快手看来,机器学习最终或许可以像人一样能够理解视频中人物的感情。

「也许有一天,我们的人工智能系统能够像人一样理解生活中的视频片段,」宿华表示。「机器将能够更好的理解人类的情绪、情感,甚至灵感。我很期待那一天的到来。」

产业增强现实计算机视觉视频快手
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

推理引擎技术

推理机是实施问题求解的核心执行机构,常见于专家系统。它是对知识进行解释的程序,根据知识的语义,对按一定策略找到的知识进行解释执行,并把结果记录到动态库的适当空间中去。

推荐文章
暂无评论
暂无评论~