Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

快手科技李岩:多模态技术在产业界的应用与未来展望

在CNCC2018“高通量媒体内容理解论坛”上,快手科技多媒体内容理解部负责人李岩发表了题为“多模态内容生产与理解”的演讲,讲述了带领多媒体内容理解部在多模态研究上取得的一些进展。

李岩在演讲中表示,多模态技术有两大应用方向,一是会改变人机交互的方式,二是将使信息分发更加高效;视频本身就是一个多模态的问题,而快手则拥有海量的多模态数据,多模态的研究对于快手来说是非常重要的课题;目前快手已经在语音识别与合成、智能视频配乐、通过2D图像驱动3D建模特效、视频精准理解等领域对多模态技术进行研发应用。

以下为演讲的主要内容:

大家好,首先我来简单介绍一下快手,在这个平台,用户能够被广阔的世界看到,也能够看到广阔的世界,我们可以看一下快手的数据: 70亿条视频总量、1500万日新增视频,日均的使用时长超过60分钟等,所以快手平台上有非常多的多媒体数据,同时也有非常多的用户交互数据,比如我们每天有1.3亿用户观看超过150亿次视频的播放数据。

我们知道视频是视觉、听觉、文本多种模态综合的信息形式,而用户的行为也是另外一种模态的数据,所以视频本身就是一个多模态的问题,再加上用户行为就更是一种更加复杂的多模态问题。所以多模态的研究对于快手来说,是非常重要的课题。

多模态技术两大应用方向:人机交互与信息分发

我认为多模态技术会有两大主要的应用。

第一,多模态技术会改变人机交互的方式,我们与机器交互的方式将会越来越贴近于更令人舒适、更自然的方式。

第二,多模态技术会使得信息的分发更加高效。 

多模态技术研究的三个难点:语义鸿沟、异构鸿沟、数据缺失

其实在目前来看,多模态研究难度还是非常高的。

其中大家谈得比较多的是语义鸿沟,虽然近十年来深度学习和大算力、大数据快速发展,计算机视觉包括语音识别等技术都取得了非常大的进展,但是截至现在,很多问题还没有得到特别好的解决,所以单模态的语义鸿沟仍然是存在的。

再者,由于引入了多种模态的信息,所以怎样对不同模态之间的数据进行综合建模,会是一个异构鸿沟的问题。

另外,做语音、做图像是有很多数据集的,大家可以利用这些数据集进行刷分、交流自己算法的研究成果。但是多模态的数据集是非常难以构建的,所以我们在做多模态研究时是存在数据缺失的问题的。

下面我会分享我们在多模态这个方面所做的事情,以及这些技术是怎么样帮助快手平台获得更好的用户体验和反馈的。

多模态技术如何实现更好的记录

首先,多模态技术将实现更好的记录。随着智能手机的出现,每个人都可以用手机上摄像头去记录周围的世界,用麦克风去存储周围的音频信息;而在以前,生成视频,尤其生成一些比较专业的视频,都是导演干的事情。但现在,我们通过手机就能够做到,这里面会有非常多的多模态技术研究来辅助人们更好地记录。

我们希望整个记录过程是更加便捷、个性化、有趣,同时也是普惠的,具体我将分别通过四个案例分享。

1、语音转文字打造便捷字幕生成体验

一个视频里,音频部分对于整个视频的信息传递是非常重要的。网上有很多带有大量字幕的、以讲述为主的视频,这样的视频制作其实是一件很麻烦的事情,因为一个一个去输入文字是很痛苦的,像过去在广电系统专业工作室就需要很多用于字幕编辑的工具软件。而如果我们通过语音识别技术,把语音直接转成文字,就可以很轻松地通过手机编辑生成一个带字幕视频。

2语音合成实现个性化配音

另外一个技术叫做个性化配音,假如在一个视频中,你不喜欢听男性配音,而希望听到由一位女士配音,我们就可以通过语音合成技术满足个性化的诉求。

语音识别及合成技术都会使我们记录的过程变得更加便捷、有趣,但这两个技术在做视觉或者多媒体的圈子里面关注度不是特别高,只是偶尔会在做语音的圈子里去聊这些问题。包括在语音圈子里面,语音识别和合成现在往往是两波人在做。

随着深度学习技术的出现,语音识别和合成这两个问题其实在某种程度上是非常对称的,因为语音识别是从语音到文字,语音合成是从文字到语音。语音识别的时候,我们提取一些声学的特征,经过编码器或者Attention的机制,实现从语音到文字的转化;语音合成的技术和算法,其实也涉及编码器或者Attention的机制,二者形成了比较对称的网络。所以我们把语音识别和合成看成是一个模态转换的特例,从神经网络建模角度来看,是一个比较一致、容易解决的问题。

具体神经网络在设计的时候,虽然二者内容机制其实还是有一些不同,但更大的趋势是这里面将来会有更多的趋同,因为我们知道随着相关算法的发展,计算一定是朝着一个更加简化,更加统一的方向发展。就像深度学习的出现,其实就是通过计算的方式取代了手工来获取有效的特征。多模态的转换领域里面也出现了这样的特点,这是一件非常有意思的事情。

3、根据视频内容自动生成音乐

音乐也是短视频非常重要的一部分,有录视频经验的同学可以感受到,为一个场景配合适的音乐是一个很难的事情。过去,有不少用户为了与音乐节拍一致,努力配合音乐节奏拍摄,极大限制了拍摄的自由度。我们希望用户可以随意按照自己想要的节奏录制,所以让机器通过用户拍摄的视频内容,自动生成符合视频节奏的音乐,这样视频画面与音乐节奏就会更匹配、更一致。

音乐生成涉及很多具体的技术,我们也做了非常多的研究,其中一个问题是懂音乐的不懂计算机科学,懂计算机科学的人不懂音乐。想要把短视频配乐这个问题研究好,需要要有做音乐和做AI的人一起集成创新,这方面我们也做了非常多的工作。

4、2D图像驱动3D建模实现Animoji效果

通过苹果的发布会,大家应该都了解Animoji这项技术,iphoneX有一个标志性的功能,就是通过结构光摄像头实现Animoji,现在国内手机厂商也越来越多地采用结构光的方式去实现Animoj。而快手是国内较早实现不使用结构光,只用RGB图像信息就实现Animoji效果的企业。

用户不必去花上万元去买iphoneX,只要用一个千元的安卓手机,就可在快手的产品上体验Animoji的特效,从而能够在不暴露脸部信息的同时展现细微的表情变化,例如微笑、单只眼睛睁单只眼睛闭等,让原来一些羞于表演自己才艺的人,也可以非常自如地表达。我们觉得做技术有一个非常快乐的事情,就是让原来少数人才能用的技术,变得更普惠。

其实解决这样一个问题是非常难的,因为即使是像苹果这样的公司,也是采用了结构光这样配置额外硬件的方式来解决。想让每一个用户都能享受到最尖端的技术,快手面临着硬件的约束,只能通过2D的RGB视觉信息对问题进行建模、求解,这里面包括了像Landmark人脸关键点检测、实时重建人脸三维模型等技术,把2D和3D两种不同模态的信息做建模、做对齐。

我们也能看到现在市场上可能有一些小型的APP在做类似的事情,但体验很差,而我们的整体体验还是非常好非常流畅的,这也需要归功于深度神经网络模型的量化,通过压缩和加速解决手机性能问题,可适配任意机型。

多模态技术如何实现精准理解视频内容

刚才我讲的是我们多模态技术怎样去帮助用户更好地记录,我们同时也希望通过一个更好的分享机制,让用户发布的视频能够被更多感兴趣的人看到。这也涉及视频推荐里面多模态的一些问题。

对视频内容的理解其实是非常难的,这个里面我做了两个比较有意思的事情。

第一,我们强调音频和视觉的多模态综合的建模,而不是仅仅是单独的视觉或者音频,视觉和听觉两种媒体的融合,会是未来一个非常重要的事情。

第二,在工业界做的事情和在学术界做的事情有很大不同,我们有非常多的用户数据,这些用户数据是不在传统多媒体内容研究范畴里面的,但是工业界可以很好地利用这些数据,更好地做内容理解。

给大家举个例子,一个男子表演口技的视频中,如果关闭声音,仅凭画面信息,我们并不知道他是在做什么,可能会觉得是在唱歌或唱戏。这说明如果仅仅是通过视觉的话,你可能无法获得真实的信息。我们对世界的理解一定是多模态的理解,而不仅仅是视觉的理解。

像这样的视频在快手数据库中有70亿,想要理解这么多的视频内容,必须借助多模态技术。所以我们在这方面也做了非常多的工作,从文本、视觉、听觉角度去做了很多单模态的建模,包括多模态的综合建模、有序与无序,以及多模态特征之间怎样进行异构的建联,在很多任务内部的分类上也做了改进。

第二点需要强调的是,像ImageNET等很多的学术界研究内容理解的任务有非常好的标注数据集,但是这个数据集对于工业界来说还是太小,且多样性不够。我们平台每天有1.3亿多用户以及超过150亿次的视频播放,这个数据是非常大的。如果有150亿的标注数据,做算法就会有很大的帮助,但是现实上是不具备的。

那怎样将研究分析技术与海量数据更好地做到两者的融合呢?我们通过融合行为数据和内容数据,进行综合建模,同样大小的人工标注量,利用海量的用户行为数据,能够获得比纯内容模型更好的性能,对视频有了一个更好的理解,进而在多媒体内容的理解和分析方面的算法研究有了非常大的进展,这就使我们在工业界和传统学术界做这个事情时会更有优势。

未来多模态研究的热点:特征表达与特征对齐

总结一下,多模态内容解决的问题里面涉及一些模态的转化,比如怎样通过2D图像驱动3D,怎样通过语音生成文本或者通过文本生成语音,怎样通过视觉驱动音乐。另外一个应用是我们怎样通过融合更多信息来驱动内容的理解,其实都是一个多模态的问题。在学术界有很多研究还是停留在单模态,但我个人认为未来多模态会成为更有价值的研究方向。

多模态研究会有两个难点或者说热点:

第一是多模态的特征表达,也就是在多模态研究框架下怎样设计单模态的特征,这是一个非常重要的问题。

第二是多模态特征之间如何对齐,也就是有没有更好的算法对视觉、听觉和行为的部分进行统一的建模,这是未来的一个热点。

几个总结

第一,多模态未来会持续带来更新的人机交互方式,比如我们刚才讲的Animoji技术,其实它带来的是一种可以通过人脸控制手机自动生成Avatar(虚拟动画)的体验。原来实现这些效果,需要在好莱坞专门设一个特效室来实现这一点,而现在普通用户都能享受这样的技术,所以人机交互会由原来重的、贵的、笨的方式转变为便宜的、每个人都能参与的而且便捷的方式。

第二,我认为多模态技术会带来新的内容形态,原来接入信息更多是从文本、页面中获得,现在有视频,未来可能还会有AR或者其它的形式。我觉得多模态AR很重要的一点就是强调沉浸感,这种沉浸感其实是通过听觉和视觉综合作用才能产生的。

第三,我认为多模态亟需新的算法和大型的数据,因为这两者可能会是一个某种意义上可以相互折算的问题。以目前的机器学习算法来讲,需要海量的数据才能解决好这个问题,因为现在深度学习、内容理解的成果,某种意义上是监督学习的成果,有足够的样本、算力,所以现在的算法能力基本上还停留在对算力和数据有着非常大要求的阶段。而多模态的大型数据是非常难建的,而且多模态解的空间是更大的。因为一个模态解的空间是n,另外一个是m,它最后是一个乘积、一个指数级的变化,所以数据集要多大才足够是一个很难的这个问题,可能需要新的算法来对这个问题进行建模。

关于快手多媒体内容理解部门

快手多媒体内容理解部门(Multimedia Understanding)简称MMU ,团队由近百名算法工程师、应用工程师构成,聚焦多媒体内容的理解与应用。在内容理解方面,MMU主要通过对人脸、图像、音乐、视频四个维度实现对多媒体内容的感知,并融合感知内容和知识图谱,实现对视频高层语义及情感的理解,从而让机器高效看懂海量内容。目前,多媒体内容理解部的核心技术服务于内容安全、原创保护、视频创作、视频推荐、视频搜索及商业化等方面。

产业快手视频多模态系统语音识别计算机视觉
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~