Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

WAIC 2021 | 好未来集团技术副总裁吴中勤:多模态机器学习及大规模自动生成技术算法框架与行业实践

在 WAIC 2021 AI 开发者论坛上,好未来集团技术副总裁吴中勤发表主题演讲《多模态机器学习及大规模自动生成技术:算法框架、行业实践》,他主要介绍了多模态深度学习以及大规模自动生成技术在教育领域的实践与应用,并介绍了好未来 AI 研究院的最新研究成果及成功案例。


以下为吴中勤在 WAIC 2021 AI 开发者论坛上的演讲内容,机器之心进行了不改变原意的编辑、整理

非常高兴来到上海和大家一起交流人工智能算法和行业实践的一些工作,今天选取了与工作中非常相关的多模态深度学习、大规模自动生成技术,以及在行业中实践的案例,给大家带来相对更听得懂的演讲。

多模态机器学习

所谓的多模态就是机器和人可以感受到的电子信号的输入,包括声音、图象、自然对话的语言,甚至包括更多电子传感器信号。从中可以看到,多种模态的综合可以解决单一模态无法解决的问题,或者多模态可以更好的解决问题。

举例来说,人们早前的研究发现,如果单纯做语音识别,单从声音信号来做会损失一些信息,如果结合强大的识别唇语的能力,能够看到说话的画面,这样就会猜到说话的含义。所以,结合视觉与听觉识别的 AVSR 模型,是可以在更高的信噪比情况下取得更为鲁棒的识别效果。

多模态的问题,其实在整个现实生活当中,有非常多的研究涉及这一块。比如我们做的一些表情工作,一些媒体分析的工作,特别是前几年比较火热的 Image captioning、Video captioning,还有基于视觉、视频的自动问答系统,还包括整体的动作识别。比较经典的例子就是我们在看长视频的时候,如果有包含字幕就是典型的多模态问题。

多模态研究内容

多模态整个技术研究方向包括以下:表征,多个模态联合去做事物或者语义的联合表征;转换,在模态之间实现转换,例如输入文字出现画面,输入声音出现文字;融合,在做单模态识别之后做后端融合,把整个模态在分类阶段、工作阶段加以融合;对齐,比如一段文字、一个视频,怎么把其中物体和关系做对应;此外还包括模态之间的协同。

以实际工作来举例, 好未来目前是国内比较大的 K12 的教育机构,课堂上其实会面临很多问题,许多授课是由老师和学生进行的,如果想要了解整节课堂运作下来整个授课质量如何、学生和老师之间交互如何,需要有打破物理世界到虚拟数字空间的一套算法加以映射,才能够解构课程教学黑匣子。

我们使用了 GodEye 这样一套教学辅助系统,这套系统是基于多模态深度学习理念打造的,可以针对课堂当中老师和学生各类行为进行智能识别,通过辅助授课老师在授课中视频片段、关键行为去定位老师和学生在课堂中的交互,最后提升学习效果。所以在画面当中可以看到整节课解构成一段段视频片段,在这个阶段老师和学生是怎么互动的?是做题、还是讲题、还是在讲知识点都可以进行解构。我们从右侧可以看到,在学生端可以在学习完成之后得到专属于自己的个性化学习报告,报告会包含你在课堂上参与了哪些环节,有哪些环节举手了、发言了、做题了,准确率怎么样,还包括在课堂中情绪曲线和关注度曲线。

如果把这个工作进一步聚焦,我们会发现有个问题,优秀的老师和教的一般老师有很大差异性。我们就在探索有没有可能打造一套帮助老师成长的 AI 系统,能够随着授课越来越好,人工智能给予更好的帮助,因此在刚才工作基础上,我们对老师的授课做了一个全面的质量分析和解构。

整个画面的声音、课件、动作、行为的交互可以用多模态深度学习方法,这样一来给老师以更详细的指导,对老师的上课、练课、磨课有更大帮助。为什么有些老师授课比较好,是因为在上课之前他们会用这套系统在线下做非常多的磨课。机器系统会自动告诉老师,你这节课应该在哪里加以改进。通过分析,系统会给老师打上各种各样风格标签,比如这位老师具有什么样的风格,喜欢说什么口头禅,话语流利程度,甚至说话的情感变化,以及在这一讲具体涉及到的知识点和讲课方法,是不是使用了举一反三方式、反问方式,还是引导提问的方式。

多模态情绪分类

人的情绪是一个非常微妙的、多变的、难以实时捕捉的、细粒度的工作,我们的研究聚焦到老师授课当中,通过多模态的方式对情感做一个细粒度的分类,这其中包括非常多的类型、类别。在这项工作中怎么做?我们推出时间对齐的池化机制,从而可以捕捉每一个字词之间的情感因素,同时利用多模态深度学习方法,其中有多模态的交叉刺激模块,可以通过多个模态使用里面的语义单元,去激活和增强在声音情感分类当中的信息,从而实现更好的效果。这项研究发布在 InterSpeech2021,在多个数据上取得非常好的效果。

除了在课堂上对老师情感分析,再就是一对一的个性化业务,老师单独针对一个人做教学沟通交流服务。一对一课堂往往是个体与个体之间沟通,对于教学管理、质量监控、提升老师授课能力、衡量这节课质量,是非常难的。传统方式有摄像头、麦克风,有后台老师在后面查看,一是防止出现不当情况,二是也能提高授课效果。

1V1 课堂说话人分离

实际上靠人的精力和观察很难做,现在有一个经过老师和学生授权的电子设备,这个设备会做很多课堂分析的事情,在课后形成报告给学生和老师。这里面涉及一个问题,麦克风持续在听说话声音的时候,其实要区分哪一段是老师在提问,哪一段是学生在回答,哪一段是学生在提问,哪一段是老师在回答,可能还包括知识点的讲解,还有可能包括翻转课堂(就是学生给老师讲课),所以这些问题需要从技术角度、在设备上做说话人分离。说话人分离这个任务可以做声文的输入和录入,一方面涉及隐私,另一方面对学生和老师的配合有要求,那么有没有算法不依赖于设备,在软件层面、算法层面可以自动实现说话人分离,而不需要任何预先输入。

我们做了这样一个工作,该工作发表在 ICASSP 2020,在这个工作里我们有一个大胆的假设,学生和老师之间的声音分离,可以通过对话内容大概猜出来这段话应该是什么角色说的,我们使用了融合语音和文本以及课件的注意力机制深度学习网络,在网络里面通过同时捕捉声音和各种信号,能够实现注意力对语义内容和声音内容同时长时期语义依赖捕捉。通过这个工作可以有效实现课堂说话分离,能够更好输出教学报告和学前报告,在各项实验上取得比较好的成果。

技术趋势在算法层面基本有三个,如果排除硬件,一个是多模态,二是大规模预训练模型。预训练模型大家比较熟悉的是单模态的预训练,比如大家熟知的 GPT-3,它拥有超大规模的文本来学习知识。我们也推出基于 transformer 跨静态的预训练模型,其特点是跨模态的预训练模型,是综合了文本和声音做的预训练。预训练的优化目标是对音频的帧做 mask,此外也对文本的内容做 mask,这样学习的目标是最大可能还原出来被屏蔽的内容,使得有更好的预训练模型能够捕捉声音跟文本之间的关联。在很多任务上用预训练模型做实验,通过一些具体的任务、小的语料在大规模预训练模型上进行优化,可以发现我们提出的模型在情绪识别、话者分离上取得较好的效果。

目前这篇论文已经提交 EMNLP2021,发表之后会开源相关的成果。

大规模自动生成

以上多是关于多模态机器学习的,下面讲一下自动生成相关的技术。AI 技术在前 5、6 年里更多的聚焦于识别和理解。最近几年人们开始聚焦到 AI 能不能做智能化内容生产,能不能产生传统上来说需要艺术参与、需要老师参与、需要学生参与的很多内容。

在文本研究中,大规模自动生成可以去做一些文章生成。文章生成对于教育领域也非常有意义,例如目前 GPT-3 是一个英文的模型,在中国怎么做自己的大规模预训练模型?好未来跟智源研究院一起合作,在智源中文 GPT-3 的基础之上,通过叠加大量教育领域的资料、学习模式、标注语料,推出可应用于教育场景的大规模 GPT 模型。

这样的模型可以做什么?例如可以自动出题,大家知道在学习期间练习题非常重要,甚至学习课后自己解读一些题目,这些题目需要老师手动加工出来,甚至用一些信息化软件加工出来,这些题目需要教研人员、教研主任、教研老师的智慧。有没有可能通过 AI 自动生成题目?可以实现千人千面的练习、个性化的辅助。另外,写作文也是比较困难的地方,能不能用 AI 写出符合小朋友、小学生、中学生认知水平的作文呢?我们也试着解决这种问题。比如在文本生成上使用这样的技术去做语文练习题的自动生成。

有了大规模预训练模型之后,只要教研老师输入知识大纲,接下来在输入易错、易混淆的知识点,比如有些字音近、有些字有共同偏旁部首,这是都是小朋友容易搞混的,把易错的输进去以后,通过预训练模型叠加具体的模型,就可以快速生成一道题。

目前这种功能已经在学习软件题拍拍 APP 上线了,学生针对薄弱项去定制学习。一个小时之内可生成几十万道题,针对个性化去生成针对性的题目,生成题目速度超越人类千倍、万倍,生成题目也具有多样性和广泛性,而且我们发现随着学生的使用量越来越大,年限越来越强,学生都在一点点的进步。

另外,除了生成题目,该模型还能生成作文。大家来看下面的 Demo,自动写作文,输入一个主题,选择一下是几年级风格水平,接着选一下文章的风格是什么,写景还是叙事,模型几秒钟就能生成对应的作文,而且还生成很多相关文章,这都是 AI 自动生成的作文,可以发现在生成的作文里,第三篇还是不错的,然后我们就试着把这个作文转化成多模态生产的问题,用学生最喜欢的 IP 把这篇作文读出来。

在已经具有大规模的 3D 物料、动作库、形象库的情况下,AI 自动在一秒钟写了几十万篇的作文,学生在个性化选择适合自己学历水平的文章,通过自己喜欢的形象自动生产出来。

好未来 AI 近期成果

好未来和世界人工智能大会还是很有渊源的,2019 年在世界人工智能大会开幕式上,科技部宣布依托好未来构建智慧教育新一代人工智能平台,目前好未来是智慧教育领域唯一一家 AI 国家队,国家对我们有很大的支持。我们在 2020 年的时候,因为特别重视教育的公平性和普适性,被联合国教科文组织做了奖项的授予。在刚刚过去云原生产业大会上,AI 平台获评 2021 年度优秀云原生案例。

在学术研究上,过去的 INTERSPEECH 2021 中,好未来在非母语儿童语音识别上面取得所有双项赛道的冠军;在 CVPR 2021 也有四项赛事冠军,都跟教育高度相关,比如暗光下的人脸检测和识别、场景里面人和物体的关系。识别人和物体的关系,可以用来在课堂上去看兼职人员,比如有没有人在玩手机;最后一个就是在人工智能教育大会上,今年有五篇论文揭示 AI 和教育之间的关系。

产业大规模自动生成技术多模态深度学习吴中勤好未来
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
人脸检测技术

人脸检测(face detection)是一种在任意数字图像中找到人脸的位置和大小的计算机技术。它可以检测出面部特征,并忽略诸如建筑物、树木和身体等其他任何东西。有时候,人脸检测也负责找到面部的细微特征,如眼睛、鼻子、嘴巴等的精细位置。

情感分类技术

情感分类是对带有感情色彩的主观性文本进行分析、推理的过程,即分析对说话人的态度,倾向正面,还是反面。

推荐文章
暂无评论
暂无评论~