AI为你唱响春节,微软如何从视觉到语音打造炫酷歌词唱作

我们总会回忆起以前节日里不可或缺的团圆时刻,那么 AI 能理解当时的心情吗?过年期间,央视新闻官方微博发布了一个 HTML5 网页《你的生活 AI 为你唱作》,我们借助它体验了一把 AI 为自己歌唱的感觉。用户只要上传 1 到 4 张最爱的、最喜欢回忆的照片,AI 就能以说唱的形式为你作词、为你演唱。

你的生活 AI 为你唱作:http://cctvsongbot.newscctv.net/index.html

image.png

在上传图像后,我们可以选择两种语音进行创作,即央视主持人康辉与微软智能女声晓晓。选定声音后,系统就能很快生成歌词与对应的歌声。那么什么样的 AI 系统,才能在 2 小时内吸引并支撑起 300 万人次的交互请求呢?

最近微软亚洲研究院向机器之心介绍了《AI 为你唱作》背后的技术,这次与央视合作,微软借助其强大的全方位 AI 技术完成了这个 H5 春节互动平台。具体而言,利用计算机视觉自然语言处理语音合成和 Azure 云计算等技术,微软打造了一条从图像到诗歌再到语音的联合系统。

简单而言,AI 唱作会先使用 Azure 的视觉 API 对用户输入的图像进行分析,并得出几十种类别,例如人脸、背景色和情绪等。然后这些类别可以映射到几千种标签,它们包含了大量关键信息,并可作为生成歌词的输入。在生成歌词后,再调用 Azure Neural TTS 的 API 生成最终的说唱语音。

通过联合计算机视觉自然语言处理语音合成三大技术,AI 为你唱作才能为你唱响,而本文重点介绍了微软歌词生成模型语音合成模型。

歌词生成

其实微软在十几年以前就做了对联,后来开始做古体的诗、绝句、宋词和现代诗等,然后慢慢扩展到歌词和作曲。

微软亚洲研究院自然语言计算组资深研究员韦福如表示:「从难点上看,生成的歌词要求琅琅上口,且比较接近大家的生活。而对于整个模型而言,输入只能从图像获取一些信息,包括有没有人脸或笑脸、有几个人、大概的年龄等等。我们把这些信息映射到更细致的关键词,例如开心、爱情等数千种关键词,然后把它们输入 Seq2Seq 模型就能生成第一句歌词。」

此外,韦福如表示在实际生成的时候还需要对结构做一些调整,例如对关键词做一个 Planing,决定每一个关键词出现的顺序。这样在生成第一句后,结合已生成的歌词和对应的关键词就能继续往后生成歌词。

微软的歌词生成模型会基于很多数据,包括爬取的歌词和宋词等,其中宋词可以为现代歌词赋予文化气息。不过正因为数据集大量采用了歌词或宋词,整体情感基调上会比较低沉或伤感,因此在歌词生成后还需要识别里面的情感,从而传递更多的过年气氛与正能量。除了情感分析,歌词后处理还包括一系列细节,包括为 TTS 预处理多音字等。

image.jpg

总体而言,歌词生成模型的核心是一个序列到序列的模型,它会学习将关键词序列映射到合理的诗歌,并为后面的语音合成做准备。这里需要注意的是,如上所示在根据关键词序列生成第一句后,模型类似于一个强大的语言模型,它会以第一句为条件生成第二句,并在生成过程中加入前面规划的一些关键词信息。

最后,微软 NLP 组的研究工作远不止诗歌生成。对于机器阅读理解(MRC),微软在 SQuAD 文本理解挑战赛的最新榜单上,以 82.650 的 EM 值最高分领先(持续优化提升),并率先超越人类分数 82.304。对于机器翻译系统,微软在通用新闻报道测试集 newstest2017 的中-英测试集上,达到了可与人工翻译媲美的水平。这是首个在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统。

语音合成

除了计算机视觉自然语言处理方面,微软深度神经网络语音合成技术(Neural TTS)在整个唱作过程中也非常重要,康辉或晓晓的声音就是基于 Neural TTS 技术自然地唱出了歌词。基于 Azure 的 Neural TTS 技术,克服了传统语音合成系统的局限性,优化了口语和唱歌中的重音、语调和节奏,大幅提升了语音合成的表现力,具有更自然的韵律和更丰富的情感。

正如微软亚洲互联网工程院语音组产品经理刘越颖所说,传统的拼接合成法(Concatenation synthesis)会把语音的每个单元存下来,再拼接到一起。也就是说将文本按照音拆成不同的单元,然后把不同的单元拼接起来成一句话。拼接法的问题在于音的转换,如果转换不流畅自然,那么生成的语音听起来就会比较机械。早期拼接法会使用一些平滑方法,后来会使用基于统计的隐马尔可夫模型(HMM)进行处理。

随着深度网络展现出强大的表征能力,TTS 也尝试采用它作为端到端的建模方式,这些尝试就包括了谷歌的 WaveNet、Tacotron2 和百度的 ClariNet 等。如下图所示,微软的 Neural TTS 也是一种端到端的系统,模型首先会将文本转换成包含语音信息(phonetic)和韵律信息(prosodic)的向量序列,然后将两部分信息转为声波(waveform)。

image.png

这个系统的重点在于它是第一个实时神经网络 TTS,这对算法本身的时延和 Azure 提供的云计算都有很高的要求。

可能说到语音合成,很多读者都想到标志性的研究 WaveNet,它在 2017 年 10 月也正式产品化。WaveNet 利用空洞卷积(dilated convolution)和因果卷积能生成高质量的语音。但是它是需要利用 N-1 个样本预测第 N 个样本,所有效率非常低,后来的 ClariNet 等都是为了解决这个问题。

image.png

图注:谷歌 WaveNet 所采用的一维卷积结构,摘自 arXiv:1609.03499。

谷歌的 WaveNet TTS 利用 WaveNet 完成了高质量的声学预测和声音合成,但是韵律信息还是基于传统的韵律定义和预测模型,与声学模型是分离的。而微软的 Neural TTS 采用了端到端的声学建模,将韵律模型和声学预测合并优化,从而可以得到更逼真更丰富的韵律。此外,WaveNet 只提供了标准预设好的声音,但是微软提供了工业级的基于深度神经网络的声音定制服务,用户可以定制属于自己的声音。为了能用少于 1 个小时的录音数据达到几十小时、甚至更多数据的训练效果,微软采用了统一模型(Universal Model)的技术,利用大规模的多说话人语音数据库来训练基础模型,从而极大减少了对单一说话人的录音数据需求。

产业图像分析自然语言处理语音合成
1
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
韦福如人物

韦福如是微软亚洲研究院机器阅读理解研究的主要负责人、微软亚洲研究院自然语言计算研究组主管研究员。《麻省理工科技评论》中国区35岁以下科技创新35人榜单入选者。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

隐马尔可夫模型技术

隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

因果卷积技术

因果卷积首次是在 WaveNet(van den Oord et al., 2016)论文中提出,从直观上来说,它类似于将卷积运算「劈」去一半,令其只能对过去时间步的输入进行运算。对于一维卷积来说,因果卷积可以简单将一般卷积的输出移动几个时间步而实现。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

序列到序列技术

空洞卷积技术

空洞卷积最大的特性就是扩张感受野,它不是在像素间插入空白像素,而是略过一些已有的像素。当然,我们也可以理解为保持输入不变,并向卷积核中添加一些值为零的权重,从而在计算量基本不变的情况下增加网络观察到的图像范围或序列长度。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
推荐文章
暂无评论
暂无评论~