超有趣、说话又好听,机器人是怎么做到的?

优必选科技是全球顶尖的人工智能和人形服务机器人研发、制造和销售为一体的高科技创新企业。语音交互是优必选科技的核心技术战略方向之一。经过数年的语音技术发展,现在已拥有语音识别、信号处理、自然语言理解、语音合成等全链路的智能语音语言技术。优必选利用人工智能技术为家居,教育、医疗、展览提供完整的自然语言交互解决方案。

语音合成技术解决的是从文本到语音转换,为服务机器人担当“嘴巴”的角色。语音合成技术经历了从共振峰合成, 拼接合成,统计参数合成到基于神经网络语音合成发展阶段。近年来, 基于神经网络的声码器模型和基于注意力的端到端的语音合成声学模型大大提升了语音合成的音质以及韵律建模的自然度。

9月23日,机器之心邀请到优必选语音技术科学家黄东延带来直播分享,主要介绍优必选研究院语音合成技术近两年的研究和技术进展,以及在现有的主流合成框架下做的一些技术改进。详情如下:


分享主题:优必选语音合成技术在服务机器人上的应用


分享时间:9月23日 20:00-21:00

讲师简介:黄东延,优必选语音技术科学家、法国巴黎国立科学技术与管理学院博士、巴黎第五大学博士后、IEEE高级会员。从事语音技术研究工作24年,重点研究领域涵盖机器学习模式识别、音频编码、语音合成/转换/识别、回声/噪声消除、情感计算对话系统以及多模态人机交互。在国际期刊和会议上发表了90多篇论文。此外在语音技术领域还获得多项国际技术成果奖项。
 
分享概要:本次分享主要介绍三方面内容:基于神经网络参数语音合成以及端到端语音合成技术、语音转换技术和语音情感生成技术。

重点讲解多音字发音、停顿、中英文混合合成的衔接及一致性、20句话语音转换技术、跨语言语音转换技术等,以及在保持合成语音自然度的前提下,将这些技术如何落地到计算资源有限的机器人上。本次分享也将展示语音合成技术在党建、政务、税务、展览、教育等方面的应用。


参与方式:添加机器之心小助手(syncedai5),备注「语音」,进群一起看直播。


PS:如本小助手无法添加,请添加小助手的兄弟姐妹们:syncedai2、syncedai3、syncedai4、syncedai6。或者将「微信 ID」发送邮件到 shidongle@jiqizhixin.com,我们将与你联系,邀你入群。
产业语音合成机器人技术优必选科技
相关数据
优必选机构

深圳市优必选科技股份有限公司成立于2012年3月,是全球领先的人工智能和人形机器人研发、制造和销售为一体的高科技创新企业,公司秉承着“让智能机器人走进千家万户”的使命,专注于人工智能及机器人核心技术的应用型研发、前瞻性研发与商业化落地,同时提供人工智能教育、智慧零售、智慧园区/校园安防等行业解决方案。以智能服务机器人为载体,将“AI+”赋能各行业,为客户提供一站式服务,致力于打造“硬件+软件+服务+内容”的智能服务生态圈。

https://www.ubtrobot.com/cn/
相关技术
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

情感计算技术

情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域,涉及计算机科学、心理学和认知科学(cognitive science)。在计算机领域,1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态,并且适应它们的行为,对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
语音合成技术

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

推荐文章
暂无评论
暂无评论~