阿里发布新一代语音合成技术KAN-TTS,「开箱即用」解决方案已2B商用

达摩院成立之初,马云就表示,它需要自我造血。想知道一个研究机构如何赚钱吗?

过去一个多月,达摩院披露了其在AI领域的多项技术进展:

「阿里AI具备自主判案能力」「夺冠图像识别竞赛WebVision、轻松识别超百万实体」、「在第二届视觉对话竞赛 Visual Dialogue Challenge夺冠,并打破视觉对话识别记录」、「AI心血管识别技术论文入选国际医学影像会议MICCAI 2019」、「登顶MS MARCO文本阅读理解挑战赛,双任务破纪录」。

此外,他们还于7月5日开源了其新一代人机对话模型ESIM

不过,如果你以为这是一个只做「研究创新」的研究机构,你就错了。

在达摩院成立之初,马云就表示,「阿里巴巴不指望靠它赚钱,但是它自己要去挣钱。」

因此,达摩院「研究创新」和「产品研发」并重。除了核心算法研究,达摩院还负责将技术产品化及将产品商业化。

但达摩院做什么、做到什么程度、不做什么的边界,以及它如何自我造血,此前甚少有文章讲述。

恰好,在阿里7月9日组织的一场小型媒体分享会上,达摩院机器智能实验室首席架构师王骏、达摩院机器智能语音实验室负责人鄢志杰及达摩院机器智能语音实验室高级算法专家雷鸣三位嘉宾,分享了他们探索新一代TTS系统产品化及商业化的经验。

他们已经将自主研发的新一代语音合成技术KAN-TTS(Knowledge-Aware Neural TTS)打包成解决方案,通过阿里云向B端(企业)客户开放商用。

本文对当日分享会的内容进行了整理,希望通过这个案例讲述,驱散大家心中的迷雾。

阿里自研新一代语音合成技术KAN-TTS

「2017年,新一代TTS系统的相关论文发表,它可以做到接近真人表现力的合成语音,整个语音合成的质量进步的非常快。但其实,从2017年到现在,更多的工作还是集中在论文和实验室的阶段。」雷鸣首先回顾了TTS技术的发展历程。

为了解决新一代TTS系统的产品化问题,阿里提出KAN - TTS (knowledge - aware neural TTS)的解决方案:

1.深度融合传统TTS和End2End TTS(端到端TTS)两个系统;

端到端系统有一个缺陷,就是完全的文本输入、音频输出,无法识别多音字。若完全用端到端系统,会造成不同的发音人(speaker)语音合成的效果参差不齐。因此,雷鸣团队将传统TTS和End2End TTS(端到端TTS)两个系统做了融合。

2.基于不同领域的深层knowledge,进行系统的构建;

为解决多音字的问题,他们引入Linguistic knowledge(语言知识,包含词汇、句子结构、语篇结构)。为了提升不同发音人(speaker)的语音合成的表现力,他们利用acoustic knowledge(声学知识),针对男声(偏低沉)女声(偏高亮)做设计。

3.是针对CPU部署的框架设计和效率优化;

「很多家做一个新技术,包括语音识别,都是通过技术人员去做评估的。一开始,我们就否定了这条路。」鄢志杰表示,他们希望为客户提供最便捷的部署能力。比如,一些客户是在私有云的环境中进行部署,如果他们新采购的硬件会更容易使用上KAN - TTS。

4.针对20多项关键算法做改进。

阿里称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在85%到90%之间,而基于KAN-TTS技术的合成语音可将该数据提高到97%以上。

开箱即用的TTS解决方案

以KAN-TTS技术为基础,阿里对外提供「开箱即用」的TTS解决方案:针对通用场景(如读新闻、读小说)、客服场景、童声场景、英文场景和方言场景,提供34种高品质声音。

针对不同用户的不同需求,他们对KAN-TTS做了定制。

专业用户可能有为自己的产品(IP)定制声音的需求,但使用传统的TTS定制方式,成本可能超百万,整个周期可能耗时半年以上,同时,面临高风险。

标准的TTS定制,需要挑选专业发音人(播音主持专业,发音清晰)到录音棚里录音,并且有录音导演跟棚。因为TTS的录音非常严格,新录的(声音)和过去录的(声音)风格需要保持一致。比如,三分高兴和五分高兴就不一样,要保持一定程度的高兴。因此,录音导演会在现场进行指导,以及对录音进行质检。录音完毕后,人工对每一个字进行标注,然后进行模型调优及部署。

标准的TTS定制需要10小时以上的有效数据——即保证10小时以上的数据录制及标注,这使得从启动定制到交付的整个项目周期非常长。在项目执行过程中,可能遭遇录音环境遭破坏(录音棚旁有装修)、恶劣的天气导致发音人嗓子坏掉等状况;请来录音的人若是明星,则可能因为档期问题没有太多录音时间。以上状况都会导致数据不足,进而导致项目延迟。

针对数据问题,雷鸣团队将更多人的声音引入KAN-TTS模型中,并采用Multi - Speaker Model与Speaker - aware Advanced Transfer Learning相结合的方法,针对目标说话人(speaker)做适配。「我们认为,如果这个模型见过更多的数据,当它遇到一个新声音时,它就可以抓到新声音的特点。」

雷鸣称,最终,他们将录音时间从10小时降为半小时(定制效果有一定降低,但降幅不大),将语音合成定制成本降低10倍以上,周期压缩3倍以上。也就是说,基于KAN - TTS的定制方案,用1小时的有效录音数据和不到2个月的制作周期,就能完成一次标准TTS定制。

在为专业的IP定制声音后,雷鸣团队又尝试解决普通人TTS定制的问题。

数据方面,他们增加发音人的数量、数据种类以及录音环境(包括噪音),发音人从6人增加到2000多人,从专业发音人到普通人,从录音棚到手机;

技术方面,他们基于自动数据检查、深度结合ASR的speaker dependent自动标注算法和对海量用户场景(海量ASR和带噪数据)的利用,使得普通人只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。

「TTS本身是一个播报内容的诉求,它在某些情况下是刚需。」雷鸣说,比如,在网络信号不好的隧道里,如何避免语音导航掉线?

因此,针对无网络或者CPU、内存受限等超低资源的情况,他们提出KAN - TTS enhanced device TTS solution(KAN - TTS加持的端TTS解决方案):首先,他们基于已有的数据构建云端的TTS;同时,利用大量文本数据,扩大Audio-Text Parallel Data(声音文本并行数据);再使用Knowledge Transfer(知识转移)的手段,让device(端)平台更好地学到cloud(云)平台的表现力,将高表现力的云端TTS转化为效果有限的超低资源离线TTS。

(想试一下KAN-TTS的效果吗?点这儿:https://ai.aliyun.com/nls/tts

商业化落地及如何防止技术被滥用?

目前,基于KAN-TTS的语音合成技术不仅应用在阿里旗下的夸克浏览器、天猫精灵中,也已经通过阿里云向B端(企业)客户开放商用。

「我们不做端到端的产品和服务,我们做的是一个模块,被B端去集成。」通过B端客户触达C端(消费者)或G端(政府)。「我们只做最核心的技术,比方语音合成的技术,我们做KAN TTS,但我们不会做政法行业或者教育行业的某一套系统,这种系统还是通过生态伙伴去投。我们提供弹药,他们去做行业应用。」王骏表示,「接下来(阿里)会有更好的、更多的开源产品去供给个人开发者或者集成的客户。」

但作为一个新技术上云,其高成本可能让客户望而却步。如何解决这个问题?王骏表示,「肯定还是从客户、市场那边拿到需求,才能更好的抓住痛点。整个过程中,要密切保持沟通,比如我们要针对这件事情做研发、探索,看他们是不是愿意接受或者愿意为这样的东西花钱,他们有时候是愿意跟我们一起共创的。」

阿里表示,KAN-TTS大幅提高了合成语音与真人发声的相似度,将问世80年的语音合成(TTS)技术推向几可乱真的水平,有望通过图灵测试。

能「以假乱真」的合成语音,应该引起警惕。之前,警方就披露过新出现的语音合成技术被用于电信诈骗,「新出现的语音合成技术,可以完全模仿一个人的声音语调,再用改号软件模拟出电话号码,一个电话打过来,从号码到声音都是亲朋好友的,受害人连发现都发现不了。」

据介绍,KAN - TTS是作为一个技术模块被集成商集成的,也存在被滥用的风险,如何避免自己的技术被滥用?

「当技术应用到现在,了解它、规管它,就会显得重要。我打个比方,好比我们做了一把刀,它可以有很善的用途,切菜,切瓜。而且有恶的用途,去做伤害人的事情。我们是怎么解决的呢?无非是法律、监管。」鄢志杰表示,

「我看到一些运用我们这个技术去做外拨的同行,他们应该也是在推动相关的新技术带来的监管问题。我觉得,也不用害怕这个技术会带来什么,更多的还是我们怎么去利用它。

在这个当中,我也是希望有很行业的规章制度或法律,能够把新技术带来的这些问题通过监管的方式更好地解决,然后更多地展示向善的方面,这个我觉得是鼓励的方向。我们其实也在源头上看,这个技术被用到什么地方。比如,我们会更想(这个技术被)爸爸妈妈用来给孩子讲故事。

事实上,今天的电信诈骗,也有真人的电信诈骗,所以我觉得,这并不完全是一个技术单纯思考的问题。」

王骏也表示,技术已经发展到能通过图灵测试的程度,但是到底是好人用还是坏人用,需要整个社会去做努力,不能因噎废食。

产业新一代语音合成技术TTS达摩院阿里机器智能语音实验室达摩院机器智能实验室阿里云智能阿里巴巴
1
暂无评论
暂无评论~