Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

28种语言,原汁原味的口音,ElevenLabs 文本转语音出测试版了

机器之能报道

编辑:梓文

一个「人」能说 28 种语言成为现实了

声音作为传播媒介的一种,既能够传达内容,还能够传递感情。它所承载的语言同样也是人类交流的重要形式,毕竟语言的诞生,让人类在传播内容时能够更加精准。

世界上的语言有上千种,超过 5000 万人使用的语言有 19 种。这 19 种语言的使用者占全世界人口的 75%。当这些语言的使用者进入其他语言的「领域」,会出现相应的沟通障碍。但是如果有一个工具,能够帮助近 30 种无障碍进行连续语音阅读,这是否能够满足更多跨地域、跨语言的需求呢?

上面这个视频一共展示了 10 种不同语言文本的阅读。在这个视频中的语音中,我们既能清晰地听到语音准确的断句,甚至能听出每一句话都有着自己的感情特色。

这是 ElevenLabs 的佳作,在这背后借助了 Eleven Multilingual v2 多语言语音生成模型。这确保了它能够准确地生成 28 种语言、情感丰富的 AI 音频,包括中文。ElevenLabs 可以使用合成语音、克隆语音或全新的「人工」语音将文本转化为语音,并且这些语音可以模仿不同性别、年龄和种族的声音。

那么接下来,机器之能将叙述的内容交给它,让我们听听效果如何。

ElevenLabs,机器之能,10秒

内容:说话者的独特声音特征会在所有语言中保持不变。这意味着同一种声音可以用于在 28 种不同的语言中呈现内容。

以上这段语音中,即使没有注释,相信大家也可以清晰地听出他所说的内容。语音片段还保留了她的口音特色,听上去更加真实。

现在这 28 种语言分别为中文、韩语、英语、波兰语、德语、西班牙语、法语、意大利语、印地语、葡萄牙语、荷兰语、土耳其语、瑞典语、印度尼西亚语、菲律宾语、日语、乌克兰语、希腊语、捷克语、芬兰语、罗马尼亚语、丹麦语、保加利亚语、马来语、斯洛伐克语、克罗地亚语、经典阿拉伯语和泰米尔语。

ElevenLabs 在未来还打算引入一种机制,允许用户在平台上分享声音,并从新音频的开发中受益,为人类与 AI 协作创造机会。

体验指南


图片

体验入口:https://beta.elevenlabs.io/

ElevenLabs操作指南1,机器之能,10秒内容:首先,选择语音风格,可以根据每个选项的所在地域、语言特点、语言环境来挑选你心仪的那一个。(该语音选择了 Mimi,english-swedish,childish,animation)

[Image: image.png]

图片
内容:然后调整你所需要的语音语气。可以通过稳定性、清晰度和相似度、风格夸张程度对语音语调进行改善,直到满意。(该语音设置稳定性 34%,清晰度相似度 100%,风格夸张程度 54%。)

图片内容:接下来,选择使用的版本与使用语言然后输入文本内容,点击生成后就能够得到结果啦。需要注意的是只有 Eleven Multilingual v2 支持生成中文语言。(该语音选择了 Fin,irish,sailor,video games。设置稳定性 100%,清晰度相似度 100%,风格夸张程度 18%。)


图片


以上就是全部体验过程了,快去试试吧!

ElevenLabs

 ElevenLabs 是用于 AI 语音合成的平台。这家初创公司就在前些天又完成了 1900 万美元的融资。据悉,ElevenLabs 此次融资后的估值为 9900 万美元。这对于 ElevenLabs 来说是一个非常可观的数字,毕竟它刚刚成立了一年多。

ElevenLabs 可以使用合成语音、克隆语音或全新的「人工」语音将文本转化为语音,并且这些语音可以模仿不同性别、年龄和种族的声音。

这些语音可以模仿不同性别、年龄和种族的人的声音。通过该公司的 AI 文本到语音模型,企业客户可以对其进行微调,并在此基础上建立自己的专有语音模型。这样的工具可以用来做什么呢?

  • 对于独立游戏开发商和发行商来说,多语言语音生成工具为国际受众提供了翻译游戏体验和音频内容的新机会,在不影响语音质量或准确性的情况下,玩家和听众可以通过自己的语言建立联系。
  • 教育机构能够为学习者提供目标语言的准确音频内容,增强语言理解和发音技能,并满足国际学生的不同教学风格和学习需求。
  • 所有类型的创作者都可以使用 ElevenLabs 的工具,通过用多种语言的语音补充视觉内容,以改善有视觉障碍或其他需要人员的体验。

实际上,该技术已被多个创意垂直行业和部门所接受,包括使独立作者能够创建有声读物,为视频游戏中的次要角色配音,支持视障人士访问在线书面内容,以及为世界上第一个 AI 广播视频提供技术支持。


产业
暂无评论
暂无评论~