Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

霉霉演唱《稻香》,国内团队的Amphion音频生成火了

香港中文大学(深圳)数据科学学院武执政副教授团队联合上海人工智能实验室 OpenMMLab 团队开源了综合音频生成项目 Amphion(安菲翁)。该系统旨在打造一个集语音合成转换、歌声合成转换、音效音乐生成等多功能为一体的开源平台。截至目前,Amphion 已经多次进入 GitHub Trending Repositories 榜单。

2022 年被称为 AIGC 元年,ChatGPT、Stable Diffusion、MidJourney 为代表的文字、图像应用带火了 AI 领域。2023 年,AI 孙燕姿、AI 郭德纲、音效生成、音乐生成也在社交媒体上火了一把。

今天,我们还能听到泰勒 · 斯威夫特唱周杰伦的稻香。

这看似简单,但实际上背后的技术十分复杂,也正是由于音频领域的领域知识壁垒,工程师们上手并不容易。

近日,香港中文大学(深圳)数据科学学院武执政副教授团队联合上海人工智能实验室 OpenMMLab 团队开源了综合音频生成项目 Amphion(安菲翁)。该系统旨在打造一个面向科研群体及刚进入或想要进入该领域的工程师的,集语音合成及转换、歌声合成及转换、音效及音乐生成等多功能为一体的开源平台。目前,该研究已经在海外社交平台上引发了极大的关注。

图片

  • 项目地址: https://github.com/open-mmlab/Amphion

  • 论文地址:https://arxiv.org/abs/2312.09911

OpenMMLab 在 AI 领域无人不知,是目前最具国际影响力的计算机视觉开源算法体系,在 GitHub 上获得超过 9 万星标,用户遍及全球 140 个国家和地区。联合实验室兄弟团队推出了性能领先的千亿级参数语言模型 “书生・浦语”(InternLM),并建设了首个面向大模型研发与应用的全链条开源体系。该团队的研究成果还包括社区内规模最大、覆盖领域最完整的大模型评测平台 OpenCompass,推理性能领先的大模型推理框架 LMDeploy 等。

这是 OpenMMLab 第一次涉足音频与语音领域,相信这次开源会给多模态生成带来了更多的想象空间。在没有公开宣传之前,Amphion 已经数次进入 GitHub Trending Repositories 榜单。可以说,Amphion 一出生就自带光环。

图片

Amphion

Amphion 是一个综合的音频生成平台。该项目涵盖多种经典的音频生成任务,如语音合成、语音转换、歌声合成、歌声转换、音效生成、音乐生成、语音增强,以及多元的 AIGC 音频任务,诸如多模态控制的音效生成和音乐生成。Amphion 独有的可视化功能可以帮助初级研究人员和工程师更好地理解相关模型,从而协助初级研究人员和工程师在音频、音乐和语音生成等方面实现可持续的研究与开发。

图片

Amphion 技术报告详细对比了 Amphion 的一些任务和算法与 GitHub 上较受欢迎的开源系统在性能上的异同。总体来说,Amphion 用一个系统达到甚至超过了 GitHub 上相关任务多个热门系统。

SVC:歌声转换

对很多人来说,“歌声转换” 这个词可能比较陌生,但是不少人都应该听说过今年爆火的 “AI 孙燕姿”。“AI 孙燕姿” 背后的技术正是歌声转换。

通俗来说,歌声转换技术就是通过 AI 技术,把一个人唱歌的声音音色转变得听起来像另外一个人的技术。这一过程通常牵涉到信号处理机器学习深度学习等算法。Amphion 系统集成了经典的特征提取模型。除了集成了经典的扩散模型、VITS 模型外,还集成了来自大名鼎鼎的 OpenAI 的 Whisper 模型。为了得到好的音质,Amphion 集成了 BigVGAN、HiFi-GAN、DiffWave 等主流声码器。同时,Amphion 的声码器还集成了港中大(深圳)的最新成果。

图片

 Amphion 的技术报告里的主观评测显示,Amphion 在自然度和相似度上均超过了之前流行的 So-VITS-SVC 系统。目前,Amphion 的特征设计已被 So-VITS-SVC 5.0 系统借鉴。

图片

TTS:语音生成

语音生成即文语生成,指的是将文字输入转成相应的语音输出的技术。当前,该模块主要采用了深度学习技术,将文本转换成自然流畅的高拟真度的语音。该技术在有声电子书、视频配音等方面有广泛的应用。Amphion 系统实现了经典的 FastSpeech2 模型、VITS 模型等,以及最新流行的 zero-shot 语音合成技术,即 Vall-E,NaturalSpeech2。

图片

Amphion 的技术报告显示,在客观指标和主观指标上,Amphion 均达到乃至超越了当前最受关注的开源系统的水平。

图片

TTA:音频生成

文本驱动的生成模型在图像和视频领域均已取得显著成果。在图像领域,Stable Diffusion 和 MidJourney 已经可以生成高质量的图像;而在音频领域,文本到音频的生成模型必将对许多与创作相关的行业必将产生积极深远的影响。例如,游戏开发者或电影配音人员可以利用这项技术,根据特定的需求生成音效,而不必在庞大的音频效果数据库中进行搜索及编辑,从而提高生产效率。

Amphion 集成了当下最主流的文本驱动的音频生成模型架构,即基于 VAE Encoder、Decoder 和 Latent Diffusion 的文本驱动的音频生成算法。在该架构下,Latent Diffusion 扩散模型以 T5 编码后的文本为输入,根据文本的指引生成对应的音频效果。

图片

Amphion 的技术报告的客观指标显示,Amphion 在 TTA 任务上达到了领先的技术水平。

图片

Vocoder:声码器

声码器(Vocoder)是音频、语音生成最重要的一个模块,也是确保声音合成质量的关键。Amphion 集成了 BigVGAN、HiFi-GAN、DiffWave 等主流声码器,也集成了港中大(深圳)最新发表的成果。

Amphion 的技术报告表明,Amphion 中的 HiFi-GAN 声码器在客观指标上均超过当前热门的开源工具。

图片

可视化

与传统的语音、音频开源工具不同,Amphion 提供了可视化功能。Amphion 团队希望可视化功能能让初学者更好地理解模型的原理和细节。目前,Amphion 团队提供了扩散模型的可视化截图。该功能通过扩散模型在歌声转换上的可视化,形象地呈现出一位歌手模仿另外一位歌手的渐变过程。

图片

Amphion 团队

负责人:武执政博士

武执政博士现任香港中文大学(深圳)副教授。他曾入选国家级青年人才,连续多次入选斯坦福大学 “全球前 2%顶尖科学家”、爱思唯尔 “中国高被引学者” 榜单。他于 2015 年获得南洋理工大学博士学位,并先后在 Meta(原 Facebook)、京东、苹果、爱丁堡大学、微软亚洲研究院等多个机构从事学术研究和技术领导工作。武执政博士带领开发了语音合成开源系统 Merlin,发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测,并组织了 2019 年语音合成国际评测(Blizzard Challenge 2019),曾获得 INTERSPEECH 2016 最佳学生论文奖、2012 年亚太信号与信息处理协会年度峰会最佳论文奖。他现在是 IEEE 语音与语言处理技术委员会委员,语音领域权威期刊 IEEE/ACM Transactions on Audio, Speech and Language Processing 的 Associate Editor,IEEE Spoken Language Technology Workshop 2024 的大会主席,曾受邀在 ICASSP 2022、ISCA SPSC Workshop、IJCAI 2023 DADA Workshop 等权威学术会议做特邀报告。

核心成员

Amphion 团队核心都是港中大(深圳)学生,他们的背景都相当亮眼,是妥妥的 “别人家的团队”。

共一张雪遥刚刚博二,他的文章却已经被谷歌学术引用数百次,且在 2023 年入选了全国仅 55 人的腾讯犀牛鸟精英人才计划;共一王远程带一作顶会 NeurIPS 直博入学港中大(深圳);共一薛浏蒙博士有微软、腾讯京东等多家大厂的实习经历。

值得一提的是,Amphion 核心成员中还有两位港中大(深圳)大二学生。共一顾毅骋包揽了 Amphion 中声码器(vocoder)的所有代码,他大一入学三周即进组科研,大二第一学期即手握语音领域顶级会议文章;大二学生王超人也是人如其名,一个人包揽 Amphion 可视化部分的所有代码,而且他的个人开源系统在 GitHub 上已收获数千颗星。

Amphion 名字背后的含义

"Amphion" 取名自古希腊神话中传奇音乐家 Amphion。传说中,Amphion 以弹奏竖琴而著称,并运用他的音乐才能建造了底比斯城墙。据说他的琴声能感动树木和岩石。Amphion 团队希望借用安菲翁的音乐天赋和传奇,畅想项目助力科研和开发的美好愿景,擘画声音科技逐步迈向可持续发展的美好蓝图。

图片

Amphion 在线 Demo 体验链接:

  • Text to Speech

    • HuggingFace Demo: https://huggingface.co/spaces/amphion/Text-to-Speech

    • OpenXLab应用: https://openxlab.org.cn/apps/detail/Amphion/Text-to-Speech

  • Singing Voice Conversion

    • HuggingFace Space: https://huggingface.co/spaces/amphion/singing_voice_conversion

    • OpenXLab应用: https://openxlab.org.cn/apps/detail/Amphion/singing_voice_conversion

  • Text to Audio

    • HuggingFace Demo: https://huggingface.co/spaces/amphion/Text-to-Audio

    • OpenXLab应用:  https://openxlab.org.cn/apps/detail/Amphion/Text-to-Audio

产业OpenMMLabAmphion
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

语音增强技术

语音增强旨在通过利用信号处理算法提高语音的质量和可懂度。 主要包括1. 语音解混响,混响是由于空间环境对声音信号的反射产生的;2,语音降噪,干扰主要来源于各种环境和人的噪声;3. 语音分离,噪声主要来源于其他说话人的声音信号。通过去除这些噪声或者人声来提高语音的质量。现已经应用于现实生活中,如电话、语音识别、助听器、VoIP以及电话会议系统等。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东零售、京东物流、京东科技子集团、印尼&泰国海外合资跨境电商等核心业务。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作。

https://www.jd.com
相关技术
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
Audi机构

奥迪是一间德国跨国豪华汽车制造商,主要从事豪华和高性能汽车制造业。总部位于德国巴伐利亚州的英戈尔施塔特。是大众集团的成员。奥迪与德国品牌宝马和梅赛德斯-奔驰一起,是世界上最畅销的豪华汽车品牌之一。

http://www.audi.com/
暂无评论
暂无评论~