Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

「音乐界Sora」Udio来了:前DeepMind员工创业,比Suno可定制性更强

我们已经看到,AI 已经能够理解和生成文本、图像、视频,尽管各个产品目前能达到的准确性和审美水准还不相同。

自带曲谱的音乐生成似乎是 AI 要征服的下一座山峰,而这场竞争正在白热化。

近日,音乐生成领域再次迎来新玩家「Udio」。

图片

与前段时间大火的 Suno V3 相似,Udio 仅通过一些人工输入的文本提示(包括用户提供的歌词),就可以创建高保真音乐音频。但它拥有比 Suno 更多的自定义能力,风格涵盖乡村音乐、理发店四重唱(Barbershop)、德国流行乐(German pop)、古典音乐、硬摇滚、嘻哈、演唱曲调等。

在测试阶段,用户可以免费使用,每人每月可以免费生成 1200 首音乐。

在官网中,我们已经看到了众多网友的创作成果:https://www.udio.com/

图片

发布之后,由于大量用户涌入,官网一度崩溃:

图片

从高亢的福音音乐到低沉的蓝调音乐,从梦幻般的流行音乐到柔美的说唱,Udio 应有尽有。

我们先来听几首「编辑精选」的曲目:

《Rising Sun Gospel》

标签:Female vocalist, R&b, Contemporary r&b, Passionate, Rhythmic, Uplifting, Lush, Introspective, Anthemic, Gospel

歌词:

There is a house way down in New Orleans
They call the Rising Sun
And it's been the ruin of many a poor boy
And God I know I'm one

《Crater Lullaby》

标签:Americana, Northern american music, Regional music, Folk, Country

歌词:

[Verse]

With each step on the moon dust

In a sea of tranquil gray

Solitude in one vast jump

Leaves the world so far away

[Chorus]

Like a lone space cowboy, yeah

Ridin' past the craters wide

X 用户 @Min Choi 率先注册了 Udio 账号生成了多首音乐作品,并盛赞:「这就像是音乐界的 Sora。」 

但也有人试完感觉:「好像不如 Suno?」

一部分网友怀疑,Udio 网站上展示的高质量音乐 demo 很可能是通过大量人工输入(如人工撰写的歌词),并从多次迭代的歌曲中挑选出最佳作曲部分而产生的。

Udio 官方表示:「v1 模型功能强大,但并不完美。我们正在快速迭代,并致力于更长的样本、更好的音质、支持更多语言和下一代可控性。敬请期待即将推出的更多功能和改进。」

官方教程

Udio 分两个阶段完成任务:首先利用类似于 ChatGPT 的大语言模型,根据所提供的提示生成歌词。接下来,利用一种 Udio 没有透露的方法合成音乐,但这很可能是一种扩散模型,类似于 Stability AI 的 Stable Audio。此外,Udio 团队没有透露其模型或训练数据的具体细节(其中很可能充斥着受版权保护的材料)。

在「常见问题」中,Udio 列出了制作一首 1.5 分钟时长歌曲的使用指南:https://www.udio.com/faq

首先,在提示框中输入您要创建的内容的描述,然后单击 “创建”。

例如,输入「一首关于纽约的爵士歌曲」:

图片

如果不确定要输入什么内容,可以单击骰子图标,使用随机示例提示填充提示框。

提示词一般由自由格式文本和标签的组合组成,例如「一首关于夏雨、爵士、醇厚、温暖的歌曲」。其中「一首关于夏雨的歌」是自由形式,「爵士」、「醇厚」、「温暖」是标签。请注意,提示词的不同部分用逗号 (,)、分号 (;) 或句号 (.) 分隔,可以包含任意数量、任意顺序的自由形式部件和标签。

此外,提示词中也可以引用艺术家风格,这样可以更轻松地描述您想要创建的音乐。例如可以将上面的提示扩展为:「一首关于夏雨的歌曲,爵士乐,醇厚,温暖,比莉・哈乐黛的风格。」不过,Udio 并不会使用艺术家的声音生成歌曲,风格只是用于参考,在幕后会被一组相关标签替换。

在文本输入框下方,系统也推荐一些标签,用户可以单击它们将其添加到提示中:

图片

图片

如果你想使用自己的歌词,可以在提示框的歌词部分选择自定义模式,然后将歌词放入文本输入中。Udio 能够识别的语言包括中文、日语、俄语、波兰语、德语、法语、意大利语。如果想为创作增添趣味,可以添加特殊描述符,例如 [Verse]、[Chorus]、[Hook]、[Guitar Solo] 或 [Drop]。

如下图所示:

图片

但是,无论文本提示多么详细,都无法完全定义一首实际的音乐 —— 同一份文本描述会产生无数可能的音轨。这就是为什么为了接近脑海中的音乐创意,用户可能需要创建具有相同提示(和其他设置)的多个剪辑。

根据给定的提示,Udio 的人工智能模型会生成两个不同的歌曲片段供选择。然后,用户可以在 Udio 社区发布歌曲,下载音频或视频文件在其他平台上分享,或直接在社交媒体上分享,其他 Udio 用户也可以对现有歌曲进行混音或改编。Udio 的服务条款规定,公司对生成的音乐不享有任何权利,用户可以将其用于商业目的。

Udio 这家公司由一批 DeepMind 前员工在 2023 年创立,在伦敦和纽约均设有办公室。目前已经得到了 16z、will.i.am、Common、Tay Keith、Steve Stoute 的 UnitedMasters、Mike Krieger(Instagram 联合创始人兼首席技术官)、Kevin Wall、a16z 文化领导力基金和 Oriol Vinyals(Gemini colead)的支持。

Udio 联合创始人、CEO David (Fengning) Ding 曾在 2018 年到 2023 年 10 月期间在 DeepMind 任职:

图片

Udio 的诞生,象征着 AI 生成音乐已经达到了「专业级」。因此,它被一些人称为新时代的先驱,也被另一些人称为「Suno 杀手」。

但可以判定的是,音乐界的这场革命,还远远没有走到终点。

产业Udio音乐生成
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

Audi机构

奥迪是一间德国跨国豪华汽车制造商,主要从事豪华和高性能汽车制造业。总部位于德国巴伐利亚州的英戈尔施塔特。是大众集团的成员。奥迪与德国品牌宝马和梅赛德斯-奔驰一起,是世界上最畅销的豪华汽车品牌之一。

http://www.audi.com/
推荐文章
暂无评论
暂无评论~