Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

在今年的音乐科技顶会 ISMIR 2021(International Society for Music Information Retrieval)上,字节跳动海外技术团队有 7 篇论文入选,涵盖了音乐分类、音乐标签、音源分离、音乐结构分析等多个技术方向。

如今抖音已经成为音乐宣发的一个重要渠道。一支支音乐先在抖音上以短视频 BGM 火起来,再扩散到各大音乐平台上。抖音神曲甚至成了很多音乐平台的一个重要分类。

有人说神曲能火是因为歌词和旋律简单,听得多了就印在脑子里。但是对一个有着海量用户、复杂多样内容场景的短视频平台来说,如何让音乐更好地和短视频创作及互动融合在一起,绝不是一件简单的事。

包括抖音在内,字节跳动旗下的众多短视频 / 音乐类应用已有存量亿级的曲库,音乐片段更高达数十亿量级。让海量音乐和海量用户更懂对方的,是一整套语音、音频和音乐的智能创作能力,即 SAMI (Speech, Audio and Music Intelligence)。

就在今年的音乐科技顶会ISMIR 2021(International Society for Music Information Retrieval)上,字节跳动海外技术团队有 7 篇论文入选,涵盖了音乐分类、音乐标签、音源分离、音乐结构分析等多个技术方向。该团队成员分布在美国、英国等国家和地区,支持了字节系产品音乐的搜索、推荐、内容创作等场景,这些技术恰恰揭示了一首首神曲是如何炼成的。

音乐与视觉联动技术,让创作更简单

千万播放量的变装视频,原来人人都可以拍。音乐与视觉效果的联动,不断激发创作者发挥自己的无限想象。甚至只需上传照片,不需要任何的裁剪编辑,就可以变成属于自己的“视觉大片”。这个操作起来很简单的功能,逐渐成为了抖音素人用户的创作神器,极大程度上降低了视频拍摄门槛,让用户的创意充分展现出来。

这些视频创作效果,是基于抖音音频算法技术对音频内容的深度分析,结合视觉等算法技术形成的。SpectTNT 就是一种新型的、专为音乐频谱提取设计的深度学习模型。这项技术可被用于视频编辑中的声乐旋律提取和音乐结构分析,达到更好的音频和画面匹配效果。随着技术的不断提升,该技术还将用在音乐标记、和弦识别和节拍跟踪中,不断衍生出多种多样的视频玩法。

ISMIR 2021 论文:SpecTNT: a Time-Frequency Transformer for Music Audio

SpectTNT 模型的原理是将音频信号经过短时傅立叶变换,得到频谱图。然后,频谱图经过时间和频域的转换模型提取高层次特征。模型本身包含残差结构,使得底层信息能够充分流入到高层中。

以算法理解音乐,让曲库不再“庞大”

当我们面对着海量音乐库,哪首歌曲才能唤醒此刻的心情?算法技术,可以对音乐这一抽象的 “听觉艺术” 进行客观的分析及展示,大大提升用户发现音乐的效率。

用户想给视频找个合适的配乐,往往通过标签分类进行查询,例如曲风就是最常见的分类。目前字节提出了一种半监督式的 Transformer音乐模型来实现音乐的标签化,实现海量音乐数据的曲风、相似性的归类。音乐标签化已广泛服务于Resso、抖音、剪映等产品的音乐推荐系统中。

抖音音乐的标签搜索

ISMIR 2021 论文:<  Semi-supervised Music Tagging Transformer >

论文提出的半监督式 Transformer 音乐模型,能够突破传统卷积神经网络的一些表现,进一步提出了基于噪声学习和监督学习的方法,充分利用有标记数据和无标注数据,大幅减少人工数据标注的工作量。该模型已经超越了现在大规模使用的深度残差网络表现。

语种识别技术提升多地区、多语种用户体验

除了曲风、相似度等标签之外,在全球化环境下的音乐类应用,语种类型的识别也非常重要。字节的音乐语种识别系统,可快速分别一首歌中的中文、英语、印地语等几十种类别组成及占比。这项技术正在为 Resso 的曲库提供语言识别服务。准确地向用户推送合适语种的音乐,已经被证实能有效提高多地区、多样化语种用户的留存率。

ISMIR 2021 论文:<Listen, Read, and Identify: Multimodal Singing Language Identification of Music>

字节提出的音乐语种识别,支持多模态作为系统的输入。基于音频的对数梅尔谱图,经过 50 层的深度残差网络提取嵌入特征,并且支持使用音乐的一些结构化文本数据,例如专辑名等作为输入。经过一个语言识别模型输出嵌入特征。最后通过结合音频和元数据的多模态特征,经过全连接层输出预测的语言结果。

自动和弦识别,帮 AI 成为创作能手

除了最常见的 “标签化” 理解模式,字节的音乐理解算法,还注重对于音乐本身的内容结构分析,也是其音频算法的一大“法宝”。这一技术,让产品更懂音乐也更会用音乐。

对海量音乐 MIDI 的和弦的分析,不断发现好音乐背后的编曲奥秘,进而输出快速、大规模、高质量的和弦片段。这一技术也为 AI 自动作曲系统提供了前置条件,帮助 AI 音乐创作出更符合大多数人喜爱的音乐片段。AI 创作的音乐已经在 TikTok、抖音等产品中被广泛运用。

ISMIR 2021 论文:< A deep learning method for enforcing coherence in Automatic Chord Recognition>

该技术提出了一种能够识别音乐和弦的方法,可识别非常丰富的和弦种类,是一种基于神经网络的自回归蒸馏估计方法 NADE。经过详实的数据实测,该方案在一些经典的数据集上的和弦识别效果优于很多同类研究。

音乐表征基本功:以对比学习降低数据成本

除音乐和弦理解外,其他音乐结构分析的能力也必不可少。字节对音乐结构的理解更大程度上提高了音乐在 UGC 及 PUGC 视频场景中的使用效率,也促使着抖音成为“神曲创造机”。

先理解音乐是如何 “表达” 的,才能对音乐进行更好地 “结构化” 分析,可以大幅降低音乐内容理解的门槛。字节提出的一种新型的音乐表征模型 CLMR,只需极少的数据标注,而且通用性很强。该模型已被应用到庞大的音乐数据集中,作为音乐标签、节奏提取等的重要前置,极大地降低了成本。

ISMIR 2021 论文:< Contrastive Learning of Musical Representations >

CLMR 只需极少的数据标注,避免了监督学习中需要大量标签的情况,大幅降低了数据成本。通过对音频数据做出多种增强处理,并使用对比学习的方法,训练出音乐的通用表征。在多个音频分类的迁移学习任务上,CLMR 表征均取得了非常好的效果。

音乐结构分析新办法,帮你发挥创作潜力

人可以轻易地分辨出音乐中的高潮片段,并且可以自我发挥把一首 3 分钟的歌自然地哼到五六分钟,那么机器可以做到这么自然地过渡吗?

西瓜的音频编辑场景中,已经用到了这项技术,通过使用音乐结构分析算法,批量识别音乐中的高光、循环片段,能使得智能延长的效果更加自然,帮助用户随意延长或缩短音乐的长度,方便创作者发挥。

西瓜音乐智能延长

ISMIR 2021 论文:<Supervised Metric Learning for Music Structure Features>

字节的音乐高光检测等技术利用一种较为前沿的音乐结构分析方法,音频经过深度神经网络提出特征,提取的特征会送到一个数据挖掘模块中继续分析。本文提出的方法已用在 HarmonixSet, SALAMI, RWC 等多个数据集上。

除上述音乐理解技术外,技术团队还提供着音乐物料制作的能力支持,提升音乐在多样业务场景中的灵活性。

例如音源分离技术,能够把一首乐曲分离成人声及伴奏。在音视频编辑场景中,支持创作者给人声换个更优质的背景乐,或是提取背景音乐,换成更优质的人声。音源分离是音乐信号处理里的关键技术,该新模型效果超越大多数声音分离系统,并已在 TikTok 等场景中使用。

ISMIR 2021 论文:< Decoupling Magnitude and Phase Estimation with Deep ResUNet for Music Source Separation>

这项技术的创新之处在于,作者们提出了一种同时估计幅度谱和相位谱的方法,提升了理想掩模方法的上限,进一步提出了一个 143 层的深度残差网络。实验表明,该系统在人声分离中取得了 8.98 dB 的值。

入门字节跳动音乐分类音乐
1
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

bytedance.com
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

深度残差网络技术

残差网络是为了解决深度神经网络(DNN)隐藏层过多时的网络退化问题而提出。退化(degradation)问题是指:当网络隐藏层变多时,网络的准确度达到饱和然后急剧退化,而且这个退化不是由于过拟合引起的。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

语言识别技术

在自然语言处理中,语言识别或语言猜测是确定给定内容所使用的自然语言的问题。针对该问题的计算方法被视为文本分类的特例,并用各种统计方法解决。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

Audi机构

奥迪是一间德国跨国豪华汽车制造商,主要从事豪华和高性能汽车制造业。总部位于德国巴伐利亚州的英戈尔施塔特。是大众集团的成员。奥迪与德国品牌宝马和梅赛德斯-奔驰一起,是世界上最畅销的豪华汽车品牌之一。

http://www.audi.com/
Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
音乐分类技术

音乐分类是指将音乐样本依据其特点划分为某个类别或类型。

推荐文章
暂无评论
暂无评论~