大茜、笪洁琼、云舟编译

学界 | MIT最新:机器学习首次模仿大脑处理声音,能辩歌词和歌曲分类


你是否对于Spotify之类的软件产生过这样的疑问:“Spotify,你放音乐的时候在想什么?”实际上这类软件可能会像你一样思考。

一项麻省理工学院的新研究表明,科学家们构建了一个机器学习系统,可以像人类一样处理声音,能够辨别歌词或按流派对音乐进行分类。

它是第一个模仿大脑来解读声音的人造系统,在准确性上能够与人类相媲美。这项研究发表在Neuron杂志上,为研究人脑提供了吸引人的新方法。

大数据文摘微信公众号后台回复“音乐”即可获得研究论文哟~

机器学习系统无处不在,例如各种有音乐推荐功能的软件。不过软件工程师们通常不知道这些系统如何“思考”,也不知道软件的内部工作方式是是否与人脑具有相似性。

研究人员的模型是基于著名的深度神经网络——受到人体神经元或脑细胞的启发发展而来。它可以通过分层来处理信息,且最深的层执行最复杂的工作。科学家可以训练这些模型来“学习”人类的行为,比如分析声音。

研究人员对模型建立了两个目标。第一,播放两秒钟的演讲片段,来测试模型识别演讲中出现的词。第二,播放两秒钟的音乐,来测试该模型如何将这段音乐分类。此外,研究人员还在每次测试时设置噪音来增加模型识别的难度。

实验需要数千个案例来训练模型,不过最终,模型的性能表现得和人脑一样不错。模型能够识别数十种音乐类型,比如它可以从ska或gothic摇滚中识别出dubstep。不过,在播放城市声音的片段时,和人脑一样,它也会犯错误。

但是研究人员仍然不确定所建立的模型是否能像大脑那样处理信号——或者说它有自己的方法来解决同样的问题。因此他们需要查看人脑的情况。

文章的第一作者Alex Kell来自麻省理工学院,他研究了fMRI扫描仪的数据,观察了人听到一系列大自然的声音的时候,大脑的哪个区域最活跃。

接着,他将这些声音输入到模型中。他发现,当模型处理一些相对基本的信息时(例如声音或模式的频率),其与大脑的某个区域相对应。而承担更复杂的任务时(例如识别音乐的含义),模型与人脑的另一区域相对应。

这表明模型从最简单到最复杂的层次结构,都能和人脑以相同的方式处理信息。

路易斯安那州立大学实验音乐和数字媒体(研究将神经网络云运用到音乐上的)的准博士Andrew Pfalz说,这种将深度神经网络的内部运作与大脑连接的能力太令人振奋了。

机器学习系统无处不在,例如各种有音乐推荐功能的软件。不过软件工程师们通常不知道这些系统如何“思考”,也不知道软件的内部工作方式是如何跟人脑相似的。

“这是一个黑匣子,”Pfalz说,“有趣的是,我们训练这些模型,也看到它们能够正确的分类和预测,然而我们并不知道里面发生了什么。”

但是经过探索,麻省理工学院的研究人员能够清楚地了解系统的哪些层面处于何种状态,以及模型是如何和人脑一样处理相同的声音的。

最初受大脑构造启发而来的机器学习系统(因此称为“神经网络”),现在正在帮助科学家们更好的研究大脑。Pfalz觉得这个想法很有趣。

不过,主要研究使用机器学习系统创作音乐的北佛罗里达大学的计算机学家Ching-Hua Chuan强调了这一说法的广泛性。“[神经网络]从来没有打算模拟我们的大脑是如何工作的,”她补充道,窥探“黑匣子”内部情况的困难性表明,需要更多研究来证明该模型确实模拟了大脑。

麻省理工学院的团队认为他们已经快要达成这个目标了。这项研究的资深作者——麻省理工学院的Josh McDermott说,如果他们是对的,模型可以帮助科学家们理解和模拟大脑如何处理声音和其他感官信号。而且,由于在模型上进行测试比在真正的大脑上进行实验更快,更安全,成本更低,这可能会加速一些神经科学的研究进展。

Kell说,计算能力和神经网络技术并不总是能够模拟部分人脑,但过去的五年开创了一个新的时代。“在机器学习领域,历史上许多难以克服的问题实际上现在已经可以解决了。”

相关报道:

http://www.pbs.org/wgbh/nova/next/body/this-machine-learning-system-thinks-about-music-like-you-do/

【今日机器学习概念】

Have a Great Definition

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

理论机器学习深度神经网络
1
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

深度神经网络技术
Deep neural network

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

大数据技术
Big data

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经元技术
neurons

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

神经科学技术
neuroscience

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

噪音技术
Noise

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

推荐文章