我们终于能用「念力」进行对话了?这多亏了AI的神操作!

如果不用张口,就能告诉别人你的想法,这是不是很酷?在AI的帮助下,这个场景将不再局限于科幻片里,而有可能真真切切地发生在现实生活中。

通过收集大脑的神经信号,并结合语言生成器和人工智能,哥伦比亚大学的学者在计算机和大脑之间建立了一座直通的桥梁。虽然普通人似乎并不需要这种技术,但它可以极大地帮助有语言功能障碍的人群,特别是像霍金这样有肌萎缩侧索硬化症的患者重新和世界交流。

时频谱大概长这样,但是科学研究里不需要搞得花花绿绿就是了(图片来源:Pixabay)

过去数十年间的神经科学研究告诉我们,当人在说话或想象说话的时候,大脑内就会产生对应活动的信号;对于听觉,亦是如此。很多专家都希望能通过解析大脑活动来推测对应的话语内容,主要的方法之一就是分析时频谱(spectrogram),即反映声音波动频率的图像。由于模型过于单一,这样的尝试并不太成功。

这次,哥伦比亚大学神经声学处理实验室副教授Nima Mesgarani博士和他的同事们把目光转向了声码器(vocoder)和深度神经网络。声码器是一种可以在训练后合成语言的算法。

研究人员招募了一些进行过手术的癫痫患者,要求他们听取不同人朗诵的语句,并提取它们大脑听觉区的神经信号来训练声码器。接下来,受试者会听取朗诵者朗诵0到9的数字组合,并再次提取大脑的神经信号。这些神经信号经过神经网络处理后,会由声码器进行语言合成,尝试复述受试者听过的数字

深度神经网络的结构类似人脑神经元和层状结构,所以能更好地模仿大脑对信息的处理方式。也许正因如此,经神经网络处理过的信号可以被声码器更好地还原,这种方式还原听觉信号比使用单一模型分析时频谱的准确度高了65%,达到约75%

这项研究距完全成熟仍需时日,但是它的确为语言障碍患者带来了一种全新的可能。这项技术能帮助他们把大脑中的想法直接抽取而出,并通过语音合成让其他人听到,无疑会大大提高他们融入社会的程度。不仅如此,深度学习和语言合成的搭配还为新的脑机接口奠定了基石,有望提高人机交互科技的水平。

接下来,Mesgarani博士和他的团队计划测试更多复杂的词汇和语句,并提取大脑言语区的神经信号进行语言合成试验,以覆盖听和说这两种最基本的交流需求。

参考资料:

[1] Columbia engineers translate brain signals directly into speech. Retrieved Feb 1, 2019 from https://www.eurekalert.org/pub_releases/2019-01/tzia-cet012419.php

[2] Akbari et al., (2018). Towards reconstructing intelligible speech from the human auditory cortex. bioRxiv, 350124.

药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业语音合成哥伦比亚大学神经科学深度神经网络
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~