如果不用张口,就能告诉别人你的想法,这是不是很酷?在AI的帮助下,这个场景将不再局限于科幻片里,而有可能真真切切地发生在现实生活中。
通过收集大脑的神经信号,并结合语言生成器和人工智能,哥伦比亚大学的学者在计算机和大脑之间建立了一座直通的桥梁。虽然普通人似乎并不需要这种技术,但它可以极大地帮助有语言功能障碍的人群,特别是像霍金这样有肌萎缩侧索硬化症的患者重新和世界交流。
▲时频谱大概长这样,但是科学研究里不需要搞得花花绿绿就是了(图片来源:Pixabay)
过去数十年间的神经科学研究告诉我们,当人在说话或想象说话的时候,大脑内就会产生对应活动的信号;对于听觉,亦是如此。很多专家都希望能通过解析大脑活动来推测对应的话语内容,主要的方法之一就是分析时频谱(spectrogram),即反映声音波动频率的图像。由于模型过于单一,这样的尝试并不太成功。
这次,哥伦比亚大学神经声学处理实验室副教授Nima Mesgarani博士和他的同事们把目光转向了声码器(vocoder)和深度神经网络。声码器是一种可以在训练后合成语言的算法。
研究人员招募了一些进行过手术的癫痫患者,要求他们听取不同人朗诵的语句,并提取它们大脑听觉区的神经信号来训练声码器。接下来,受试者会听取朗诵者朗诵0到9的数字组合,并再次提取大脑的神经信号。这些神经信号经过神经网络处理后,会由声码器进行语言合成,尝试复述受试者听过的数字。
深度神经网络的结构类似人脑神经元和层状结构,所以能更好地模仿大脑对信息的处理方式。也许正因如此,经神经网络处理过的信号可以被声码器更好地还原,这种方式还原听觉信号比使用单一模型分析时频谱的准确度高了65%,达到约75%。
这项研究距完全成熟仍需时日,但是它的确为语言障碍患者带来了一种全新的可能。这项技术能帮助他们把大脑中的想法直接抽取而出,并通过语音合成让其他人听到,无疑会大大提高他们融入社会的程度。不仅如此,深度学习和语言合成的搭配还为新的脑机接口奠定了基石,有望提高人机交互科技的水平。
接下来,Mesgarani博士和他的团队计划测试更多复杂的词汇和语句,并提取大脑言语区的神经信号进行语言合成试验,以覆盖听和说这两种最基本的交流需求。
参考资料:
[1] Columbia engineers translate brain signals directly into speech. Retrieved Feb 1, 2019 from https://www.eurekalert.org/pub_releases/2019-01/tzia-cet012419.php
[2] Akbari et al., (2018). Towards reconstructing intelligible speech from the human auditory cortex. bioRxiv, 350124.