对于许多无法发出声音的人来说,他们想说的话会通过某种信号隐藏在大脑中。
人类无法直接破译这些信号。但是,最近有三个研究小组在“破译”这种大脑语言密码上取得了一定进展。
Science杂志最新报道了哥伦比亚大学(Columbia University)、德国不莱梅大学(Bremen)和加州大学旧金山分校的三个研究小组的相关研究:通过手术,他们在大脑上放置电极,搜集电极产生的数据,再将其通过计算机变成语音信息;接着通过神经网络模型,他们重建了在某些情况下,可以被人类听众所理解的单词和语句。
通过计算机让失去语言能力的人表达自己并不罕见,物理学家斯蒂芬·霍金在世时,就会通过拉紧他的脸颊肌肉,以触发安装在眼镜上的开关。对于经历中风或其他疾病失去说话能力的人,他们可以使用他们的眼睛或做出其他小幅动作用来控制光标或选择屏幕上的字母。
但是,如果脑机接口直接重塑语音,这样的患者可能会重新获得更多曾经丧失的能力:例如,控制音调变化,或者介入一个快速的对话。
研究该问题的道路困难重重。哥伦比亚大学(Columbia University)计算机科学家Nima Mesgarani说:“我们正试图找出在不同时间点打开与关闭神经元的模式,并由此推断语音内容。” “神经元间的映射并不浅显直白。” 这些信号如何转换为语音声音因人而异,因此模型必须针对每个人进行独特“训练”。
这些模型将在非常精确的数据上表现最好——而搜集这些精准的数据需要打开我们的头盖骨。
研究人员只能在极少数情况下才会进行此类危险性记录:一种情况是在移除脑肿瘤期间,暴露在外的大脑产生的电读数能够帮助外科医生定位以避开关键的语音及运动区;另一种情况是在手术前为癫痫患者植入电极并保持数天以确定癫痫发作起因。
瑞士日内瓦大学神经工程师Stephanie Martin表示说,“我们最多只有20分钟,最多30分钟来收集数据——真的非常非常受限。”
新论文背后的研究组尽量最大化利用数据、将信息提供给神经网络;神经网络通过将信息传递到计算“节点”层来处理复杂的行为模式。网络通过调整节点之间的连接来学习。本实验则使用人类产生或听到的语音以及与此同时大脑活动的数据来训练神经网络。
Mesgarani的团队的研究使用了五名癫痫患者的数据。
随着病人们听到故事录音以及0至9数字录音,他们的神经网络同步分析其听觉皮层(该皮层在语音和听力过程中都很活跃)活动。随后计算机仅根据神经数据来重新生成数字。有一组听众会在计算机“说出”数字同时对其进行评估;其精确度大约为75%。
由德国不莱梅大学(Bremen)计算机科学家Tanja Schultz领导的另一个团队使用了六名接受脑肿瘤手术的人的数据。
他们让被测试者朗读单音单词,用麦克风捕捉他们的声音。同时,大脑的语音规划区和运动区产生的电极会被记录下来(这些电极向声道发送命令以清楚地表达单词)。
现在正与马斯特里赫特大学(Maastricht)合作的计算机科学家Miguel Angrick和Christian Herff训练了一个将电极读数映射到录音然后从以前看不见的大脑数据中重建单词神经网络。根据一项计算机评分系统,大约40%的计算机生成单词是可以理解的。
最后,加州大学旧金山分校的神经外科医生Edward Chang和他的团队根据由三名癫痫患者大声朗读语音引起的、从语言及运动区域捕获的大脑活动,重建了整个句子。
在线上测试中,有166人听懂了其中一个句子,并从10项文字选项中进行选择。超过80%的情况下模型都能够正确识别句子。研究人员还进一步改进了模型:他们使用它根据人类的唇语来重新创建句子。Herff说,这是一项重要的结果——“离我们所有人都设想到的‘语言修复’更近了一步。”
然而,“我们真正想知道的是当患者不能说话时,(这些方法)将能够如何起作用”,加州圣地亚哥州立大学研究语言生成的神经科学家Stephanie Riès说。
一个人默默说话或在自己脑中听到自己声音时的信号,与真正说话或听到某些内容时产生的信号并不是完全相同的。如果没有外部声音来匹配大脑活动,计算机甚至可能连理清内部语音开始与结束位置这种任务都很难完成。
奥尔巴尼纽约州卫生部国家自适应神经技术中心的神经工程师Gerwin Schalk说,解码大脑中的演讲将需要“科学大跃进”:“根本不清楚如何做到这一点。”
Herff说,有一种可能的方法,是向大脑-计算机交互界面的用户提供反馈:如果他们能够实时听到计算机的语音解释,他们可能能够即时调整他们的想法以获得理想结果。
通过对用户和神经网络的充分训练,大脑和计算机可能最终能达成一致。
相关报道: