Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张秋玥、笪洁琼编译

人工智能读心术

对于许多无法发出声音的人来说,他们想说的话会通过某种信号隐藏在大脑中。

人类无法直接破译这些信号。但是,最近有三个研究小组在“破译”这种大脑语言密码上取得了一定进展。

Science杂志最新报道了哥伦比亚大学(Columbia University)、德国不莱梅大学(Bremen)和加州大学旧金山分校的三个研究小组的相关研究:通过手术,他们在大脑上放置电极,搜集电极产生的数据,再将其通过计算机变成语音信息;接着通过神经网络模型,他们重建了在某些情况下,可以被人类听众所理解的单词和语句。

通过计算机让失去语言能力的人表达自己并不罕见,物理学家斯蒂芬·霍金在世时,就会通过拉紧他的脸颊肌肉,以触发安装在眼镜上的开关。对于经历中风或其他疾病失去说话能力的人,他们可以使用他们的眼睛或做出其他小幅动作用来控制光标或选择屏幕上的字母。

但是,如果脑机接口直接重塑语音,这样的患者可能会重新获得更多曾经丧失的能力:例如,控制音调变化,或者介入一个快速的对话。

研究该问题的道路困难重重。哥伦比亚大学(Columbia University)计算机科学家Nima Mesgarani说:“我们正试图找出在不同时间点打开与关闭神经元的模式,并由此推断语音内容。” “神经元间的映射并不浅显直白。” 这些信号如何转换为语音声音因人而异,因此模型必须针对每个人进行独特“训练”。

这些模型将在非常精确的数据上表现最好——而搜集这些精准的数据需要打开我们的头盖骨。

研究人员只能在极少数情况下才会进行此类危险性记录:一种情况是在移除脑肿瘤期间,暴露在外的大脑产生的电读数能够帮助外科医生定位以避开关键的语音及运动区;另一种情况是在手术前为癫痫患者植入电极并保持数天以确定癫痫发作起因。

瑞士日内瓦大学神经工程师Stephanie Martin表示说,“我们最多只有20分钟,最多30分钟来收集数据——真的非常非常受限。”

新论文背后的研究组尽量最大化利用数据、将信息提供给神经网络神经网络通过将信息传递到计算“节点”层来处理复杂的行为模式。网络通过调整节点之间的连接来学习。本实验则使用人类产生或听到的语音以及与此同时大脑活动的数据来训练神经网络

Mesgarani的团队的研究使用了五名癫痫患者的数据。

随着病人们听到故事录音以及0至9数字录音,他们的神经网络同步分析其听觉皮层(该皮层在语音和听力过程中都很活跃)活动。随后计算机仅根据神经数据来重新生成数字。有一组听众会在计算机“说出”数字同时对其进行评估;其精确度大约为75%。

由德国不莱梅大学(Bremen)计算机科学家Tanja Schultz领导的另一个团队使用了六名接受脑肿瘤手术的人的数据。

他们让被测试者朗读单音单词,用麦克风捕捉他们的声音。同时,大脑的语音规划区和运动区产生的电极会被记录下来(这些电极向声道发送命令以清楚地表达单词)。

现在正与马斯特里赫特大学(Maastricht)合作的计算机科学家Miguel Angrick和Christian Herff训练了一个将电极读数映射到录音然后从以前看不见的大脑数据中重建单词神经网络。根据一项计算机评分系统,大约40%的计算机生成单词是可以理解的。

最后,加州大学旧金山分校的神经外科医生Edward Chang和他的团队根据由三名癫痫患者大声朗读语音引起的、从语言及运动区域捕获的大脑活动,重建了整个句子。

在线上测试中,有166人听懂了其中一个句子,并从10项文字选项中进行选择。超过80%的情况下模型都能够正确识别句子。研究人员还进一步改进了模型:他们使用它根据人类的唇语来重新创建句子。Herff说,这是一项重要的结果——“离我们所有人都设想到的‘语言修复’更近了一步。”

然而,“我们真正想知道的是当患者不能说话时,(这些方法)将能够如何起作用”,加州圣地亚哥州立大学研究语言生成的神经科学家Stephanie Riès说。

一个人默默说话或在自己脑中听到自己声音时的信号,与真正说话或听到某些内容时产生的信号并不是完全相同的。如果没有外部声音来匹配大脑活动,计算机甚至可能连理清内部语音开始与结束位置这种任务都很难完成。

奥尔巴尼纽约州卫生部国家自适应神经技术中心的神经工程师Gerwin Schalk说,解码大脑中的演讲将需要“科学大跃进”:“根本不清楚如何做到这一点。”

Herff说,有一种可能的方法,是向大脑-计算机交互界面的用户提供反馈:如果他们能够实时听到计算机的语音解释,他们可能能够即时调整他们的想法以获得理想结果。

通过对用户和神经网络的充分训练,大脑和计算机可能最终能达成一致。

相关报道:

https://www.sciencemag.org/news/2019/01/artificial-intelligence-turns-brain-activity-speech?fbclid=IwAR0bYvZRQQArCULCmbmboMNUDOw9lONPiJGObWagma6tDNuNQIl5oHhHKw4

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

理论神经网络大脑意识自然语言处理
相关数据
神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

推荐文章
暂无评论
暂无评论~