Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

只需观察大脑活动,AI「读心」技术就可以帮你合成语音

缺胳膊少腿可以用假肢来补充,不能说话就只能靠手语吗?并不是。日前,《Science》报道:来自三个研究团队的进展表明,计算机可以读取大脑中的数据并把它「说」出来。

霍金时代的脑波打字技术,或许很快就要被直接发声的新技术取代了。

人工智能先驱,FAIR 主管 Yann LeCun 对这些研究表示欢迎,他表示:

「我们的发音速度受限于人类发音器官的机械限制,还是受到大脑语音生成皮层的速度限制?如果是前者,那么拥有语音生成植入体的人有一天可能会比没有装备的人说话更快。」

对于很多无法说话的人来说,他们想说的话的信号就藏在大脑中。没有人能够直接解码这些信号。而近期三支研究团队取得了进展,他们可以将手术时放置在大脑上的电极片输出的数据转换成计算机生成的语音。在某些情况下,他们使用神经网络将其重建为人类能够听懂的单词和句子。

他们近期发表在论文预印本平台 bioRxiv 的上论文没有涉及重建语音。研究人员监控了大脑部分在人大声朗读、不出声地说话或听录音时的反应,发现重建的语音是可以被理解的,这真是「太令人振奋了」,瑞士日内瓦大学神经工程师 Stephanie Martin 表示。他并未参与这一新项目。

在中风或生病后无法说话的人可以使用眼睛或其他小动作来控制光标或选择电脑屏幕上的字母。(史蒂芬·霍金通过脸上一块肌肉的运动来触发眼镜上的开关,从而实现输出。)但是如果脑机接口可以直接重建语音,那他们或许可以重获更多能力,比如控制音色和语调,或者插入快速对话中。

但还有很多障碍。「我们尝试开发一种模式……神经元可以在不同的时间点开和关,推断语音。」哥伦比亚大学计算机科学家 Nima Mesgarani 表示,「映射并不是直接的。」信号到语音的转换因人而异,因此计算机模型必须针对个人进行「训练」。模型在处理非常精准的数据时效果最好,而这需要开颅。

研究者仅在极少见的情况下做此类侵入式记录。一种情况是在摘除脑部肿瘤时,从暴露的脑部进行电子读取可以帮助医生定位,避开关键语音和运动区域。另一种情况是给癫痫病患者植入电极片,以在手术治疗前精准定位癫痫发作的病源。「我们最多只有 20 分钟,或 30 分钟」来收集数据,Martin 表示,「我们真的真的很受限制。」

发表新论文的几个小组充分利用了宝贵的数据,他们将信息输入到神经网络中,神经网络通过将信息输入到计算「节点」层来处理复杂模式。神经网络通过调整节点之间的连接来学习。在实验中,神经网络接受人输出或听到的语音录音,以及同时的大脑活动数据。

Mesgarani 团队的数据来自于五位癫痫病患者。他们的网络分析病人听故事录音和从 0 到 9 数数时来自听觉皮层的记录(听觉皮层在说话和倾听时处于活跃状态)。然后计算机重建来自神经数据的数字,当计算机「说出」数字时,一组听众实现了 75% 的准确率

另一个团队由来自荷兰马斯特里赫特大学的 Christian Herff 和德国不来梅大学的 Miguel Angrick 两位神经科学家领导。他们的数据来自 6 位接受脑瘤手术的患者。当他们大声朗读单音节单词时,麦克风捕捉到了他们的声音。同时,从大脑语音规划区域和运动区记录信息的电极片向声道发送指令来表达单词。网络把电极片读取结果映射到音频记录中,然后根据之前未见的大脑数据重建单词。根据计算机评分系统,大约 40% 由计算机生成的单词是可以理解的。

最后,神经外科医生 Edward Chang 及其在加州大学的团队根据三名癫痫患者朗读时从语音和运动区捕获的大脑活动重建了所有的句子。在一份在线测试中,166 个人任意收听其中一句,然后从 10 个书面句子中选出听到的那句。在 80% 以上的时间里,有些句子被准确识别。研究人员进一步推动了这一模型:他们根据人们无声说出单词时记录的数据来重建句子。Herff 表示,这个结果很重要,因为「它离我们想做的语音假肢更近了一步。」

然而,「我们真正想知道的是,当病人无法说话时,这些方法会怎么做。」研究语言产生的加州圣地亚哥州立大学神经科学家 Stephanie Riès 说道。人在脑海中无声地「说出」或「听到」声音时的大脑信号与真实说话或听声音时的信号不一样。没有外部声音来匹配大脑活动的话,计算机甚至很难知道内语何时开始、何时结束。

解码想象的语音将需要「巨大的飞跃」,而「现在完全不知道要怎么做」。纽约州卫生署(New York State Department of Health)国家适应性神经技术中心的神经工程师 Gerwin Schalk 表示。

Herff 说,有一个方法可以给脑机接口的用户提供反馈:如果他们能够实时听到计算机的语音解释,他们就可以调整想法以获得想要的结果。如果用户和神经网络都接受了充分的训练,大脑和计算机可能会在中间相遇。 

原文链接:https://www.sciencemag.org/news/2019/01/artificial-intelligence-turns-brain-activity-speech

理论脑机接口
1
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

推荐文章
暂无评论
暂无评论~