还有这种操作 : 你大脑中想的事情,AI不仅知道,还能替你说出来!

对于许多瘫痪和失去语言能力的人来说,有很多时候他们想表达某些意思,却没人能够理解。但是最近,有三个研究团队在这方面取得了进展:他们通过手术在大脑中放置电极,并将电极收集到的数据利用神经网络,转换为语音形式的单词和句子,在某些情况下能够被听众解读出来。

那些因中风或其他疾病而失去说话能力的人如果想要表达他们的想法,通常会用他们的眼睛,或者做其他小动作来控制屏幕上的光标或选择文字。但是,这种表达方式能传达的信息非常有限。如果有一个脑机接口,可以直接重现他们想要说的话,例如控制语调变化,或者添加快速对话能力,我们就可以从他们的话语中获得更多的信息。

▲如何准确理解那些因疾病失去语言功能的患者想要表达的意思呢?(图片来源:123RF)

这个想法虽然很美好,但是实现起来却没有那么容易。脑信号转化为语音的方式因人而异,因此计算机模型必须针对每个人进行训练。此外,要想达到较好的效果,输入模型的数据必须尽可能精确,这可能需要深入大脑内部,风险值也会很高。只有在极少数情况下,研究人员才能进行这种操作,通常收集数据的时间也不会超过30分钟。

而我们要讲的这三个研究团队充分利用了人们听到或说出的话语,以及在做出这些动作时相应的大脑活动数据,并将信息输入神经网络,让神经网络调整其节点之间的连接,从而处理信息中的复杂模式

图片来源:123RF

来自哥伦比亚大学的Nima Mesgarani博士团队使用了5名癫痫患者的数据进行研究。他们使用神经网络分析了这些患者听到从1数到9的音频时,其听觉皮层的活动数据。然后,计算机根据神经网络的分析结果重新构建这些数字的信号,并将这些数字“说”出来。验证结果显示,听众听懂这些数字的准确率在75%左右

由德国不来梅大学的神经科学家Miguel Angrick先生和荷兰马斯特里赫特大学(Maastricht University)的Christian Herff博士领导的研究团队则使用了6名接受脑肿瘤手术的患者数据。这些患者需要大声朗读单音节单词,研究人员使用麦克风来捕捉他们的声音,同时使用电极来记录其大脑负责组织语言的区域和运动区域中的活动状况。在这个研究中,神经网络负责将电极读数和音频记录进行映射,然后依据大脑数据生成单词。根据自动评分系统,大约40%的计算机生成单词是可以听懂的。 

▲Angrick先生与Herff博士团队研究示意图(图片来源:bioRxiv)

最后一项研究是由加州大学旧金山分校的神经外科医生Edward Chang博士团队完成的。他们根据三名癫痫患者大声朗读过程中的大脑言语和运动区域活动状况,成功构建出了完整的句子。在166个人参与的验证测试中,参与者在80%的时间里都听出了计算机“说”出的句子。在此基础上,研究人员进一步推动了模型的进化,使其可以在人们默念单词时,从记录下的大脑活动数据中重新创建句子

通过上面的三个研究描述我们不难看出,目前取得的研究成果都建立在患者可以说话,或者可以默念词句的基础之上。然而,如果当患者完全丧失语言功能时,情况可能会有所不同:此时大脑发出的言语信号可能会与他们实际说话时不尽相同,如果没有与此时大脑活动相匹配的外部声音,计算机可能会很难分辨言语信号的起止位置。Herff博士表示,一种可能的解决方法是向脑机接口的使用者提供反馈:如果使用者可以实时听到计算机的语音提示,他们或许可以调整自己在脑海中说的话,以得到想要的结果。

虽然目前我们还无法使用机器学习技术,来完全理解那些因疾病失去语言功能患者的内心世界,然而目前科学家们所取得的进展已经足够令我们兴奋了。这些研究证明了一个趋势:通过对神经网络的充分训练,或许在将来的某一天,人工智能和我们的大脑会碰撞出更加精彩的火花

参考资料:

[1] Artificial intelligence turns brain activity into speech. Retrieved January 7, 2019, from https://www.sciencemag.org/news/2019/01/artificial-intelligence-turns-brain-activity-speech

[2] Akbari, et al., (2018). Towards reconstructing intelligible speech from the human auditory cortex. bioRxiv, doi: http://dx.doi.org/10.1101/350124

[3] Angrick, et al., (2018). Speech Synthesis from ECoG using Densely Connected 3D Convolutional Neural Networks. bioRxiv, doi: https://doi.org/10.1101/478644

[4] Anumanchipalli, et al., (2018). Intelligible speech synthesis from neural decoding of spoken sentences. bioRxiv, doi: https://doi.org/10.1101/481267

药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业机器学习神经网络
1
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

推荐文章
暂无评论
暂无评论~