对于许多瘫痪和失去语言能力的人来说,有很多时候他们想表达某些意思,却没人能够理解。但是最近,有三个研究团队在这方面取得了进展:他们通过手术在大脑中放置电极,并将电极收集到的数据利用神经网络,转换为语音形式的单词和句子,在某些情况下能够被听众解读出来。
那些因中风或其他疾病而失去说话能力的人如果想要表达他们的想法,通常会用他们的眼睛,或者做其他小动作来控制屏幕上的光标或选择文字。但是,这种表达方式能传达的信息非常有限。如果有一个脑机接口,可以直接重现他们想要说的话,例如控制语调变化,或者添加快速对话能力,我们就可以从他们的话语中获得更多的信息。
▲如何准确理解那些因疾病失去语言功能的患者想要表达的意思呢?(图片来源:123RF)
这个想法虽然很美好,但是实现起来却没有那么容易。大脑信号转化为语音的方式因人而异,因此计算机模型必须针对每个人进行训练。此外,要想达到较好的效果,输入模型的数据必须尽可能精确,这可能需要深入大脑内部,风险值也会很高。只有在极少数情况下,研究人员才能进行这种操作,通常收集数据的时间也不会超过30分钟。
而我们要讲的这三个研究团队充分利用了人们听到或说出的话语,以及在做出这些动作时相应的大脑活动数据,并将信息输入神经网络,让神经网络调整其节点之间的连接,从而处理信息中的复杂模式。
图片来源:123RF
来自哥伦比亚大学的Nima Mesgarani博士团队使用了5名癫痫患者的数据进行研究。他们使用神经网络分析了这些患者听到从1数到9的音频时,其听觉皮层的活动数据。然后,计算机根据神经网络的分析结果重新构建这些数字的信号,并将这些数字“说”出来。验证结果显示,听众听懂这些数字的准确率在75%左右。
由德国不来梅大学的神经科学家Miguel Angrick先生和荷兰马斯特里赫特大学(Maastricht University)的Christian Herff博士领导的研究团队则使用了6名接受脑肿瘤手术的患者数据。这些患者需要大声朗读单音节单词,研究人员使用麦克风来捕捉他们的声音,同时使用电极来记录其大脑负责组织语言的区域和运动区域中的活动状况。在这个研究中,神经网络负责将电极读数和音频记录进行映射,然后依据大脑数据生成单词。根据自动评分系统,大约40%的计算机生成单词是可以听懂的。
▲Angrick先生与Herff博士团队研究示意图(图片来源:bioRxiv)
最后一项研究是由加州大学旧金山分校的神经外科医生Edward Chang博士团队完成的。他们根据三名癫痫患者大声朗读过程中的大脑言语和运动区域活动状况,成功构建出了完整的句子。在166个人参与的验证测试中,参与者在80%的时间里都听出了计算机“说”出的句子。在此基础上,研究人员进一步推动了模型的进化,使其可以在人们默念单词时,从记录下的大脑活动数据中重新创建句子。
通过上面的三个研究描述我们不难看出,目前取得的研究成果都建立在患者可以说话,或者可以默念词句的基础之上。然而,如果当患者完全丧失语言功能时,情况可能会有所不同:此时大脑发出的言语信号可能会与他们实际说话时不尽相同,如果没有与此时大脑活动相匹配的外部声音,计算机可能会很难分辨言语信号的起止位置。Herff博士表示,一种可能的解决方法是向脑机接口的使用者提供反馈:如果使用者可以实时听到计算机的语音提示,他们或许可以调整自己在脑海中说的话,以得到想要的结果。
虽然目前我们还无法使用机器学习技术,来完全理解那些因疾病失去语言功能患者的内心世界,然而目前科学家们所取得的进展已经足够令我们兴奋了。这些研究证明了一个趋势:通过对神经网络的充分训练,或许在将来的某一天,人工智能和我们的大脑会碰撞出更加精彩的火花。
参考资料:
[1] Artificial intelligence turns brain activity into speech. Retrieved January 7, 2019, from https://www.sciencemag.org/news/2019/01/artificial-intelligence-turns-brain-activity-speech
[2] Akbari, et al., (2018). Towards reconstructing intelligible speech from the human auditory cortex. bioRxiv, doi: http://dx.doi.org/10.1101/350124
[3] Angrick, et al., (2018). Speech Synthesis from ECoG using Densely Connected 3D Convolutional Neural Networks. bioRxiv, doi: https://doi.org/10.1101/478644
[4] Anumanchipalli, et al., (2018). Intelligible speech synthesis from neural decoding of spoken sentences. bioRxiv, doi: https://doi.org/10.1101/481267