Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩报道

每分钟62个词,这个脑机接口成功帮助中风、渐冻症患者「开口说话」

在众多研究脑机接口(brain-computer interface,BCI)的科研团队中,斯坦福大学霍华德・休斯医学研究所研究科学家 Frank Willett 所在的团队绝对是值得关注的一个。

2021 年 5 月份,他们实现了一项重要突破,首次破译了「与手写笔迹相关」的大脑活动,可以让瘫痪患者不用手也能快速打字。

具体来讲,他们开发了一套皮质内脑机接口(intracortical BCI)系统,这套系统可以从运动皮层的神经活动中解码瘫痪患者想象中的手写动作,并利用循环神经网络(RNN)解码方法将这些手写动作实时转换为文本。这项研究登上了当时的 Nature 封面(参见:《用意念「手写」字母,准确率高达 99%,斯坦福脑机接口新突破登上 Nature 封面》)。

图片


时隔一年多,Frank Willett 又宣布了新的研究进展。这次,他们展示了一种可以将与语音相关的神经活动转化为文本的脑机接口(语音 BCI),这也是第一个从皮质内微电极阵列记录脉冲活动的语音到文本脑机接口,可以帮助因患有中风、渐冻症(ALS)等疾病而无法说出清晰语句的人们。

受试者试图说出屏幕上方显示的句子,但语言障碍的存在使她无法说出容易理解的语言。Frank Willett 等人研发的新型脑机接口能破译她的神经活动,并将其转换成她想要传达的信息。
下图展示了这套系统使用的解码算法:首先,神经活动在每个电极上被暂时合并、平滑化。然后,一个循环神经网络(RNN)将此神经活动的时间序列转换为每个音素的概率(加上词间 “沉默” token 和与联结时间分类训练程序相关的 “空白” token 的概率)。此处的 RNN 是使用 TensorFlow 2 训练的 5 层门控循环单元架构。最后,将音素概率与大词汇量语言模型(在 Kaldi 中实现的自定义 125,000 词三元组模型)相结合,以解码最可能的句子。

图片

技术部分,Frank Willett 还补充说,他们并没有在方案中采用「下一个单词预测(next word prediction)」,语言模型只负责输出迄今为止所有 RNN 输出的最佳解释。

图片

实验结果表明,这个脑机接口可以让语言障碍患者以每分钟 62 个单词的速度进行交流 —— 速度达到了之前 SOAT BCI 的 3.4 倍,并开始接近自然对话的速度(每分钟 160 个单词)。

此外,他们的结果准确率也刷新了 SOTA:在 50 个单词的词汇量上实现了 9.1% 的单词错误率(之前的 SOTA 语音 BCI 错误率是这一数字的 2.7 倍),在 12.5 万个单词的词汇量上实现了 23.8% 的单词错误率(第一次成功演示了大词汇量解码)。

这些结果表明,使用皮质内语音脑机接口来恢复语言障碍患者的快速沟通是可行的。

图片

作者提到,在文章发表在同行评议期刊上之后,他们将公布这项研究的代码和数据。

图片

不过,作者也表示,他们的演示还只是一个概念证明:证明从皮质内记录中解码试图说话的动作是一种很有前途的方法。但它还不是一个完整的、临床上可行的系统,仍有很多工作要做,比如减少训练解码器所需的时间,并适应几天内发生的神经活动变化,而无需用户暂停和重新校准 BCI。

也许最重要的是,24% 的单词错误率对于日常使用来说可能还不够低。但他们的结果显示出进一步降低单词错误率的希望。

首先,单词错误率随着通道数量的添加而降低,这表明记录更多通道的皮质内技术应该能够降低单词错误率。

其次,解码算法仍有优化空间;随着语言模型的进一步改进和日内非平稳性(within-day  nonstationarities)影响的降低,他们能够在离线分析中将单词错误率降低到 11.8%。

最后,他们发现腹侧前运动皮层即使在很小的区域(3.2 x 3.2 毫米)内也包含丰富、混合的语音发音器表示,并且即使在瘫痪多年后,音素发音的细节仍然忠实地呈现在一个无法再清楚地说话的人身上。

这些发现都为系统的后续迭代提供了希望。

更多研究细节请参见原论文:

图片

论文链接:https://www.biorxiv.org/content/10.1101/2023.01.21.524489v1

参考链接:https://twitter.com/WillettNeuro/status/1617245600898248704
理论脑机接口
相关数据
TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

门控循环单元技术

门控循环单元(GRU)是循环神经网络(RNN)中的一种门控机制,与其他门控机制相似,其旨在解决标准RNN中的梯度消失/爆炸问题并同时保留序列的长期信息。GRU在许多诸如语音识别的序列任务上与LSTM同样出色,不过它的参数比LSTM少,仅包含一个重置门(reset gate)和一个更新门(update gate)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~