无监督学习新应用:帮助诊疗语音障碍疾病

语音障碍的难点在于它的病理结构很难理解,这给治疗带来了麻烦。现在马萨诸塞总医院(MGH)开发出一种可穿戴设备,可以收集加速度计记录的语音障碍患者的声门脉动数据,并联合 MIT 的研究人员使用无监督学习的方法分析这些发音数据,从而检测出语音障碍患者与普通人之间的发声差异,实验还表明,经过语音治疗后,语音障碍患者的发声接近正常。

jqzx (48).jpg

没有什么比语言更基本的人类本能了,可是对很多人来说,谈话可能很费劲儿。在每 14 个工作年龄的美国人中就有 1 人患有与异常发声行为相关的语音障碍,其中一些能引起声带组织损伤,导致形成结节或息肉,干扰正常的说话能力。

不幸的是,很多基于行为的语音障碍的病理结构很难得到很好的理解。尤其是肌紧张性发声障碍患者(MTD)经常在无任何明确声带损伤或其他问题的情况下出现语音质量不断恶化和声带疲劳(「疲倦的声音」)的状况,这使病情既难诊断又难治疗。

但是来自 MIT 计算机科学与人工智能实验室(CSAIL)和马萨诸塞州总医院(MGH)的一组研究团队相信通过机器学习能更好地理解如 MTD 这样的疾病。

MGH 语音中心(MGH Voice Center)研究人员开发出一种可以收集加速度计数据( accelerometer data)的可穿戴设备。研究人员证明他们能使用这些数据检测出患有 MTD 的受试者和对照组之间的差异。同样的方法也表明,接收语音疗法(voice therapy)后,实验组表现出了与对照组类似的行为。

「我们相信这个方法能帮助检测由错误发声加剧的语音失调,并帮助实验测量语音治疗的疗效,」MIT 博士研究生 Marzyeh Ghassemi 说到,他是该研究的发表论文的第一作者,这篇论文发表在上周在洛杉矶召开的医疗领域的机器学习(Machine Learning in Health Care ,MLHC)大会上。「我们的长期目标是开发出一套在患者使用会加剧语音障碍的发声方式说话时提醒他们的系统。」

工作原理

将机器学习应用于生理信号的现有途径通常涉及了监督学习,这种方式需要研究员痛苦地给数据打标签并提供所需的输出。除了耗费时间外,这类方法目前还无法真正帮助实现对正常与不正常的发声进行分类,因为目前还没有很好地理解加速度计数据与错误使用语音之间的关联。

因为 CSAIL 研究小组不知道何时会发生错误使用语音,所以他们选择了无监督学习(unsupervised learning),使用的是实时的无标注的数据。

「患有语音障碍的人并不是总是错误发声,而没有语音障碍的人偶尔也会错误发声,」Ghassemi 说,「困难的是构建一个能区分出语音障碍患者中突出的声带运动的学习算法。」

这项研究分为两组:患有语音障碍的受试者和正常的对照组。两组人员都要在脖子上戴一个加速度计来记录它们的声带运动。

之后研究者检查这两组的数据,分析超过一亿一千万次「声门脉动(glottal pulses)」——每一次都代表着声带的一次开合。通过比较经过聚类的脉动数据,研究小组就能检测出实验组和对照组之间的显著差异。

该研究小组还发现经过语音疗法后,实验组的声门脉动与对照组的更加相似。根据 Guttag 的介绍,这是首次使用机器学习进行该类研究,并为语音疗法(voice therapy)的治疗效果提供了客观的证据。

「当一名患者接受该治疗时,你也许只能分析他的声音二三十分钟,来看看发声时不正确的地方,并让他们练习更好的发声技巧,」威斯康星大学医学与公共卫生学院外科系的博士 Susan Thibeault 说。「一旦他们离开后,我们真的不知道他们做得怎么样了,因此,我很高兴我们最终通过患者的可穿戴设备, 24 小时记录数据,以提供更直接的反馈」

展望

该研究项目的一个长期目标是能够使用数据不仅改善语音障碍患者的生活质量,还能但潜在地帮助诊断特定的语音障碍。

该研究团队也希望进一步探索特定类型的声门脉动会更多的出现在实验组而不是对照组中的原因。

「我们最终希望这项研究工作最终能实现基于智能手机的生物反馈,」Hillman 说。「这种技术可以帮助解决声音治疗中最具挑战性的问题:让患者从治疗中学到能真正在日常生活中使用的更健康的发音方式。」

入门人工智能应用医疗健康MIT产业