蛋酱、小舟参与

当AI也精通了「读唇术」:戴上口罩或许是我最后的倔强

要想不被别人猜到自己在嘀咕什么,只能永远戴着口罩了。


有一个人类的本能行为,或许我们很难察觉:当因为隔得太远或者环境噪音太大而听不清对方说话的时候,你会下意识地观察对方的唇部动作,来判断这个人到底在讲什么。

实际上,对于失聪或者听力较弱的人来说,唇读也是一项必须掌握的技能。

既然人类可以从唇部动作中读取讲话的内容,反过来说,我们是否能够教会 AI 去学习这套方法,并且再进一步输出语音呢?答案是肯定的,并且这门技术已经在公共安全等领域有着相当广泛的应用。

近日,来自印度海得拉巴国际信息技术研究所(IIIT, Hyderabad)的团队发布了他们在这一领域的最新成果。目前,该研究的代码、数据、模型均已公布。


  • 论文链接:https://arxiv.org/abs/2005.08209

  • 项目地址:https://github.com/Rudrabha/Lip2Wav


要想由唇部动作生成语音,必须一些无法忽视的阻碍,比如很多听觉上完全不同的声音,在唇部动作上是十分相似甚至完全一样的。

对于专业的唇读者来说,他们会借助其他方式来增加还原唇语的准确性,比如根据所谈论话题去联想、根据面部表情和手势等因素去推测。还有一点就是,对于聋哑人和专业的唇读者来说,读取那些经常互动的人的唇语会更容易。

在这项研究中,研究者从一个新的层面去探讨了唇语合成的问题:没有随机挑选很多个人进行唇读,而是专注于长时间观察某一个人的讲述内容,来学习 ta 的特定讲话模式。研究者从数据驱动学习的维度去探讨一个问题:「如何从一个人的唇部动作来准确地推断 ta 的个人语言风格和内容?」

最终,研究者收集了一个 120 小时的视频数据集,其中 5 位讲话者在不受约束的环境中进行自然陈述。与现有的多讲话者数据集相比,为了搭建特定讲话者的视听线索的准确模型,每个人被收集的语音数据多了 80 倍不止。这也是当前在不受约束的环境中评估单人唇语语音生成方面,仅有的已公开的大规模基准测试。

在此基础上,研究者提出了「Lip2Wav」,一种基于唇部动作生成语音的序列 - 序列模型。研究者通过定量分析、定性分析以及消融研究等多种方式详细介绍了这一模型。与之前的同类模型相比,Lip2Wav 在不受约束环境中生成语音的清晰度提高了接近 4 倍,在人工评估方面也显示,该模型生成语音的韵律更加丰富自然。


数据集

研究者提出了一个新的基准数据集,用于无约束唇语合成,以探索如何准确地从一个人的唇部动作推断出 ta 讲话的方式和内容。为了构建 Lip2Wav 数据集,研究者收集了一共 5 个讲话者的 120 小时的讲话视频。

Lip2Wav 数据集和其他用于视频语音生成的数据集各项对比。

数据集包含演讲和国际象棋解说两种类型。

架构解析

Lip2Wav 的网络包括一个时空编码器和一个基于注意力的解码器。时空编码器将多个 T 帧作为输入,然后通过一个基于 3D 卷积神经网络的编码器进行输出。研究者将基于 3D 卷积神经网络的编码器的输出馈送到基于注意力的语音解码器,遵循 seq-to-seq 范例生成谱图。

图 3:用于唇语合成的 Lip2Wav 模型。时空编码器是一个用来提取嘴唇动作序列的 3D 卷积栈。接下来是用于高质量语音生成的解码器。这个解码器根据来自编码器的面部图像特征进行调整,并且以自动回归的方式生成频谱图。

实验

研究者首先将他们的方法和之前的唇语生成研究在有约束数据集(GRID corpus 和 TCD-TIMIT 唇语语料库)上作了比较并加以评估。在 GRID 数据集上,研究者给出了 4 位讲话者的平均测试分数,表 2 和表 3 分别展示了在 GRID 和 TIMIT 数据集上的结果。


如上表所示,在所有客观指标上,本文研究方法的效果评估结果要比同类方法好得多,在 TIMIT 数据集上的差距尤其明显。TIMIT 数据集中的测试集包含了很多训练期间没有见过的新词。这表明该研究的模型学会了捕获短音素序列之间的相关性,并且在新单词上有更好的发音生成效果。

在无约束条件下的唇语合成

研究者进一步在包含大量头部动作和更多词汇的无约束数据集上评估了该研究方法,其中包含大量单词和句子之间的沉默或停顿,实验结果依然显现出明显的差距。

为了与之前的研究方法对比,研究者基于 STOI 分值选择了在 TIMIT 数据集上性能最佳的模型,并展示了模型经过 Lip2Wav 数据集训练之后的性能。研究者计算了和表 3 相同的语音清晰度和质量指标。

最终得到的 5 位讲话者的分值以及另外两种方法的 3 项指标结果如表 4 所示。


在不同的讲话者和词汇规模条件下,本文提出的方法能够生成更加智能和自然的语音。注意,和之前的研究相比,该方法的 STOI 和 ESTOI 分值越高,意味着模型生成的发音越准确。

人工评估 

除了语音质量和清晰度之外,研究者也设置了人工评估环节,客观指标包括误读、跳词、同音异义词等,主观指标包括可理解性和自然程度等。

表 5: 客观指标。

表 6: 主观指标。

在论文的最后一部分,研究者也展示了 Lip2Wav 的几项消融实验结果。此外,该研究的 demo 视频也已经公布。

但有人质疑,由 5 位讲话者数据训练的模型功能实在有限。

研究者也承认了这一点,尽管有了良好实验结果的支持,这一模型在随机人物的唇语生成方面仍然「不算准确」,此类任务目前只能说是「任重而道远」吧。


参考链接:https://www.reddit.com/r/MachineLearning/comments/gt6rrp/research_lip2wav_synthesize_speech_only_from_the/
理论AI语音合成CVPR 2020
暂无评论
暂无评论~