你是否曾遇到这样的场景:在陌生的国家旅游因为听不懂当地人说话只能咿咿呀呀、手语比划、连蒙带猜?因为不懂小语种,大热悬疑泰剧《禁忌女孩》、年度狗血韩剧《顶楼》只能煎熬到翌日字幕组的熟肉放送?每每遇此,我都会想,如果计算机能帮我们自动把语音翻译成中文就好了。
语音翻译,一种语言的语音到另外一种语言的语音或文本的自动翻译过程,在如今国际化的社会中有着广泛的应用场景:在线外语视频、跨国会议、出国旅游、国际贸易。如何将翻译准确传达成了业界和学术界十分关心的课题。
端到端语音翻译的挑战
传统的语音识别系统为级联语音翻译模型(cascaded speech translation model),通常先通过一个语音识别模型(ASR)先识别出音频对应的转写文本(transcript),再通过机器翻译模型将转写文本翻译出目标语言。
级联语音翻译模型
然而这种级联系统除了链路长,时间复杂度较高之外,还容易产生误差传播,即一旦ASR识别错误,会连带着翻译结果一起出错。
所以为了缓解级联系统误差传播的问题,端到端的语音翻译模型被学界广泛研究。随着基于Transformer[1]编码器-解码器的模型在文本生成、机器翻译等任务上的成功,这类模型也被运用到了语音翻译中,比如speech Transformer[2]。
不幸的是,Transformer等模型在机器翻译领域之所以这么成功是因为大量标注的平行语料数据,而在语音翻译领域,标注好的“语音-转写-翻译”数据远远不如文本翻译那么丰富。目前最大可用的数据集也只有几百小时,远不如WMT文本翻译中的大语种平行语料规模。这也是为何在很长一段时间,端到端语音翻译系统性能不如级联模型的原因。
所以挑战出现了:如何利用有限的标注数据尽极大可能提升端到端语音翻译的性能呢?
这里给大家介绍在AAAI2021上一篇语音翻译的论文 Listen, Understand and Translate(LUT): Triple Supervision Decouples End-to-end Speech-to-text Translation[3],作者是来自中科院自动化所的董倩倩、徐波等和字节跳动李磊团队。本文核心思想是尽可能的利用标注数据中“转写文本”的作用,并利用额外大规模单语预训练的语言模型来辅助监督,架起从语音到文本的跨模态转变的桥梁。
论文地址:https://arxiv.org/abs/2009.09704
LUT的设计动机和方法
首先,一个问题是:人如何翻译一段语音?通常耳朵在接受一段语音后,我们人脑会加以理解,最后给出翻译结果。而对比于“编码器-解码器”模型,单个编码器负责解析语音信号,却缺少了“理解”这一部分。
左图为人翻译的过程,对比右图为目前基于编码器-解码器的端到端语音翻译模型示意图
该文认为,(1)单个编码器很难捕捉适合翻译的语音信号表示,(2)另一方面,它对于“转写”监督信号的利用也是有限的。所以,该文引入了两个编码器——声学编码器和语义编码器,声学编码器负责将语音信号解析到和转写文字匹配的表示(但没有显示表示成文字,仍然是向量形式),语义编码器负责理解。其次为了让语义编码器能尽可能产生适合翻译的理解(实际表示为另一组向量),这里充分利用了转写文本的信息,利用了预训练好的BERT语言模型来监督语义编码器的输出表示向量。
LUT的模型结构如下图所示。具体地说,声学编码器(Acoustic Encoder)负责听(Listen),语义编码器(Semantic Encoder)负责理解(Understand),最后,翻译解码器(Translation decdoer)负责输出翻译结果(Translate)。
LUT模型结构
- 声学编码器:使用FilterBank特征作为音频信号输入,经过基于Transformer encoder的声学编码器,得到音频输入的声学表示(即一组向量)。这里增加了一个额外的Connectionist Temporal Classification(CTC) loss,目的是使其和转写文本对齐(对应图中的CTC loss)。
- 语义编码器:声学表示再次通过语义编码器,仍然是一个Transformer encoder,通过额外的attention层和average pooling操作得到句子语义表示。这里增加了一个额外的MSE loss,将其和直接把转写文字经过BERT计算的句子表示向量对齐(对应图中的Distance loss)。语义编码器的核心思想是让语音经过了声学编码和语义编码之后的表示与转写文字直接经过预训练好的表示能对齐,而我们认为预训练的BERT模型能很好的刻画文本语义信息。这样通过预训练模型来监督,即模拟了翻译过程中“理解”的过程。
- 翻译解码器:负责将表示解码得到译文,和普通翻译任务一样,使用Transformer decoder作为解码器。整体再使用交叉熵(cross-entropy loss)进行训练(对应图中的Translation loss)。
LUT使用了三项loss进行监督,为了更好收敛,该文设计了先优化CTC loss+distance loss,再优化所有loss的训练策略。该训练策略的另一好处是可以将额外的ASR监督也可以利用起来。具体的模型细节和训练过程可以参考论文。
LUT在语音翻译实验中的效果分析
En-Fr/De/Zh 三个语向、两大场景下的语音翻译能力显著提升
该文在 (1)Augmented Librispeech 英->法,(2)IWSLT-2018 英->德,(3) TED 英->中 三个数据集上进行了实验,验证了LUT模型在有声书翻译和讲座两大场景下,都获得了不错的语音翻译结果。
值得注意的是,由于数据稀少,前人的模型中通常会加入ASR pretrain或者MT pretrain的技巧,而该文的训练策略使得LUT即使没有pretrain,也获得了比前人更好的结果。
对比级联模型的效果
如前文所言,在很长一段时间,端到端模型的效果一直不如级联系统。该文也将LUT和仅用同样数据训练的级联系统进行了对比,结果显示,在同等数据量下,LUT在英-法、英-德的效果能超越级联系统,在英-中上获得差不多的效果。值得注意的是,LUT的参数量远小于级联系统,翻译速度也更快。当然略不足的是,该文中比较的级联系统尚不是最强级联系统,最强级联系统是不受限的使用大规模额外数据训练的语音识别模型和机器翻译模型的级联。
案例分析
更重要的是,作为端到端模型,LUT可以有效避免级联系统中误差传导的问题。这里通过三个例子说明:
Speech | ||||
Transcript (En) | Referance | It was mister jack maldon | cried the old soldier | chapter seventeen the abbes chamber |
CTC outputs | it was mister jack mal | cried the soldier | chapter seventeen teen the abbes chamber | |
Translation (Fr) | c'était monsieur Jack Maldon | s'écria le vieux soldat | chapitre xvii la chambre de I’abbé |
通过CTC解码(CTC decoding algorithm),LUT中间语音解码器可以得到转写。分析发现即使转写解码出错的时候(比如错识别、漏识别、?重复识别音节等),LUT依旧可以给出正确的翻译。而由于识别错误,级联模型在这种情况下容易给出错误的翻译结果。
声学和语义两编码器的作用分析
注意力分配可视化分析
该文将声学编码器和语义编码器的attention进行可视化,发现声学编码器的注意力偏向局部注意力,而语义编码器的注意力能获取到更全局的上下文信息。?
声学编码器和语义编码器的注意力可视化
语义编码器的作用
该文分别利用训练好的LUT模型的声学表示(Acoustic hidden)和语义表示(Semantic hidden),在语音理解(SLU)数据集Fluent Speech Commands Dataset上进行说话人识别(speaker identifiation)和意图识别(intention identification)实验。分析发现:
(1)在意图识别任务上,利用语义表示的识别准确率高于声学表示,这证明了语义编码器能更好获取到内容信息。
(2)利用语义表示在说话人识别任务上的准确率仅46.3%,这证明了语义编码器能极大程度过滤掉和内容无关的声学信息(比如说话人信息),从而更好地适合翻译任务。
Accuracy | Intention | Speaker |
Acoustic hidden | 91.0% | 97.6% |
Semantic hidden | 93.1% | 46.3% |
- 文章中还有更多实验分析验证每一个损失项(loss)都是有效的,分析模型超参的影响等等,具体可参考论文。
总结
该文提出了Listen, Understand and Translate(LUT)模型,模型包含声学编码器、语义编码器和翻译解码器。语义编码器可充分利用转写和其预训练表示作为监督;LUT模型也可以利用相较大量的语音识别(ASR)数据辅助训练,进一步提升翻译效果。实验表明LUT在En-Fr/De/Zh三个语向的语音翻译,对比其他端到端模型和级联翻译系统,性能都有提升。
传送门:
Code和预训练好的模型: https://github.com/dqqcasia/st
Paper: https://arxiv.org/abs/2009.09704
火山翻译网页版:http://translate.volcengine.cn/
引用
[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention is all you need. NeurIPS. 2017.
[2] Linhao Dong, Shuang Xu, and Bo Xu. Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition. ICASSP, 2018.
[3] Qianqian Dong, Rong Ye, Mingxuan Wang, Hao Zhou, Shuang Xu, Bo Xu, and Lei Li. Listen, Understand and Translate: Triple Supervision Decouples End-to-end Speech-to-text Translation. AAAI, 2021.