Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部机器之心报道

日漫迷有福了!这个系统可以全自动翻译日漫,再也不用啃生肉了

买了心仪的漫画全集,却又苦于看不懂上面的文字,翻译成了一大难题。对于这个令人头疼的问题,来自 Mantra 公司、雅虎日本和东京大学的研究者帮你解决了。他们提出了一个全自动漫画翻译系统,可将漫画中的文字翻译成英文和中文。

漫画在世界各地都很流行,但大多数漫画中的文字没有翻译。如果能够迅速将漫画中的文字翻译成各种语言,那可就太棒了。近日,来自 Mantra 公司、雅虎日本和东京大学的研究者联合发表了一篇论文,提出了一种快速翻译漫画文本的方法。就像这样:

该研究解决了日漫(Japanese comics)的机器翻译问题,这涉及两个重要问题:语境感知和多模态翻译。在漫画中,文本和图像是以非结构化的方式混合在一起的,因此从图像中获取语境至关重要。但如何从图像中提取语境并集成到机器翻译模型中仍是一个尚待解决的问题。

论文地址:https://arxiv.org/pdf/2012.14271v1.pdf

此外,目前还没有用于训练和评估此类模型的语料库和基准。该论文为日漫翻译研究奠定了基础,主要贡献包括以下 4 点:

  • 首先,该研究提出了一种多模态的语境感知翻译框架,也是首个结合漫画图像来获取语境信息的研究。该方法能够翻译对话气泡中的文本,这类文本通常需要语境信息(如其他对话气泡中的文本、说话者的性别等)才能够翻译;

  • 其次,为了训练模型,研究者提出了基于成对的原始日漫及其译文自动构建语料库的方法。使用该方法可以构建大型平行语料库,且无需任何人工标注;

  • 第三,该研究创建了一个新的日漫翻译评估基准

  • 最后,该研究在提出方法的基础上,设计了一个用于全自动日漫翻译的新系统。


语境感知日漫翻译

该研究提出的语境感知日漫翻译框架包括两个主要部分:语境提取和翻译。

多模态语境提取

该方法提取 3 类语境:场景、阅读顺序、视觉信息(如图 2 左侧所示),这三者对多模态语境感知翻译都有重要作用。

图 2:该研究提出的日漫翻译框架。其中,N’ 表示源句子 N 的译文。

1)场景分组:单个漫画页面包括多个画框,每个画框代表一个场景。翻译故事时,同一场景中的文本通常比其他场景中的文本更加有用。因此,该研究按场景将文本进行分组,以选出可以用做语境的文本。

2)文本排序:接下来要预估文本的阅读顺序。更正式的说,该方法对无序集合 T 进行排序,形成有序集合 {t_1,...,t_N}。由于在日漫中,单个句子通常被分为多个文本区域,因此确保文本顺序正确是非常重要的。日漫是按画框阅读的,因此文本的阅读顺序是根据以下顺序确定的:画框;每个画框中的文本。

3) 视觉语义信息提取:最后,该研究提取了场景中出现的物体等视觉语义信息。为了利用每个场景中的视觉语义信息,研究人员使用 illustration2vec 模型来预测每个场景中的语义标签。

需要强调的是该框架并不局限于日漫。通过适当地定义场景,该框架可被扩展到电影、动画等具备多模态语境的媒介中。例如,按照以下步骤提取语境,该方法可以轻松翻译电影字幕:将视频分割成场景;对文本按时间进行排序;通过视频分类提取语义标签。

语境感知翻译模型

为了将提取到的多模态语境集成到 MT 模型,该研究采用了一种简单而有效的连接方法:连接多个连续文本,并使用句子级 NMT 模型进行一次性翻译。这里注意一点,任何 NMT 架构都可以与该方法合并。该研究选择了 Transformer (big) 模型并按照《Attention is All you Need》设置默认参数。

图 2 右侧展示了三种模型:模型 1:2+2 翻译;模型 2:基于场景的翻译;模型 3:具有视觉特征的基于场景的翻译。

构建大型平行语料库

除了日漫翻译框架以外,该研究还提出了一种自动语料库构建方法,以便训练翻译模型。输入为两本漫画书,一本是日本漫画,另一本是其英文版,目标是提取具有语境信息的平行文本,这些信息可用来训练该研究提出的模型。

术语和可用的标注数据:图 4 列举了对话气泡、文本区域以及文本行。对话气泡包含一或多个文本区域(即段落),每个文本区域包含一或多个文本行。

图 4:日漫文本中的术语定义。

该研究假设训练模型只能获取对话气泡的标注,文本行和文本区域的标注不可用。此外,对话气泡和任何目标语言数据的分割掩码也不可用。

注意,该研究提出的方法并不依赖于特定语言。除了英语,该研究还将汉语作为目标语言,稍后在图 9 中演示。

训练检测器:该研究训练了两个目标检测器:对话气泡检测器和文本行检测器,这是语料库构建 pipeline 的基本构建块。该研究使用以 ResNet101 为主干网络的 Faster R-CNN 模型来训练目标检测器。

由于无法获取文本行标注,该研究以弱监督方式基于对话气泡标注生成文本行标注,参见下图 6:

图 6:生成文本行标注。

提取平行文本区域

下图 5 展示了提取平行文本区域的 pipeline,包括:a) 页面配对、b) 文本框检测、c) 对话气泡的像素级估计、d) 分割连接的对话气泡、e) 不同语言之间的对齐操作、f) 文本识别,g) 语境提取。

图 5:平行语料库构建框架。

全自动日漫翻译系统

研究人员基于其模型和构建的语料库提出了一个全自动日漫翻译系统。给出日漫页面,该系统可以自动识别文本、将文本翻译为目标语言,并将译文替换掉原始文本。

该系统包括以下步骤:文本检测与识别;翻译;清除原始日语文本;将译文填充进原始文本区域,下图展示了该系统的翻译过程。实验结果表明该该系统能够自动将日漫翻译成英文或中文。

图 9:全自动日漫翻译系统的示例,分别从日语翻译成英语和中文。

实验

数据集:该研究建立了两个新型日漫数据集:OpenMantra 和 PubManga,一个用来评估 MT(机器翻译),另一个用来评估构建的语料库。

机器翻译评估

为了验证该研究提出的模型和 Manga 语料库的效果,该研究在 OpenMantra 数据集上进行了翻译实验。参与评估的 6 个系统参见下表 1:

表 1:在 OpenMantra Ja–En 数据集上进行评估的所有翻译系统及其性能。「*」表明结果显著优于 Sentence-NMT (Manga) ,p<0.05。


从表 1 中可以看到人工和自动评估结果。与谷歌翻译与 Sentence-NMT (OS18) 相比,SentenceNMT (Manga) 的性能有显著提升,这表明该研究提出的 Manga 语料库构建策略有效。

与人工评估的结果相反,语境感知模型的 BLEU 值不如 Sentence-NMT (Manga)(表 1 第 4-6 行),这表明 BLEU 值不适合作为日漫翻译的评估指标。下图 7 展示了在人工评估中 Scene-NMT 优于 SentenceNMT (Manga) 的一个示例,但前者的 BLEU 值较低。

图 7:基于句子(中间图)与基于画框(右侧图)的模型输出。H 和 B 后面的值分别表示每个页面的人工评测值和 BLEU 值。


语料库构建评估

为了评估语料库构建的性能,该研究比较了以下四种方法:Box、Box-parallel、Mask w/o split、Mask w/ split,结果如下表所示:

表 2:在 PubManga 数据集上对语料构建性能进行评估。

该结果表明,该研究利用掩码估计的语料库构建方法显著优于仅使用边界框区域的两种方法,掩码分割也能显著提升查准率和查全率。

Powered by Froala Editor

理论日漫翻译评估基准
相关数据
基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

推荐文章
暂无评论
暂无评论~