谷歌新论文:与语言无关的 BERT 句子嵌入
近日谷歌 AI 研究人员发表新论文「与语言无关的 BERT 句子嵌入」,提出了一种称为 LaBSE 的多语言BERT嵌入模型,该模型可为 109 种语言生成与语言无关的跨语言句子嵌入。该模型使用 MLM 和 TLM 预训练在 170 亿个单语句子和 60 亿个双语句子对上进行了训练,即使在训练期间没有可用数据的低资源语言上也有效。此外,该模型在多个并行文本(又名bitext)检索任务上建立了新的技术水平。他们已经通过 tfhub 向社区发布了预先训练的模型,其中包括可以按原样使用或可以使用特定于域的数据进行微调的模块。