微软亚洲研究院NLP与语音领域2019-2020推荐论文列表

1. Unified Language Model Pre-training for Natural Language Understanding and Generation

论文链接:https://arxiv.org/abs/1905.03197

代码/模型 (UniLM): https://github.com/microsoft/unilm

该工作将双向、单向、序列到序列语言模型进行了统一,通过共享参数对多种语言模型进行学习,使得同一个预训练模型可以同时支持自然语言理解自然语言生成的下游任务。此论文发表于NeurlPS 2019。

2. Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks

论文链接:https://arxiv.org/abs/1909.00964

该论文提出跨语言预训练模型Unicoder,通过设计5种不同的跨语言预训练任务,在XNLI和XQA任务上取得了state-of-the-art的效果。该论文已在EMNLP 2019上发表。

3. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

论文链接:https://arxiv.org/abs/1908.06066

该论文提出跨模态预训练模型Unicoder-VL,通过设计3种不同的跨模态预训练任务,在MSCOCO和Flicker图-文搜索任务上取得了state-of-the-art的效果。该论文已在AAAI 2020上发表。

4. VL-BERT: Pre-training of Generic Visual-Linguistic Representations

论文链接:https://arxiv.org/abs/1908.08530

代码/模型 (VL-BERT): https://github.com/jackroos/VL-BERT

该论文提出跨语言预训练模型VL-BERT,基于单模态和多模态任务进行多任务预训练,在VQA、VCR和referring expression comprehension任务上取得了state-of-the-art的效果。该论文已在ICLR 2020上发表。

5. FastSpeech: Fast, Robust, and Controllable Text to Speech

论文链接:https://arxiv.org/pdf/1905.09263.pdf

该论文提出的非自回归深度模型FastSpeech把mel spectrum的生成速度提速270倍,端到端的语音生成速度提速~40倍,实际使用效果非常好。文章发表在NeurIPS 2019。

6. PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network

论文链接:https://arxiv.org/abs/1911.04697

论文中提出了关注相位和谐波的语音增强模型 PHASEN (Phase-and-Harmonics-Aware Speech Enhancement Network)。该模型能够同时意识到相位信息以及谐波相关性,从而在 AVSpeech+Audioset 数据集上获得 1.76dB 的 SDR 提升,超过了其他模型在该数据集上的表现,并且在 Voice Bank + DEMAND 数据集中,四个指标均大幅超过之前的方法,一个指标与之前方法持平。该论文已在AAAI 2020发表。

7. Semantic Mask for Transformer based End-to-End Speech Recognition

论文链接:https://arxiv.org/abs/1912.03010

该论文提出了一种新的针对语音识别的数据增强技术SemanticMask。不同于谱增强(SpecAugment)技术掩码输入梅尔谱序列中的随机长度的某个片段,该方法随机地掩码掉某个词对应的整个片段。由于将该词的声学信息从输入序列中完全移除,训练的过程将强迫模型更多的依赖上下文信息,从而能够强化语言模型的能力。该方法在Librispeech 960小时和TedLium2的数据集上均能够显著的提高模型的性能,达到了当前业内最好的性能。其中在Librispeech 960小时的Test clean 和other上取得了2.28和5.08的WER score。

8. Bridging the Gap between Pre-Training and Fine-Tuning for End-to-End Speech Translation

论文链接:https://arxiv.org/abs/1909.07575

端到端的语音识别模型往往需要使用语音识别机器翻译的数据来对编码器和解码器进行预训练,这种预训练方法存在网络参数浪费,网络功能不匹配,注意力机制无法预训练等多个问题。为解决这些问题,该论文提出了一种新的串联编码网络(TCEN)。TCEN能够无缝的将语音识别的编码器,机器翻译的编码器和解码器能够串联起来,从而可以显著的提高端到端语音翻译的质量。该论文已在AAAI 2020发表。

微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

入门微软语音识别NLP
相关数据
语音增强技术

语音增强旨在通过利用信号处理算法提高语音的质量和可懂度。 主要包括1. 语音解混响,混响是由于空间环境对声音信号的反射产生的;2,语音降噪,干扰主要来源于各种环境和人的噪声;3. 语音分离,噪声主要来源于其他说话人的声音信号。通过去除这些噪声或者人声来提高语音的质量。现已经应用于现实生活中,如电话、语音识别、助听器、VoIP以及电话会议系统等。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

序列到序列技术

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

暂无评论
暂无评论~