香侬科技作者

ICLR 2021投稿中值得一读的NLP相关论文

我们从 ICLR 2021开放投稿的3000篇论文中,粗略筛选了近100篇与自然语言处理领域中也许值得一读的论文,供大家查阅。

  • 理论、模型与经验性分析:38篇
  • 问答与阅读理解:4篇
  • 知识图谱:4篇
  • 文本生成:9篇
  • 机器翻译:7篇
  • 对抗攻击:4篇
  • 文本分类:2篇
  • 信息抽取:4篇
  • 可解释性:1篇
  • 模型压缩与集成:4篇
  • 数据增强:2篇
  • 向量表示:12篇
  • 其他:5篇

注,由于论文过多,故直接使用谷歌翻译机翻了论文部分摘要作为文章主旨的参考(结果表明,NMT仍然有极大发展空间),对于过于离谱的翻译转为人工校对。之后我们会陆续选取部分文章进行详细介绍,其中的不便还望读者谅解。

一、理论、模型与经验性分析

论文标题:Isotropy in the Contextual Embedding Space: Clusters and Manifolds

论文链接:https://openreview.net/forum?id=xYGNO86OWDH

论文摘要:近年来,诸如BERT和ERNIE的深度语言模型的上下文嵌入空间的几何特性引起了相当大的关注。对上下文嵌入的研究表明,强烈的各向异性空间使得大多数矢量都落在一个狭窄的圆锥体中,从而导致较高的余弦相似度。在本文中,我们认为从不同但更具建设性的角度来看,各向同性确实存在于空间中。我们在上下文嵌入空间中识别孤立的簇和低维流形,并介绍工具进行定性和定量分析。

论文标题:Hopfield Networks is All You Need

论文链接:https://openreview.net/forum?id=tL89RnzIiCd

论文摘要:我们介绍了具有连续状态和相应更新规则的现代Hopfield网络。新的Hopfield网络可以按指数形式(按维度)存储许多模式,一次更新即可收敛,并且检索误差呈指数形式。

论文标题:VECO: Variable Encoder-Decoder Pretraining for Cross-Lingual Understanding and Generation

论文链接:https://openreview.net/forum?id=YjNv-hzM8BE

论文摘要:本文提出可变的编码器-解码器预训练方法,将Transformer的三个主要模块分开,对不同的预训练任务加以组合,然后再对下游任务微调。不但可以节约参数,还能取得较好的效果。

论文标题:AlgebraNets

论文链接:https://openreview.net/forum?id=guEuB3FPcd

论文摘要:常规的神经网络由实值加权和激活以及实值算子组成。我们提出了AlgebraNets,这是一种一般范式,可以用其他方式从其他关联代数中替换权重和运算符来代替实际价值权重和运算符。

论文标题:EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets

论文链接:https://openreview.net/forum?id=I-VfjSBzi36

论文摘要:在本文中,我们提出了EarlyBERT,这是用于大规模语言模型预训练和微调的有效训练框架。EarlyBERT会在早期阶段识别结构化的中奖彩票,然后使用经过修剪的网络进行有效训练。

论文标题:Variational Information Bottleneck for Effective Low-Resource Fine-Tuning

论文链接:https://openreview.net/forum?id=kvhzKz-_DMF

论文摘要:我们建议在对低资源目标任务进行微调时使用变分信息瓶颈(VIB)来抑制不相关的功能,并表明我们的方法成功地减少了过拟合。此外,我们表明,我们的VIB模型发现的句子表示形式对自然语言推理数据集中的偏倚更为鲁棒,从而获得了对域外数据集的更好概括。

论文标题:Transformers are Deep Infinite-Dimensional Non-Mercer Binary Kernel Machines

论文链接:https://openreview.net/forum?id=AVKFuhH1Fo4

论文摘要:在本文中,我们提出了一个新的视角,以了解Transformer的工作方式。尤其是,我们证明了可以将Transformer操作的核心点积注意力描述为一对Banach空间上的核学习方法。特别是,Transformer的内核具有无限的特征尺寸。在此过程中,我们将标准内核学习问题概括为所谓的“二进制”内核学习问题,其中数据来自两个输入域,并且为每个跨域对定义了一个响应。

论文标题:Pretrain Knowledge-Aware Language Models

论文链接:https://openreview.net/forum?id=OAdGsaptOXy

论文摘要:在本文中,我们将知识意识纳入语言模型预训练中,而无需更改Transformer架构,插入明确的知识层或添加语义信息的外部存储。相反,我们只是通过实体扩展的标记器在预训练中向Transformer的输入简单地表示实体的存在。在输出处,还有一个额外的实体预测任务。

论文标题:Structured Prediction as Translation between Augmented Natural Languages

论文链接:https://openreview.net/forum?id=US-TP-xnXI

论文摘要:我们提出了一个新的框架,即增强自然语言之间的翻译(TANL),以解决许多结构化预测语言任务,包括联合实体和关系提取嵌套命名实体识别关系分类,语义角色标签,事件提取,共指解析和对话状态跟踪。

论文标题:Information-theoretic Vocabularization via Optimal Transport

论文链接:https://openreview.net/forum?id=1fLunL_hDj_

论文摘要:我们发现信息理论功能与NLP任务(例如具有给定词汇的机器翻译)的性能之间存在令人兴奋的关系。通过这种观察,我们将找到具有适当大小的最佳令牌词典作为最佳传输问题。然后,我们提出info-VOT,这是一种简单有效的解决方案,无需对下游任务进行全面且昂贵的试用训练。

论文标题:Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning

论文链接:https://openreview.net/forum?id=n1HD8M6WGn

论文摘要:在本文中,我们的主要贡献是进一步了解EncoderFusion。我们发现编码器嵌入层比其他中间编码器层更重要。此外,最上层的解码器层始终在NLP任务中更加关注编码器嵌入层。基于此观察,我们通过仅融合softmax层的编码器嵌入层,提出了一种简单的融合方法SurfaceFusion。

论文标题:On Position Embeddings in BERT

论文链接:https://openreview.net/forum?id=onxoVA9FxMw

论文摘要:我们提出了在向量空间中捕获单词距离的PE的三个预期特性:平移不变性,单调性和对称性。这些属性可以正式捕获PE的行为,并允许我们以有原则的方式重新解释正弦PE。对七个PE(及其组合)进行分类和跨度预测的经验评估表明,可完全学习的绝对PE在分类中表现更好,而相对PE在跨度预测中表现更好。

论文标题:MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab Pretraining

论文链接:https://openreview.net/forum?id=sxZvLS2ZPfH

论文摘要:我们首先提出一种新颖的方法,借助中文分词(CWS)和子词标记化来形成中文BERT的词汇。然后,我们提出了三种版本的多词汇量预训练(MVP),以提高模型的表达能力。

论文标题:Progressively Stacking 2.0: A multi-stage layerwise training method for BERT training speedup

论文链接:https://openreview.net/forum?id=2LiGI26kRdt

论文摘要:我们提出了一种有效的多阶段分层训练(MSLT)方法,以减少BERT的训练时间。我们将整个训练过程分解为几个阶段。训练从只有几个编码器层的小模型开始,然后我们通过添加新的编码器层来逐渐增加模型的深度。在每个阶段,我们只训练最顶层(在输出层附近)几个新添加的编码器层。该方法可以大大减少训练时间,而不会明显降低性能。

论文标题:Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search

论文链接:https://openreview.net/forum?id=tqc8n6oHCtZ

论文摘要:我们训练一个大型Transformer,称为“长度自适应Transformer”,并将其用于各种推理场景而无需重新训练。为此,我们使用LengthDrop训练Transformer,它随机确定每一层序列的长度。然后,我们使用多目标进化搜索来找到长度配置,该长度配置可在任何给定的计算预算下最大化准确性并最小化计算复杂性。

论文标题:On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and Strong Baselines

论文链接:https://openreview.net/forum?id=nzpLWnVAyah

论文摘要:确定了观察到BERT微调不稳定的两个潜在原因:灾难性的遗忘和微调数据集的小规模。在本文中,我们证明了这两种假设都无法解释微调的不稳定性。我们分析了BERT,RoBERTa和ALBERT,并根据GLUE基准对常用数据集进行了微调,并表明观察到的不稳定性是由导致梯度消失的优化困难引起的。此外,我们表明,下游任务性能的剩余差异可以归因于泛化差异,其中具有相同训练损失的微调模型表现出明显不同的测试性能。

论文标题:Learning Better Structured Representations Using Low-rank Adaptive Label Smoothing

论文链接:https://openreview.net/forum?id=5NsEIflpbSv

论文摘要:我们提出了低阶自适应标签平滑(LORAS):一种简单而新颖的方法,用于对学习的软目标进行训练,该方法可以概括标签平滑并适应结构化预测任务中标签空间的潜在结构。具体来说,我们评估了我们针对面向任务的语义解析任务的方法,并表明,与适当的普通标签平滑相比,仅通过使用适当平滑的软目标进行训练,就可以将模型的准确性提高多达2%,并将校准错误减少55%平滑。

论文标题:Multi-Head Attention: Collaborate Instead of Concatenate

论文链接:https://openreview.net/forum?id=bK-rJMKrOsm

论文摘要:注意层广泛用于自然语言处理(NLP)中,并开始影响计算机视觉体系结构。但是,它们遭受过度参数化的困扰。我们提出了一个协作的多头关注层,该层使学习者能够学习共享的预测。我们的方案减少了注意层中的参数数量,并且可以用作任何Transformer体系结构中的替代品。

论文标题:Sequence-Level Features: How GRU and LSTM Cells Capture N-grams

论文链接:https://openreview.net/forum?id=Au1gNqq4brw

论文摘要:现代的递归神经网络(RNN),如门控递归单元(GRU)和长短期记忆(LSTM),已在涉及顺序数据的实践中证明了令人印象深刻的结果。我们提出了一项研究,通过数学扩展和展开隐藏状态来理解GRU / LSTM单元捕获的基本特征。具体而言,我们表明在某些温和的假设下,Cell的基本成分将由类似于N-gram的序列级特征组成。基于这样的发现,我们还发现,用近似的隐藏状态表示替换标准单元并不一定会降低情感分析和语言建模任务的性能。

论文标题:You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling

论文链接:https://openreview.net/forum?id=7K0UUL9y9lE

论文摘要:我们表明,基于局部敏感哈希(LSH)的伯努利抽样注意机制,将二次复杂度降低为线性。我们通过将自我注意力视为与伯努利随机变量相关联的单个标记的总和来绕过二次成本,原则上可以通过单个散列一次对其进行采样(尽管实际上,此数字可能是一个小常数)。这导致一种有效的抽样方案来估计自我注意力,该方案依赖于LSH的特定修改(基于在GPU架构上部署的可行性)。我们在GLUE基准上以标准的512序列长度评估了我们提出的算法,并且我们的方法与标准的预训练Transformer相比具有可比甚至更好的性能。为了评估我们的方法是否确实可以处理更长的序列,我们在长序列(4096)语言模型预训练上进行了实验,并获得了一致的结果,作为标准的自我注意,同时观察到了相当大的推理速度和内存节省。

论文标题:Representational correlates of hierarchical phrase structure in deep language models

论文链接:https://openreview.net/forum?id=mhEd8uOyNTI

论文摘要:尽管基于Transformer的体系结构的上下文表示为许多NLP任务设置了新的标准,但尚未完全了解其内部工作原理。特别是,尚不清楚这些表示法捕获了句子级语法的哪些方面,也不清楚(如果有的话)它们是如何沿着网络的堆叠层构建的。在本文中,我们旨在通过基于输入扰动的通用类分析来解决此类问题。从计算和认知神经科学中引入表示不变性的概念,我们执行了一系列旨在测试Transformer表示对句子中几种结构的敏感性的探针。每个探查都涉及交换句子中的单词,并将被干扰的句子中的表示与原始表达进行比较。

论文标题:Why is Attention Not So Interpretable?

论文链接:https://openreview.net/forum?id=pQhnag-dIt

论文摘要:本文从因果效应估计的角度分析了为什么有时注意机制无法提供可解释的结果,并提供了两种方法来提高注意机制的可解释性。

论文标题:Revisiting Few-sample BERT Fine-tuning

论文链接:https://openreview.net/forum?id=cO1IH43yUF

论文摘要:本文是对BERT上下文表示的微调研究,重点是在少数样本情况下通常观察到的不稳定性。我们确定了导致这种不稳定的几个因素:带有偏斜估计的非标准优化方法的普遍使用;BERT网络的重要部分在下游任务中的适用性有限;以及使用预定的少量训练迭代的普遍做法。

论文标题:Later Span Adaptation for Language Understanding

论文链接:https://openreview.net/forum?id=HMEiDPTOTmY

论文摘要:我们提出了一种新颖的方法,该方法将跨度信息组合到微调阶段的PrLM生成的表示中,以提供更好的灵活性。这样,跨度级别文本的建模过程可以更适应于不同的下游任务。详细地说,我们根据预采样字典生成的分段将句子分为几个跨度。基于PrLM提供的子令牌级别表示,我们增强了每个跨度中令牌之间的连接,并获得具有增强的跨度级别信息的表示。

论文标题:DeLighT: Deep and Light-weight Transformer

论文链接:https://openreview.net/forum?id=ujmgfuxSLrO

论文摘要:本文提出DeLight,一种轻巧的深度Transformer,可在标准机器翻译和语言建模任务中将参数降低或降低2至3倍,从而达到或提高基准Transformer的性能。

论文标题:Interpreting Graph Neural Networks for NLP With Differentiable Edge Masking

论文链接:https://openreview.net/forum?id=WznmQa42ZAx

论文摘要:我们介绍了一种事后方法来解释GNN的预测,该方法可以识别不必要的边。给定训练的GNN模型,我们将学习一个简单的分类器,该分类器可针对每一层的每个边预测是否可以丢弃该边。

论文标题:Adaptive Self-training for Neural Sequence Labeling with Few Labels

论文链接:https://openreview.net/forum?id=ARFshOO1Iu

论文摘要:我们开发了自训练和元学习技术来解决神经序列标签模型的标签稀缺性挑战。自我训练是从大量未标记数据中学习的有效机制,而元学习可帮助对样本进行自适应加权,从而减轻了嘈杂的伪标记的错误传播。

论文标题:Random Feature Attention

论文链接:https://openreview.net/forum?id=QtTKTdVrFBB

论文摘要:我们提出了一种基于随机特征的注意力,该注意力在序列长度上线性扩展,并且在语言建模和机器翻译方面与强大的Transformer基线相当。

论文标题:Learning to Disentangle Textual Representations and Attributes via Mutual Information

论文链接:https://openreview.net/forum?id=qJIvFn8sOs

论文摘要:我们调查了学习通过相互信息最小化来解开文本表示形式和属性的问题,并将其应用于公平分类和句子生成。


论文标题:Synthesizer: Rethinking Self-Attention for Transformer Models

论文链接:https://openreview.net/forum?id=H-SPvQtMwm

论文摘要:我们提出合成注意力矩阵,并实现简单,高效和有竞争力的表现。



论文标题:The Lipschitz Constant of Self-Attention

论文链接:https://openreview.net/forum?id=DHSNrGhAY7W

论文摘要:理论研究表明,标准点积的自注意力不是Lipschitz,并且提供了基于L2距离的Lipschitz的自我注意的替代表达。



论文标题:K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters

论文链接:https://openreview.net/forum?id=CLnj31GZ4cI

论文摘要:我们提出K-Adapter,它保持了预先训练模型的原始参数不变,并支持持续的知识注入。以RoBERTa为预训练模型,K-Adapter具有用于每种注入的知识的神经适配器,在不同的适配器之间没有信息流,因此以分布式方式有效地训练了不同的适配器。



论文标题:Rethinking Positional Encoding in Language Pre-training

论文链接:https://openreview.net/forum?id=09-528y2Fgf

论文摘要:在这项工作中,我们研究了语言预训练中使用的位置编码方法(例如BERT),并确定了现有公式中的几个问题。我们提出了一种新的位置编码方法,TUPE。在自我注意模块中,TUPE使用不同的参数化分别计算单词上下文相关性和位置相关性,然后将它们加在一起。



论文标题:Rethinking Attention with Performers

论文链接:https://openreview.net/forum?id=Ua6zuk0WRH

论文摘要:我们介绍了Performer,仅使用线性(而不是二次)空间和时间复杂度,而无需依赖于诸如稀疏性或低等级的先验条件。为了近似softmax注意力内核,Performer使用一种新颖的通过正正交随机特征方法(FAVOR +)实现的快速注意力,它对于可扩展内核方法可能是独立关注的。



论文标题:Efficiently labelling sequences using semi-supervised active learning

论文链接:https://openreview.net/forum?id=BHBb-QVVkNS

论文摘要:我们提出一种使用主动学习的序列标记方法,该方法结合了标记和未标记的数据。我们以半监督的方式训练具有深层非线性潜力的局部上下文条件随机场,将未标记句子的缺失标记视为潜在变量。



论文标题:Taking Notes on the Fly Helps Language Pre-Training

论文链接:https://openreview.net/forum?id=lU5Rs_wCweN

论文摘要:我们采用“动态记录”(TNF),它会在预训练期间即时记录稀有单词,以帮助模型在下次出现时理解它们。具体而言,TNF会维护注释词典,并在句子中出现稀有单词时将稀有单词的上下文信息保存为注释。当在训练过程中再次出现相同的稀有单词时,可以使用事先保存的笔记信息来增强当前句子的语义。



论文标题:Reservoir Transformers

论文链接:https://openreview.net/forum?id=5FRJWsiLRmA

论文摘要:我们证明,即使某些层被随机初始化并且从未更新,Transformer也能获得令人印象深刻的性能。



论文标题:Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning in NLP Using Fewer Parameters & Less Data

论文链接:https://openreview.net/forum?id=de11dbHzAMF

论文摘要:我们提出了一种基于Transformer的新型体系结构,该体系结构由新的条件注意机制以及一组有助于权重分配的任务条件模块组成。通过这种构造,我们可以通过保持固定的预训练模型权重的一半固定来实现更有效的参数共享并减轻遗忘。我们还使用一种新的多任务数据采样策略来减轻跨任务数据不平衡的负面影响。



问答与阅读理解


论文标题:Is Retriever Merely an Approximator of Reader?

论文链接:https://openreview.net/forum?id=dvXFpV6boX

论文摘要:开放域问答(QA)的最新技术依赖于有效的检索器,该检索器可大大减少昂贵阅读器的搜索空间。在社区中,一个相当被忽视的问题是检索者和读者之间的关系,特别是如果检索者的全部目的仅仅是读者的快速近似。我们的经验证据表明答案是否定的,即使仅在准确性方面,阅读器和检索器也是互补的。



论文标题:Cluster-Former: Clustering-based Sparse Transformer for Question Answering

论文链接:https://openreview.net/forum?id=VyENEGiEYAQ

论文摘要:在本文中,我们提出了Cluster-Former,这是一种新颖的基于聚类的稀疏Transformer,可在分块序列之间进行关注。所提出的框架集中在两种独特的Transformer层类型上:滑动窗口层和Cluster-Former层,它们共同并迭代地编码局部序列信息和全局上下文。这种新设计允许在本地窗口之外进行信息集成,这对于依赖于远程依赖关系的问答(QA)任务特别有用。



论文标题:Open Question Answering over Tables and Text

论文链接:https://openreview.net/forum?id=MmCRswl1UYl

论文摘要:我们提出了通过网络表格和文本回答开放域问题的新任务,并设计了新技术:1)融合检索2)跨块阅读器,以解决新任务带来的挑战。



论文标题:Uncertainty-Based Adaptive Learning for Reading Comprehension

论文链接:https://openreview.net/forum?id=s4D2nnwCcM

论文摘要:我们提出了一种用于阅读理解的基于不确定性的自适应学习算法,该算法将数据注释和模型更新交织在一起,以减轻标签的需求。


知识图谱


论文标题:Learning Contextualized Knowledge Graph Structures for Commonsense Reasoning

论文链接:https://openreview.net/forum?id=lJuOUWlAC8i

论文摘要:在本文中,我们提出了一种新的神经符号方法,称为混合图网络(HGN),该方法可联合生成新三元组的特征表示(作为对KG中现有边缘的补充),确定三元组与推理环境的相关性,并学习用于对关系信息进行编码的图形模型参数。我们的方法通过过滤对推理过程无用的边来学习紧凑的图结构(包含检索的边和生成的边)。



论文标题:Language Models are Open Knowledge Graphs

论文链接:https://openreview.net/forum?id=aRTRjVPkm-

论文摘要:本文介绍了由预先训练的语言模型(例如BERT,GPT-2)构建的知识图(KGs),无需人工监督。在本文中,我们提出了一种无监督的方法来将语言模型中的学习知识作为KG进行回忆。



论文标题:Interpreting Knowledge Graph Relation Representation from Word Embeddings

论文链接:https://openreview.net/forum?id=gLWj29369lW

论文摘要:基于对词嵌入的最新理论理解,我们将知识图关系分为三种类型,每种类型都推导了它们表示的明确要求。我们表明,关系表示的经验性质和领先的知识图表示方法的相对性能通过我们的分析是合理的。



论文标题:QuatRE: Relation-Aware Quaternions for Knowledge Graph Embeddings

论文链接:https://openreview.net/forum?id=hga0T0Qcli5

论文摘要:我们提出了一种有效的嵌入模型QuatRE,以学习知识图中实体和关系的四元数嵌入。QuatRE的目的是在四元数空间内具有汉密尔顿积的关系下增强头和尾实体之间的相关性。QuatRE通过进一步将每个关系与两个关系感知的四元数向量(分别用于旋转头和尾实体的四元数嵌入)相关联来实现此目标。



论文标题:JAKET: Joint Pre-training of Knowledge Graph and Language Understanding

论文链接:https://openreview.net/forum?id=SOVSJZ9PTO7

论文摘要:一个联合的预训练框架,可以同时对知识图和文本进行建模,并且可以在微调期间轻松适应新领域中看不见的知识图。



文本生成


论文标题:CoCon: A Self-Supervised Approach for Controlled Text Generation

论文链接:https://openreview.net/forum?id=VD_ozqvBy4W

论文摘要:我们使用Content-Conditioner(CoCon)来以细粒度级别控制具有内容输入的LM的输出文本。在我们的自我监督方法中,CoCon块学习通过以LM保留的内容输入为条件来帮助LM完成部分可观察的文本序列。



论文标题:GeDi: Generative Discriminator Guided Sequence Generation

论文链接:https://openreview.net/forum?id=TJSOfuZEd1B

论文摘要:我们使用GeDi作为将较小的LM用作生成鉴别符的有效方法,以指导大型LM的生成,使其更安全,更可控。GeDi通过对两个类条件分布进行归一化,通过贝叶斯规则计算所有可能的下一个标记的分类概率,从而指导每一步的生成;一个以期望的属性或控制代码为条件,而另一个以不期望的属性或反控制代码为条件。



论文标题:A Distributional Approach to Controlled Text Generation

论文链接:https://openreview.net/forum?id=jWkw45-9AbL

论文摘要:我们提出了一种分布式方法来解决从预训练的语言模型(LM)生成受控文本的问题。这种观点允许在单个正式框架中定义目标LM的“逐点”约束和“分布”约束,同时将初始LM的KL差异最小化分配。然后,将最佳目标分布唯一确定为明确的EBM(基于能量的模型)表示。从最佳表示中,我们然后通过策略梯度的自适应分布变量训练目标受控自回归LM。



论文标题:Resurrecting Submodularity for Neural Text Generation

论文链接:https://openreview.net/forum?id=FVhZIBWqykk

论文摘要:我们定义了具有亚模块功能的一类新颖的注意力机制,进而证明了有效神经覆盖的亚模块性。所得的注意模块提供了一种体系结构简单且凭经验有效的方法,可改善神经文本生成的覆盖范围。



论文标题:Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation

论文链接:https://openreview.net/forum?id=JAlqRs9duhz

论文摘要:我们基于梯度分析提出了对MLE的简单修改,并在不同任务中对Token级退化进行了重大改进。



论文标题:A Text GAN for Language Generation with Non-Autoregressive Generator

论文链接:https://openreview.net/forum?id=wOI9hqkvu_

论文摘要:我们提出了带有非自回归生成器的文本GAN,可以使用基于梯度的方法从头开始对其进行有效训练,并将其应用于需要潜在变量的文本生成应用程序。



论文标题:Pre-training Text-to-Text Transformers to Write and Reason with Concepts

论文链接:https://openreview.net/forum?id=3k20LAiHYL2

论文摘要:为了增强常识性的预训练语言模型,我们提出了生成性和对比性目标,作为一般预训练和下游特定任务的微调之间的中间自我监督式预训练任务。我们还提出了一个联合训练框架,以统一生成目标和对比目标,从而使这些目标更加有效。



论文标题:TextSETTR: Label-Free Text Style Extraction and Tunable Targeted Restyling

论文链接:https://openreview.net/forum?id=T6RYeudzf1

论文摘要:我们提出了一种在完全没有标签的情况下训练样式转移模型的技术,并显示了生成的模型可以在测试时控制许多不同的样式属性(情感,方言,形式等)。



论文标题:Contrastive Learning with Adversarial Perturbations for Conditional Text Generation

论文链接:https://openreview.net/forum?id=Wga_hrCa3P3

论文摘要:我们通过将正对与负对进行对比来解决条件文本生成问题,从而使模型暴露于输入的各种有效或不正确的扰动下,以提高通用性。我们通过还在输入序列中添加较小的扰动以最小化其条件可能性来生成否定示例,并通过在施加较大的扰动的同时将其强制具有较高的条件可能性来生成正示例。



机器翻译


论文标题:Learning to Use Future Information in Simultaneous Translation

论文链接:https://openreview.net/forum?id=YjXnezbeCwG

论文摘要:我们提出了一种同时翻译的新方法,该方法由控制器(通过强化学习进行训练)指导,可以自适应地利用将来的信息来提高翻译质量。



论文标题:Self-supervised and Supervised Joint Training for Resource-rich Machine Translation

论文链接:https://openreview.net/forum?id=1yDrpckYHnN

论文摘要:自我监督的文本表示形式的预训练已成功应用于低资源神经机器翻译(NMT)。但是,它通常无法在资源丰富的NMT上获得显着收益。在本文中,我们提出了一种联合训练方法F2-XEnDec,以结合自我监督和监督学习来优化NMT模型。为了利用互补的自我监督信号进行监督学习,NMT模型在样本上进行了训练,这些样本是通过一种称为交叉编码器/解码器的新过程从单语和并行句子中杂交而来的。



论文标题:Hybrid-Regressive Neural Machine Translation

论文链接:https://openreview.net/forum?id=jYVY_piet7m

论文摘要:当使用小批量时,具有多次迭代的常规非自回归翻译不能加速解码,因此我们提出了混合回归翻译(HRT)来解决此问题。



论文标题:Gradient Vaccine: Investigating and Improving Multi-task Optimization in Massively Multilingual Models

论文链接:https://openreview.net/forum?id=F1vEjWK-lH_

论文摘要:在本文中,我们尝试通过损失函数几何的形式窥视多语言优化的黑匣子。我们发现沿优化轨迹测得的梯度相似度是一个重要信号,不仅与语言接近度而且与整体模型性能都很好地相关。这样的观察有助于我们发现现有基于梯度的多任务学习方法的关键局限性,因此,我们得出了一个简单且可扩展的优化程序,名为“梯度疫苗”,该方法鼓励针对完成任务的几何排列参数更新。



论文标题:Meta Back-Translation

论文链接:https://openreview.net/forum?id=3jjmdp7Hha

论文摘要:在本文中,我们提出了一种生成伪并行数据以进行反翻译的新方法,该方法可直接优化最终模型的性能。具体来说,我们提出了一种元学习框架,其中反向翻译模型学习将开发数据上的正向翻译模型的梯度与伪并行数据上的梯度进行匹配。



论文标题:Nearest Neighbor Machine Translation

论文链接:https://openreview.net/forum?id=7wCBOfJ8hJM

论文摘要:我们使用最近的邻居分类器扩展了经过预训练的机器翻译模型的解码器,从而在没有任何其他训练的情况下,极大地提高了单语言对,多语言和领域自适应设置下的性能。



论文标题:Deep Encoder, Shallow Decoder: Reevaluating Non-autoregressive Machine Translation

论文链接:https://openreview.net/forum?id=KpfasTaLUpq

论文摘要:我们研究具有不同深度的编码器和解码器的自回归模型。在给定足够深的编码器的情况下,单层自回归解码器可以以可比的推理速度大大胜过强大的非自回归模型。我们表明,与非自回归方法相比,自回归基线的速度劣势在三个方面被高估了:欠佳的层分配,速度测量不足和缺乏知识提炼。



对抗攻击


论文标题:Grey-box Extraction of Natural Language Models

论文链接:https://openreview.net/forum?id=cotg54BSX8

论文摘要:在本文中,我们介绍了在灰盒设置中针对大规模自然语言模型的代数攻击,其目标模型是经过预先训练的(公共)编码器,然后是单个(私有)分类层。我们的主要观察结果是,一小组任意的嵌入向量很可能构成分类层输入空间的基础,而灰匣子对手可以计算输入空间。



论文标题:InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective

论文链接:https://openreview.net/forum?id=hpH98mK5Puk

论文摘要:我们提出了一种新颖的学习框架InfoBERT,用于从信息论的角度对预训练语言模型进行鲁棒的微调,并在NLI和QA任务的多个对抗性数据集上实现了最新的鲁棒性。



论文标题:Towards Robustness Against Natural Language Word Substitutions

论文链接:https://openreview.net/forum?id=ks5nebunVn_

论文摘要:我们介绍了一种新颖的对抗性稀疏凸组合(ASCC)方法。我们将单词替换攻击空间建模为凸包,并利用正则化项对实际替换实施扰动,从而使我们的建模与离散文本空间更好地保持一致。基于ASCC方法,我们进一步提出了ASCC防御,该防御利用ASCC生成最坏情况的扰动并将对抗性训练纳入鲁棒性。



论文标题:Better Fine-Tuning by Reducing Representational Collapse

论文链接:https://openreview.net/forum?id=OQ08SN70M1V

论文摘要:我们提出了一种对标准微调的轻量级增强功能,用参数噪声(从正态分布或均匀分布采样)替换了以前使用的对抗目标,从而在可能的情况下阻止了微调过程中的表示变化而不会损害性能。其性能优于整体方法,同时在计算上比其他微调方法廉价。



文本分类


论文标题:Neural Text Classification by Jointly Learning to Cluster and Align

论文链接:https://openreview.net/forum?id=PTG9NdIn3wt

论文摘要:分布文本聚类提供语义上有意义的表示,并捕获每个单词与语义聚类质心之间的相关性。我们通过潜在变量模型诱导聚类中心并与分布词嵌入进行交互,从而将神经文本聚类方法扩展到文本分类任务,以丰富标记的表示并测量标记与每个可学习的聚类质心之间的相关性。



论文标题:Cluster & Tune: Enhance BERT Performance in Low Resource Text Classification

论文链接:https://openreview.net/forum?id=Oz_4sa7hKhl

论文摘要:我们建议在调优之前和对BERT进行预训练之后添加一个无监督的中间分类步骤,并表明它可以提高数据受限情况下的性能。



信息抽取


论文标题:Counterfactual Thinking for Long-tailed Information Extraction

论文链接:https://openreview.net/forum?id=xYJpCgSZff

论文摘要:信息提取(IE)旨在从非结构化文本中提取结构化信息。但是,在实践中,长尾数据不平衡可能会导致深度学习模型出现严重的偏差问题,这是因为用于尾类的训练实例很少。为此,我们提出了一种基于语言结构和因果推理的新颖框架(名为Counterfactual-IE)三个关键成分。首先,通过将语法信息融合到各种主流的IE任务的结构化因果模型中,包括关系提取(RE),命名实体识别(NER)和事件检测(ED),我们的方法能够从不平衡的数据集。其次,基于事实语言结构生成反事实,以更好地计算推断阶段的直接影响。第三,我们提出了一种灵活的去偏方法,以便在推理阶段进行更可靠的预测。



论文标题:Prototypical Representation Learning for Relation Extraction

论文链接:https://openreview.net/forum?id=aCgLmfhIy_f

论文摘要:本文旨在从文本数据中学习预测性,可解释性和鲁棒性的关系表示形式,这些表示形式在不同的情况下均有效,包括监督学习,远程监督学习和few-shot学习。我们建议不要从上下文信息中推断每个关系的潜在原型,而不是仅仅依靠标签的监督,以最好地探索关系的内在语义。



论文标题:Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition

论文链接:https://openreview.net/forum?id=5jRVa89sZk

论文摘要:通过对综合数据集进行的经验研究,我们发现了性能下降的两个原因。一种是减少带注释的实体,另一种是将未标记的实体视为否定实例。我们提出了一种通用方法,该方法能够消除未标记实体带来的误导。核心思想是使用负采样将未标记实体进行训练的概率保持在非常低的水平。



论文标题:Segmenting Natural Language Sentences via Lexical Unit Analysis

论文链接:https://openreview.net/forum?id=PQlC91XxqK5

论文摘要:在这项工作中,我们提出了词法单元分析(LUA),这是用于一般序列分割任务的框架。给定自然语言句子后,LUA会为所有有效的细分候选者评分,并利用动态编程(DP)来提取得分最高的一个。



可解释性


论文标题:Unsupervised Discovery of Interpretable Latent Manipulations in Language VAEs

论文链接:https://openreview.net/forum?id=DGttsPh502x

论文摘要:在这项工作中,我们迈出了在语言潜在空间中无监督地解释可理解方向的第一步。令人惊讶地,我们发现在训练数据的VAE表示上运行PCA始终优于沿坐标和随机方向的移动。这种方法简单,可适应数据,不需要训练,并且可以发现有意义的方向。



模型压缩与集成


论文标题:MixKD: Towards Efficient Distillation of Large-scale Language Models

论文链接:https://openreview.net/forum?id=UFGEelJkLu5

论文摘要:我们使用数据混合蒸馏框架MixKD,该框架利用简单而有效的数据扩充方法Mixup,为生成的模型赋予更强的泛化能力。具体而言,除了原始的训练示例外,还鼓励学生模型在示例对的线性插值上模仿老师的行为。我们从理论上证明,MixKD在泛化误差和经验误差之间产生了较小的差距。



论文标题:Task-Agnostic and Adaptive-Size BERT Compression

论文链接:https://openreview.net/forum?id=wZ4yWvQ_g2y

论文摘要:我们提出了NAS-BERT,它利用神经结构搜索对自适应模型大小和跨下游任务的BERT压缩。



论文标题:Knowledge Distillation based Ensemble Learning for Neural Machine Translation

论文链接:https://openreview.net/forum?id=dGF96IxczpW

论文摘要:我们为NMT提出了一种基于知识蒸馏的集成学习方法,可以将多个模型的知识汇总到一个模型中。



论文标题:Structural Knowledge Distillation

论文链接:https://openreview.net/forum?id=3Jldbtfqfa

论文摘要:在本文中,我们推导了用于结构化预测的知识蒸馏目标的因式分解形式,对于教师和学生模型的许多典型选择而言,该形式易于处理。特别是,我们展示了在四种不同情况下,序列标签和依赖关系解析模型之间的结构知识精炼的可操作性和经验有效性:1)师生共享输出结构评分函数的相同分解形式;2)与教师分解相比,学生分解产生的子结构更小;3)教师分解比学生分解产生的子结构小;4)教师和学生的因式分解形式不兼容。



数据增强


论文标题:CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for Natural Language Understanding

论文链接:https://openreview.net/forum?id=Ozk9MrX1hvA

论文摘要:在本文中,我们提出了一种名为CoDA的新型数据增强框架,该框架通过有机地整合多个转换来合成各种信息丰富的增强示例。此外,引入了对比正则化以捕获所有数据样本之间的全局关系。



论文标题:XLA: A Robust Unsupervised Data Augmentation Framework for Cross-Lingual NLP

论文链接:https://openreview.net/forum?id=w5uur-ZwCXn

论文摘要:我们提出了XLA,这是一种在零资源转移学习场景中用于自我监督学习的新颖数据增强框架。特别地,假设目标语言任务中没有训练标签,XLA旨在解决从源语言任务分发到未知目标语言任务分发的跨语言适应问题。XLA的核心是通过数据增强和无监督样本选择来同时进行自我训练。



向量表示


论文标题:Universal Sentence Representations Learning with Conditional Masked Language Model

论文链接:https://openreview.net/forum?id=WDVD4lUCTzU

论文摘要:本文提出了一种新的训练方法,即条件屏蔽语言建模(CMLM),以有效地学习大规模未标记语料库中的句子表示。CMLM通过以相邻句子的编码向量为条件,将句子表示学习整合到MLM训练中。



论文标题:Rethinking Embedding Coupling in Pre-trained Language Models

论文链接:https://openreview.net/forum?id=xpFFI_NtgpW

论文摘要:我们在最新的预训练语言模型中重新评估在输入和输出嵌入之间共享权重的标准做法。我们表明,解耦的嵌入提供了增加的建模灵活性,从而使我们能够在多语言模型的输入嵌入中显着提高参数分配的效率。通过在Transformer层中重新分配输入的嵌入参数,我们可以在微调期间以相同数量的参数在标准自然语言理解任务上获得显着更好的性能。我们还表明,为输出嵌入分配额外的容量可以为模型提供好处,即使在预训练后将输出嵌入丢弃,该模型也可以在微调阶段持续存在。



论文标题:Disentangling Representations of Text by Masking Transformers

论文链接:https://openreview.net/forum?id=Dmpi13JiqcX

论文摘要:我们探讨了是否有可能通过识别预编码模型中的子网来学习解纠缠的表示形式,这些模型对表示形式的不同互补方面进行编码。具体来说,我们学习关于Transformer权重或隐藏单位的二进制掩码,以发现与特定变化因子相关的特征子集。这回避了在特定领域内从头开始训练解开模型的需求。



论文标题:Polar Embedding

论文链接:https://openreview.net/forum?id=TLfjwEFI527

论文摘要:层次结构的有效表示对于开发智能系统至关重要,因为大多数现实世界中的对象都按层次结构排列。我们使用极坐标嵌入来学习极坐标系统的表示形式。在极坐标中,对象用两个独立变量表示:半径和角度,这使我们可以根据层次结构中对象的普遍性和相似性的明确对应关系分别优化其值。此外,我们介绍了一种优化方法,该方法结合了控制梯度的损失函数和分布的迭代均匀化。



论文标题:Discrete Word Embedding for Logical Natural Language Understanding

论文链接:https://openreview.net/forum?id=4LHz4IFGLQ-

论文摘要:我们提出了一种无监督的神经模型,用于学习单词的离散嵌入。与现有的离散嵌入不同,我们的二进制嵌入支持类似于连续嵌入的矢量算术运算。我们的嵌入将每个单词表示为一组命题陈述,描述了经典/ STRIPS规划形式主义中的过渡规则。这使得嵌入与符号化,最新的经典规划求解器直接兼容。



论文标题:Filtered Inner Product Projection for Multilingual Embedding Alignment

论文链接:https://openreview.net/forum?id=A2gNouoXE7

论文摘要:在本文中,我们提出了一种将内部嵌入映射到公共表示空间的方法,即过滤内积投影(FIPP)。由于语义变化在语言和领域中无处不在,因此FIPP首先在两个嵌入中标识出通用的几何结构,然后仅在该通用结构上对齐这些嵌入的Gram矩阵。



论文标题:Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies

论文链接:https://openreview.net/forum?id=Vd7lCMvtLqg

论文摘要:通过贝叶斯非参数解释对大型词汇的稀疏嵌入进行端到端学习,从而使嵌入表缩小多达40倍。



论文标题:Ruminating Word Representations with Random Noise Masking

论文链接:https://openreview.net/forum?id=pXi-zY262sE

论文摘要:我们介绍了一种更好的单词表示和性能训练方法,该方法是在训练模型后,逐步地,反复地向词嵌入中添加随机噪声和偏差,然后从头开始重新训练模型,但使用有噪声的词嵌入进行初始化。



论文标题:Neural Topic Model via Optimal Transport

论文链接:https://openreview.net/forum?id=Oos98K9Lv-k

论文摘要:本文提出了一种通过最佳传输的神经主题模型,该模型可以发现更连贯和多样的主题,并为常规文本和短文本提供更好的文档表示形式。



论文标题:Probing BERT in Hyperbolic Spaces

论文链接:https://openreview.net/forum?id=17VnwXYZyhH

论文摘要:这项工作提出了一系列几何上特殊的空间,即双曲空间,它们对层次结构表现出更好的归纳偏差,并且可能更好地揭示了在上下文表示中编码的语言层次。我们引入Poincare probe,可将这些嵌入投射到具有明确定义的层次结构的Poincaré子空间中。



论文标题:Contrasting distinct structured views to learn sentence embeddings

论文链接:https://openreview.net/forum?id=ZlIfK1wCubc

论文摘要:我们提出了一种自我监督的方法,该方法可通过多种显式句法结构的组合来构建句子嵌入。



论文标题:On Learning Universal Representations Across Languages

论文链接:https://openreview.net/forum?id=Uu1Nw-eeTxJ

论文摘要:在这项工作中,我们扩展了预训练的语言模型,以学习多种语言之间的通用表示,并展示了对跨语言理解和生成的有效性。



其他


论文标题:Transformer protein language models are unsupervised structure learners

论文链接:https://openreview.net/forum?id=fylclEqgvgd

论文摘要:无监督的接触预测对于揭示蛋白质结构确定和设计的物理,结构和功能限制至关重要。我们证明了Transformer注意图是从无监督语言建模目标中学习联系的。



论文标题:Token-Level Contrast for Video and Language Alignment

论文链接:https://openreview.net/forum?id=GRbZ91LKIya

论文摘要:建立视频和语言理解模型需要将语言概念和视频内容置于一个共享空间中。本文介绍了一种通过语法类(例如名词和动词)告知的简单令牌级别的对比损失(ToCo),以迫使模型优先考虑具体的语义方位词。ToCo不会掩盖输入,而是以对比方式为多模式对齐提供局部(上下文标记)和全局(词法类型)压力。



论文标题:Learning Chess Blindfolded

论文链接:https://openreview.net/forum?id=DGIXvEAJVd

论文摘要:我们提出了国际象棋语言建模的任务,以评估语言模型如何很好地捕获世界(棋盘)状态。国际象棋的简单而精确的动态特性允许(a)训练具有各种显式状态的模型,以及(b)在细粒度的水平上评估模型预测。



论文标题:Long Range Arena : A Benchmark for Efficient Transformers

论文链接:https://openreview.net/forum?id=qVyeW-grC2k

论文摘要:本文提出了一个系统且统一的基准,即“Long Range Arena”,专门用于评估在长上下文情况下的模型质量。我们的基准测试是一整套任务,由从1K到16K Token的一系列序列组成,涵盖了广泛的数据类型和形式,例如文本,自然,合成图像以及需要相似,结构和视觉空间推理的数学表达式。



论文标题:BERTology Meets Biology: Interpreting Attention in Protein Language Models

论文链接:https://openreview.net/forum?id=YWtLZvLmud7

论文摘要:我们分析了蛋白质语言模型的内部表示,并更广泛地介绍了分析基于注意力的模型的方法。


PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

入门NLPICLR 2021
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

Hopfield网络技术

Hopfield神经网络是一种递归神经网络,由约翰·霍普菲尔德在1982年发明。Hopfield网络是一种结合存储系统和二元系统的神经网络。它保证了向局部极小的收敛,但收敛到错误的局部极小值(local minimum),而非全局极小(global minimum)的情况也可能发生。Hopfield网络也提供了模拟人类记忆的模型。

关系提取技术

关系抽取任务需要检测和分类一组工件中的语义关系提及,通常来自文本或XML文档。该任务与信息提取(IE)的任务非常相似,但是IE另外需要去除重复关系(消歧),并且通常指的是提取许多不同的关系。

集成学习技术

集成学习是指使用多种兼容的学习算法/模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类: 堆叠(Stacking)、提升(Boosting) 和 装袋(Bagging/bootstrapaggregating)。其中最流行的方法包括随机森林、梯度提升、AdaBoost、梯度提升决策树(GBDT)和XGBoost。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

时间复杂度技术

在计算机科学中,算法的时间复杂度是一个函数,它定量描述了该算法的运行时间。这是一个代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述,不包括这个函数的低阶项和首项系数。使用这种方式时,时间复杂度可被称为是渐近的,亦即考察输入值大小趋近无穷时的情况。例如,如果一个算法对于任何大小为 n (必须比 n0 大)的输入,它至多需要 5n3 + 3n 的时间运行完毕,那么它的渐近时间复杂度是 O(n3)。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

自适应学习技术

自适应学习也称为适应性教学(Adaptive Learning),是一种以计算机作为交互式教学手段的教学方法,根据每个学习者的特别需求,以协调人力资源和调解资源的分配。计算机根据学生的学习需求(如根据学生对问题、任务和经验的反馈)调整教育材料的表达方式。自适应学习技术已经涵盖了来自各个研究领域,包括计算机科学,教育,心理学和脑科学等等。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

图形模型技术

【图形模型】比实际模型更加抽象地描述实物的一种模型。它可用各种图来表示系统的信息流程、物质流程、时间顺序、逻辑关系以及相互联系的结点和支路组成的网络图,如电路图、信息流程图、网络分析的网结图等。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

条件随机场技术

条件随机场(conditional random field,简称 CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 如同马尔可夫随机场,条件随机场为无向性之图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场当中,随机变量 Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链接式的架构,链接式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在有效率的算法可供演算。 条件随机场跟隐马尔可夫模型常被一起提及,条件随机场对于输入和输出的机率分布,没有如隐马尔可夫模型那般强烈的假设存在。 线性链条件随机场应用于标注问题是由Lafferty等人与2001年提出的。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

主动学习技术

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

主题模型技术

主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

因式分解技术

在数学中,把一个数学因子(比如数字,多项式,或矩阵)分解其他数学因子的乘积。比如:整数15可以分解成两个质数3和5的乘积,一个多项式x^2 -4 可被因式分解为(x+2)(x-2)。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

信息论技术

信息论是在信息可以量度的基础上,研究有效地和可靠地传递信息的科学,它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论,又因为它的创始人是香农,故又称为香农信息论。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

认知神经科学技术

认知神经科学(英语:Cognitive neuroscience)是一门科学学科,旨在探讨认知历程的生物学基础。主要的目标为阐明心理历程的神经机制,也就是大脑的运作如何造就心理或认知功能。认知神经科学为心理学和神经科学的分支,并且横跨众多领域,例如生理心理学、神经科学、认知心理学和神经心理学。认知神经科学以认知科学的理论以及神经心理学、神经科学及计算机模型的实验证据为基础。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真(蕴涵),假(矛盾)还是未确定(中立)的任务。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

关系分类技术

关系分类旨在将文本中给定实体的关系分类为预定义类。

神经结构搜索技术

神经结构搜索(NAS)表示自动设计人工神经网络(ANN)的过程。

图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

算术技术

算术(英语:arithmetic)是数学最古老且最简单的一个分支,几乎被每个人使用着,从日常生活上简单的算数到高深的科学及工商业计算都会用到。一般而言,算术这一词指的是记录数字某些运算基本性质的数学分支。

分块技术

将标注好词性的句子按句法结构把某些词聚合在一起形成比如主语、谓语、宾语等等。

嵌套命名实体识别技术

嵌入在较长实体中的实体称为嵌套实体,嵌套命名实体识别就是指识别文本中嵌套实体。

暂无评论
暂无评论~