哈工大SCIR转载

2018/06/15 11:02

赛尔推荐 | 第25期

本栏目每周将推荐若干篇由师生精心挑选的前沿论文，分周三、周五两次推送。

本次推荐了三篇关于跨语言，情感分类，词向量，事件检测，文本问答、视觉问答、记忆网络、关系推理的论文。

1、推荐组：SA

推荐人：吴洋（研究方向：情感分析）

论文题目：Bilingual Sentiment Embeddings: Joint Projection of Sentiment Across Languages

作者：Jeremy Barnes, Roman Klinger, and Sabine Schulte im Walde

出处：ACL 2018

论文主要相关：跨语言，情感分类，词向量

简评：

该论文探讨了如何利用有限的语料资源解决跨语言的情感分类问题。其中提出的BLSE（Bilingual Sentiment Embeddings）模型仅需三种资源，从源语言到目标语言的小型双语词典，源语言端带有情感标签的情感语料库，源语言和目标语言的词向量。BLSE模型一方面通过学习合适的语义映射使得源语言和目标语言中具有相似语义的词在映射后能够距离较近（参数M’,M），另一方面通过在情感语料上进行有监督学习来使得对源语言的映射能够保留情感信息（参数M,P），最后通过两方面的学习来得到有效的跨语言情感分类模型（M’,M,P）。实验结果表明，BLSE模型在二分类上比使用相似的资源的SOTA模型平均高出14个百分点，在四分类上高出4个百分点。　

论文链接：

https://arxiv.org/pdf/1805.09016.pdf

源代码链接：

https://github.com/jbarnesspain/blse

2、推荐组：SP

推荐人：张文博（研究方向：社会预测）

论文题目：Graph Convolutional Networks with Argument-Aware Pooling for Event Detection

作者：Thien Huu Nguyen, Ralph Grishman

出处：AAAI 2018

论文主要相关：事件检测

简评：

随着互联网信息爆炸式的增长，从非结构化的信息中提取出有用的结构化信息显得尤为迫切和重要。事件检测作为信息抽取系统中的一个关键任务，受到了很多研究者的关注，然而，以往大部分做事件检测的工作都只是考虑句子的线性表示，忽视了句法结构能够直接联系信息上下文的优势。该论文提出一个基于句法依存树的图卷积神经网络模型用于事件检测，解决了长距离非连续的信息依赖问题，在公开数据集ACE2005上取得了非常好的效果。这个模型最大的创新点是首次在神经网络中引入句法结构特征，在句法依存图上执行卷积操作。句法依存图是通过句法依存树转换得到的——有向边变为无向边且添加自循环边，然后在句法依存图上建模图卷积网络(GCN)进行触发词的识别和分类。GCN模型大致有两种结构：一是先做图embedding转化成序列格式，然后执行传统的平面卷积操作；二是借鉴卷积核局部加权求和的思想，对图中的任一顶点及其邻域进行加权求和，以达到抽取特征的目的。本文采用的是第二种结构的GCN模型，通过对候选词及其句法邻域词进行卷积操作，建模最直接的信息依赖。此外，本文还提出了基于实体提及的池化操作，进一步提升了事件检测的效果。

论文链接：

https://ix.cs.uoregon.edu/~thien/pubs/graphConv.pdf

3、推荐组：TG

推荐人：龚恒（研究方向：文本生成）

论文题目：Working Memory Networks: Augmenting Memory Networks with a Relational Reasoning Module

作者：Juan Pavez, Héctor Allende, Héctor Allende-Cid

出处：ACL 2018

论文主要相关：文本问答、视觉问答、记忆网络、关系推理

简评：

这篇文章主要针对文本问答数据集bAbI-10k和视觉问答数据集NLVR中涉及到的比较复杂的需要关系推理的问题，在Memory Networks（记忆网络）中引入了NIPS 2017上DeepMind发表的一篇针对CLEVR数据集中关系推理问题的论文《A simple neural network module for relational reasoning》中提出的Relation Networks（关系网络）。为了解决在处理长文本时Relation Networks的时间复杂性较大的问题，这篇文章用Relation Network在Memory Networks的每个hop得到的表示之间两两进行推理。这样，Relation Network需要进行推理的次数只与Memory Networks的跳数有关。通过固定Memory Networks的跳数，可以提高Relation Networks面对长文本时的可拓展性。在bAbi-10k数据上相比之前的state-of-the-art有超过2个点的提升，在位置推理（positional reasoning）和路径寻找（path finding）任务上有较好的提升。NLVR数据集上，在不使用句法信息的情况下，达到了与Module Neural Networks可比的结果。

论文链接：

https://arxiv.org/abs/1805.09354

哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

入门事件检测文本问答视觉问答记忆网络关系推理

相关数据

池化技术

池化（Pooling）是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。有多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合。通常来说，CNN的卷积层之间都会周期性地插入池化层。

来源：cs231n

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分，在机器学习领域，分类问题通常被认为属于监督式学习(supervised learning)，也就是说，分类问题的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

来源：Wikipedia

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分：命名实体识别（目标是识别和分类真实世界里的知名实体）和关系提取（目标是提取实体之间的语义关系）。概率模型/分类器可以帮助实现这些任务。

来源：机器之心