嘀~ 您有一份优质论文大礼包

#文本摘要#

#ACL2017# 

Get To The Point: Summarization with Pointer-Generator Networks

Abstractive 式的文本摘要许久没有看到过文章了,这篇文章的亮点在于对 pointer 和 generator 模型进行了一个综合,pointer 有点类似 extractive 的过程,用来解决 OOV 问题,generator 类似 abstractive 的过程。对自动文摘感兴趣的同学可以看看这篇。

论文链接:https://arxiv.org/abs/1704.04368

推荐人:大俊,PaperWeekly 首席客服

#数据集#

#机器阅读理解# 

RACE: Large-scale ReAding Comprehension Dataset From Examinations


Machine Reading Comprehension 这个领域非常活跃,尤其是经常分享出大规模的数据集。本文开放出的数据集为中国中学生英语阅读理解题目,给定一篇文章和 5 道 4 选 1 的题目,包括了 28000+ passages 和 100,000 道问题。 

数据地址:http://www.cs.cmu.edu/~glai1/data/race/

论文链接:https://arxiv.org/abs/1704.04683

推荐人:大俊,PaperWeekly 首席客服

Improving Object Detection With One Line of Code 


本文介绍了一个物体检测的通用的小技巧,如题所示“只需要增加一行代码就可以提高检测性能”。非极大值抑制(Non-maximum suppression, NMS)是物体检测算法的一个重要的后处理技术。其使用情形是,物体位置检测器会给出一堆相互重叠的初始物体区域,以及每个区域相应的置信度。NMS 是一个递归的过程,每一轮从候选的区域集合中选择一个置信度最大的区域加入最终的输出集合,然后去掉候选集合中与该选中的区域的重叠部分 IoU 大于一个阈值的区域,直到候选集合为空。本文作者注意到,NMS 相当于每一轮给候选集合中每个区域的置信度做一个 0-1 的 scaling(IoU 大于阈值的 scale 为 0, 其他的 scale 为 1)。作者进而给出了所谓的 Soft-NMS 方法,即将 0-1 这样的 hard scaling 函数替换为类似 exp(-(IoU)^2/s) 或者 (1-IoU) 这样的 Soft scaling 函数。通过数值实验,Soft-NMS 在 PASCAL VOC 2007 和 MS-COCO 数据集上将 Faster-RCNN 和 R-FCN 算法的性能(mAP)分别提高了 1.7% 和 1.3%(R-FCN), 1.1%(Faster-RCNN)。

Soft-NMS 代码地址:

https://github.com/bharatsingh430/soft-nms

论文链接:https://arxiv.org/abs/1704.04503

推荐人:吴沐,北京航空航天大学(PaperWeekly arXiv组志愿者)

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks  


该文章介绍了一个人脸检测及标定的深度学习方法,该方法采用类似山世光老师的 Seeta Face 的人脸检测想法,通过三个网络,Pnet,Rnet,Onet 来获得 classification,regression of bounding box,localization of landmark。这三个网络都采用类似 Faster Rcnn 的方法训练 classification(have face,no face,part face),(regression of bounding box(dx,dy,dw,dh)),localization of landmark(5 个标定点的坐标)。第一个网络输入 12*12 方框,第二个把第一个检测的方框 resize 到 24*24,第三个 48*48。

测试源码:

https://kpzhang93.github.io/MTCNN_face_detection_alignment/index.html?from=timeline&isappinstalled=1

训练源码:https://github.com/Seanlinx/mtcnn

论文链接:https://arxiv.org/abs/1604.02878v1

推荐人:孙嘉睿,北京大学(PaperWeekly arXiv组志愿者)


#ACL2017#

#encoder-decoder# 

A Neural Architecture for Generating Natural Language Descriptions from Source Code Changes


本文套用 encoder-decoder 模型做了一件有意思的事情,输入 code 的修改信息,输出用自然语言生成的 code commit message,以后大家在 commit 代码的时候就可以直接用算法生成了。套用 encoder-decoder 框架可以做很多有趣的事情,只要有充足的 input-output pairs,就可以做一些好玩的事情。

代码地址:https://github.com/epochx/commitgen

论文链接:https://arxiv.org/abs/1704.04856

推荐人:大俊,PaperWeekly 首席客服


#文本摘要# 

Neural Extractive Summarization with Side Information


用抽取式的方法来做单文档摘要是一个比较实用的方法,传统一点的方法是在 document 中对各个句子进行排序、去冗余然后生成摘要。对于新闻文本来说,类似内容的标题和配图描述文字这些 side information 都非常重要,在套用 encoder-decoder 框架时,attention 基于这些 side information 来做,取得了不错的结果。

论文链接:https://arxiv.org/abs/1704.04530

推荐人:大俊,PaperWeekly 首席客服

  • #数据集#

    #NLI# 

    A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference


    本文公开了一个 Multi-Genre Natural Language Inference 数据集,规模大约 433k examples,研究这个领域的童鞋可以来看看。

    数据地址:

    http://www.nyu.edu/projects/bowman/multinli/

    论文链接:https://arxiv.org/abs/1704.05426

    推荐人:大俊,PaperWeekly 首席客服

  • #数据集#

    #QA# 

    SearchQA: A New Q&A Dataset Augmented with Context from a Search Engine


    本文公开了一个新的大型 QA 数据集,这个数据集的最大特点是先找 QA 对,然后通过 QA 去 Google 检索相关的 context,这里的 context 噪声会更大一些,对于机器来说难度更加大一些。数据集大约有 140k 条 QA 对,平均每对 QA 包括了 49.6 个从 google 搜索出来的 context 片段。

    数据地址:https://github.com/nyu-dl/SearchQA

    论文链接:https://arxiv.org/abs/1704.05179

    推荐人:大俊,PaperWeekly 首席客服

    #模型压缩#  

    Exploring Sparsity in Recurrent Neural Networks


    本文的工作来自百度,解决的问题是 RNN 模型的压缩,模型尺寸压缩了将近 8x,准确率保持了一定的水准。对模型压缩感兴趣的童鞋可以来看看。

    论文链接:https://arxiv.org/abs/1704.05119

    推荐人:大俊,PaperWeekly 首席客服


    推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

    理论NLPPaperWeekly论文理论
    1