Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

正经炼丹师如何完美安排国庆长假?

为了帮你合理安排国庆假期

小编连夜整理了一份最新论文清单

希望你们都能从中找到些许小灵感

请看

@zhoujie17 推荐

#Graph-to-Sequence Learning

本文提出了一种新的 encoder-decoder 框架来进行 graph-to-sequence 即图到序列的学习,在 AMR 图的序列生成和基于句法的神经机器翻译任务上取得了较好的结果。本文提出的方法解决了之前工作中存在的问题,包括将图结构线性化造成的信息丢失以及参数爆炸问题。

本文提出了一种图的转换方法,通过将图转换为 Levi 图从而解决了上述问题。同时该框架将 Gated Graph Neural Network 加入到 encoder 部分,其余部分采用 seq2seq 的原始结构,在两个任务上取得了超越了 seq2seq 的结果。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2301

源码链接

https://github.com/beckdaniel/acl2018_graph2seq

@paperweekly 推荐

#Dialog Systems

本文是上海交大发表于 COLING 2018 的工作,研究的问题是检索型对话系统。论文提出了一个深度对话整合模型,解决了以往对话理解模型中将多句对话话语直接拼接而忽略话语间关系的问题。

具体来说,论文模型将过往对话整合到 context 中,根据话语和回复挖掘关键信息,然后将每一个过往话语与回复进行语义匹配得到匹配分数。其中将最重要的回复前最后一句话语(可视为 query),与其他过往话语的向量表示进行了融合,并通过编码使每句话语中的关键信息得到凸显、过滤冗余信息。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2352

源码链接

https://github.com/cooelf/DeepUtteranceAggregation

@guohao916 推荐

#Machine Reading Comprehension

生活中,人们通常根据一系列相互关联的问答情况来收集信息。因此使用基于对话的机器阅读理解可以更有利于信息的收集。针对该场景,本文发布了一个基于对话的机器阅读理解数据集 CoQA。与以往的机器阅读理解数据集如 SQUAD 不同,该数据集存在以下特点: 

1. 与之前数据集中答案通常存在于篇章的句子片段中的情况不同,该数据集在生成过程中尽量避免使用句子中已经存在的短语或者片段,以短语或者片段的同义词或者同义片段的形式呈现;

2. 问题的答案中存在自由形式的短语片段,即需要对多条篇章句子加以归纳总结;

3. 篇章分别来自一系列不同的领域;

4. 和多轮对话的情况类似,问答对呈现出连续多轮的特点,平均轮数为 15 轮。问答对呈现出序列性的依赖关系。 

该问题可以看成对话系统和问答系统的一个综合性的应用。论文使用多种基准算法进行对比实验,包括 Seq2Seq, PGNet, DrQA 以及 DrQA+PGNet。实验结果表明效果最优的模型 DrQA+PGNet 依然比人工标注得到的 F1 指标数目要低很多,因此该数据集具有很大的模型提升空间。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2251

源码链接

https://github.com/stanfordnlp/coqa-baselines

@tobiaslee 推荐

#Text Generation

本文是北京大学发表于 NAACL 2018 的工作。论文借鉴了 Attention is All your Need 的思想,通过 Query 的方式来进行文本的生成。

传统文本生成的方式会使用一层全连接层将隐层状态映射到词表上,获得一个概率分布,这样做存在两个问题:参数量巨大和语言关系的丢失(没考虑到词的概率之间的关联关系)。

本文采用将候选词作为 value, 而对应的 word embedding 则是 key,通过将 RNN 的输出作为 query,根据 query 和 embedding 的 similarity 来进行生成词的选取。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2302

源码链接

https://github.com/lancopku/WEAN

@paperweekly 推荐

#Question Answer Matching

本文是汉诺威大学发表于 SIGIR 2018 的工作。Answer Selection 是 QA 任务中的重要子任务,现有方法往往先通过单个向量对问题和回答进行表示,然后再计算打分。论文提出了一种多阶段的 Sequential Attention 机制,将问题进行多次 attention,从而使得能够在不同阶段注意到答案不同的阶段,有效处理了长文本语义的表达问题。

实验表明,本文提出的模型在各主流 QA 数据集(TREC-QA、WikiQA、InsuranceQA、FiQA)上均取得了最优表现。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2338

@mrililili 推荐

#Natural Language Inference

本文来自赫尔辛基大学,论文主要关注的是自然语言推理任务。作者利用多层双向 LSTM 进行句子编码,并用上一个 LSTM 的结果初始化下一个 LSTM,取得了较好的结果。此外,实验表明本文提出的句子嵌入方法可应用于各类迁移学习任务。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2323

源码链接

https://github.com/Helsinki-NLP/HBMP

@paperweekly 推荐

#Natural Language Understanding

自然语言处理任务的成功取决于标注数据的数量和质量,训练数据不足将直接影响任务精度和准确度。针对文本语料不足的情况,本文提出了一种将神经网络和正则表达式相结合的方法,来改进 NLP 的监督学习

本文提出的方法在少量学习和完整注释设置上都明显提高了神经网络的性能。此外,本文为如何将 REs 与 NNs 和 RE 注释相结合提供了一套指南。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2344

数据集链接

http://www.lancaster.ac.uk/staff/wangz3/publications/ACLData.zip

@lunar 推荐

#Dataset Creation

本文是由 CMU 的一众科学家发布的一个公开数据集,他们组织了 4 个受试者去观察 5000 张图片,并在他们观察图片时记录下当时脑部的核磁共振图。 通过该数据集,我们可以将人工神经网络和人类神经网络联合起来分析,可以想象通过这个数据集,可以做出许多有趣的工作。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2325

源码链接

https://bold5000.github.io/

@paperweekly 推荐

#Pedestrian Detection

本文是中科院自动化发表于 ECCV 2018 的工作。本文重点关注行人检测中的遮挡问题,并为此提出了两种遮挡处理策略。作者在Faster R-CNN的基础上提出了一种全新方法——OR-CNN,其主要包括两个部分:第一阶 段RPN 产生目标候选框,第二阶段 Fast R-CNN 对目标候选框进行进一步的分类和回归。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2364

@paperweekly 推荐

#Semantic Segmentation

本文是 UC Berkeley 发表于 ECCV 2018 的工作,论文提出了一种以自适应相似场(Adaptive Affinity Fields )来辅助语义分割的方法,增强了网络对目标结构推理的能力,取得了非常显著的性能提升。

此外,本文提出的方法也是一种全新的深度学习结构建模方法,不仅可以用于语义分割,理论上也适用于图像深度估计、光流计算等对图像进行像素级理解的任何场景。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2365

源码链接

https://github.com/twke18/Adaptive_Affinity_Fields

@paperweekly 推荐

#Person Re-ID

本文是复旦大学发表于 ECCV 2018 的工作,论文主要研究的是行人重识别任务中的人体姿态变化问题。作者利用 GAN 生成新的姿态行人图片,然后融合原图和生成图的 ReID 特征作为最终特征。在测试阶段,论文定义了八种代表性的姿态,然后生成八张人造图,加上原图总共可以得到九个特征,最后使用 max pooling 得到最终的 ReID 特征。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2361

源码链接

https://github.com/naiq/PN_GAN

@DanielTANG 推荐

#Object Tracking

本文来自 UCL,论文提出了一种动态 RGBD SLAM 方案,不仅能实现实时的场景感知 3D 重建,而且利用了 Mask RCNN 以及几何分割对 2D 图像进行实例分割,同时映射到 3D,建立 3D 模型的语义分割。并且将要开放源码,对于语义 SLAM 研究有着一定帮助。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2314

@woonchao 推荐

#3D Reconstruction

本文是香港中文大学和腾讯优图联合发表于 ECCV 2018 的工作,论文提出了一个用于基于点云的 3D 模型重建损失函数,相较于传统的 Chamfer distance,这个损失能更好的刻画全局信息,对于提升 3D 模型重建效果有很大帮助。

论文用 GAL 来刻画重建之后的模型损失,它由两个术语组成,其中几何损失确保从不同视点接近 Groundtruth 的重建 3D 模型的一致形状,条件对抗性损失生成具有语义意义的点云。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2334

@paperweekly 推荐

#Image Retrieval

本文是厦门大学和悉尼科技大学发表于 ECCV 2018 的工作,论文提出了一种异质同源学习方法来解决无监督域适应问题,归根结底其依然是基于 GAN 生成图的工作。

本文工作主要基于两个假设:1. 相机不变性,同未标注的正样本对来学习到相机的风格;2. 域连通性,即 source 和 target 域的行人图片默认没有重叠,是负样本对。第一点是同源学习,因为用的样本都是相同域的。第二点是异质学习,因为用到了两个域的样本。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2362

源码链接

https://github.com/zhunzhong07/HHL

@xuehansheng 推荐

#Network Embedding

本文是香港科技大学和腾讯发表于 IJCAI 2018的工作,论文提出了一种可扩展的多路复用网络嵌入模型(scalable multiplex network embedding model),将多字形关系的信息表示为一个统一的嵌入空间。

为了在保持其独特属性的同时组合不同类型关系的信息,对于每个节点,作者为每种类型的关系提出一个高维公共嵌入和低维附加嵌入。然后,可以基于统一的网络嵌入模型联合学习多个关系。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2305

源码链接

https://github.com/HKUST-KnowComp/MNE

@simonhua 推荐

#Neural Networks

本文利用 ML 对网络进行建模用来评估网络性能,成功对网络建模有利于网络优化,配合 SDN 在 SDN 控制器的帮助下能够有效对网络配置进行合理优化。本文提出了使用神经网络根据输入流量函数准确对网络时延进行建模。

作者基于不同计算机网络参数(网络拓扑,网络大小,流量强度,路由策略)训练了不同神经网络模型,研究了不同的计算机网络参数对于学习能力有何影响,对未来使用机器学习对网络建模的可行性进行了验证并提出了几点讨论建议,可以作为实际环境部署的指南方针。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2312

@MADONG 推荐

#Deep Reinforcement Learning

本文来自 DeepMind,论文主要贡献如下:

1. 关系推理中深度学习的加入:深度学习让关系表达的对象得以加入到我们的控制中,原先无法直接处理的物理对象可以引入了,这样 agent 与真实世界的交互变得可能了,推理也就变得有意义了。 深度学习对特征的提取功能,让关系强化学习能够关注在深度学习抽象后的特征中,把特征对应成自己需要掌握的关系对象。这样其实比直接对应真实的物体更进一步;

2. Attention 模块的加入:Attention 模块让关系强化学习中关系的表达得以更优秀。原本的 RNN 等算法对于序列的长短比较敏感,但是在 attention 机制下,两个向量之间关系的计算不再受向量之间距离的影响。同一个场景下欧式距离较远的对象也可以很好的提取出存在的关系;

3. 强化学习的加入:在这里主要是监督 attention 模块中权值 w 的改变调整。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2300

@xuehansheng 推荐

#Network Embedding

本文来自亚利桑那州立大学,论文提出了一种新颖的多级网络嵌入框架 BoostNE,它可以学习从粗到细的不同粒度的多个网络嵌入表示,而不会强加普遍的全局低秩假设。方法新颖值得深入研究。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2269

@linxi2333 推荐

#Audio Generation

本文是对 DeepMind 的 Tacotron2 的改进,Tacotron2 是一种端到端的语音合成系统。论文单高斯简化了 parallel WaveNet 的 KL 目标函数,改进了蒸馏算法(distillation),使得结构更简单,更稳定;通过 Bridge-net 连接了 Tacotron(特征预测网络)和 WaveNet,彻底实现端到端。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2290

Demo链接

https://clarinet-demo.github.io/

@Ttssxuan 推荐

#Reinforcement Learning

本文对 ALE (Arcade Learning Environment) 平台做了进一步深入介绍,主要从以下几点出发:1. 总结了关于 ALE 相关问题的经验,如:Frame skipping, Color averaging and frame pooling 等;2. 总结最新成果,以及当前待解决的一些问题 ;3. 新的 ALE 版本,介绍了新平台的特性,如:sticky actions, multiple game modes 等。

 论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2343

源码链接

https://github.com/mgbellemare/Arcade-Learning-Environment

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论人工智能论文
4
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

逻辑异或技术

在数字邏輯中,逻辑算符互斥或閘(exclusive or)是对两个运算元的一种邏輯分析类型,符号为XOR或EOR或⊕。与一般的逻辑或OR不同,当两两数值相同为否,而数值不同时为真。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

序列到序列技术

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

暂无评论
暂无评论~