Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

本周有哪些值得读的 AI 论文?我们替你挑选了18篇

@hauturier 推荐

#Dialog Systems

本文是一篇来自  微软 和 Google Brain 的对话系统综述文章,论文针对问答型、任务型和 聊天机器人这三类 对话系统,回顾了各自当前最优的方法,并将它们与传统方法加以结合。

论文链接:https://www.paperweekly.site/papers/2676


@paperweekly 推荐

#Response Generation

本文来自阿尔伯塔大学。Seq2Seq 模型在提高会话代理性能方面取得了重大突破,它虽然能生成句法良好的回复,但回复缺乏对上下文的 感知及多样性,大部分都是没有营养的通用回复。

针对该问题,本文提出了一个完全数据驱动的神经交互模型THRED,通过层次化的联合 attention 机制,在回复生成中利用对话历史和主题信息,使对话更加多样化。此外,论文还引入了两种新的自动化评价指标:语义相似度和回复回声指数。实验表明,本文模型能产生更具多样性并且上下文相关的回复。

论文链接:https://www.paperweekly.site/papers/2743

源码链接:https://github.com/nouhadziri/THRED

@zkt18 推荐

#Question Answering

本文是北京大学、 腾讯和中科院发表于 AAAI 2019 的工作。Answer Selection 和 KBQA 是 QA 中的两个重要任务,现有方法通常会将二者分开做。论文使用 multi-task 将二者同时进行,提出了新颖的 multi-view attention 多任务模型。首先,两个任务都可视为 ranking 任务,一个在 text-level,另一个在 knowledge-level;其次两个任务可以互相提升,一个利用上下文信息,一个利用外部信息。

论文链接:https://www.paperweekly.site/papers/2637




@paperweekly 推荐

#Machine Comprehension

本文是浙江大学发表于 NeurIPS 2018 的工作。机器理解是 NLP 中一个非常重要的任务,论文提出了一个用机器理解作为补充结构来提升端到端生成任务表现的模型。作者将机器理解任务中的编码器和模型层作为迁移对象,将其用于 Seq2Seq 模型编码和解码阶段来提升 Seq2Seq 的生成效果,让生成过程可以对语义进行更深层次的理解。

论文链接:https://www.paperweekly.site/papers/2693




@paperweekly 推荐

#Sentiment Classification

本文是香港科技大学 杨强组发表于 AAAI 2019 的工作,该文提出了一个新的跨 aspect 粒度的迁移问题,从更容易获取大量标签数据的粗粒度的aspect类别任务迁移到数据匮乏的细粒度 aspect 实体任务。

在该问题设置中,需要同时解决任务间 aspect 粒度差异与领域特征分布差异的问题。论文模型提出了一个自监督的由粗到细的注意力模块来减少任务间粒度的差异,并且采用了对比特征对齐方法来语义上的对齐 aspect 特定的特征表达。

实验结果表明,通过利用源 aspect 类别任务提炼出的有用知识,即使对于目标 aspect 实体任务采用简单 attention-based RNN 模型也能取得优秀的性能。并且该论文提供了用于迁移的,大规模,多领域,aspect 类别的语料。

论文链接:https://www.paperweekly.site/papers/2717



@guohao916 推荐

#Conversational Question Answering

本文来自  微软 论文作者提出了一种全新的基于上下文注意力机制深度神经网络模型 SDNet 以解决对话问答任务。通过利用内部 注意力机制和自 注意力机制,对篇章和对话内容历史信息进行建模从而理解对话流程。

作者融合了 NLP 上的最新的突破性模型 BERT,并且在该预训练模型的基础上进行改进微调。实验结果表明,SDNet 取得了好于之前一系列模型的结果。在 CoQA 数据集上,F1 指标上相比于最新模型提升了 1.6%。

论文链接:https://www.paperweekly.site/papers/2628




@IndexFziQ 推荐

#Language Model

本文是 Samuel R. Bowman 等人的最新工作,论文关注的是语境化词语表示问题。最近的一些预训练 语言模型的工作(ELMo、 BERT 等)表明,预训练句子编码器可以在 NLP 任务上获得非常强的性能。

然而,每篇论文都使用自己的评估方法,不清楚哪个预训练任务最有效,或者是否可以有效地组合多个预训练任务。并且,在句子到向量编码的相关设置中,使用多个标注数据集的 多任务学习已经产生了鲁棒的当前最佳结果,也不清楚是不是 多任务学习的作用。 

本文根据 GLUE 基准测试中的 9 个语言理解任务,评估了由不同的预训练任务和这些任务的几种组合而成训练可重用的 Sentence Encoder。实验结果表明语言建模是其中最有效的一个预训练任务, 多任务学习可以进一步提高模型效果。

然而,ELMo 预训练也存在脆弱性和限制:1)在一些任务上,ELMo 的效果并不是很明显;2)可能对特定的任务 ELMo 才会很有效果,并且现有的 多任务学习方法也无法提高句子编码器的泛化能力致通用的地步。

论文链接:https://www.paperweekly.site/papers/2728

源码链接:https://github.com/jsalt18-sentence-repl/jiant



@paperweekly 推荐

#Object Detection

本文是 旷视科技和复旦大学发表于 NeurIPS 2018 的工作。近年来, 深度神经网络对于目标检测任务的提升取得了巨大突破。通常做法是运用目标检测算法为一张给定图像生成一系列边界框,同时分类标注每个目标。但对于 卷积神经网络而言,直接无序生成任意数量的预测框并非无足轻重,Anchor 的思想也正因此应运而生,并在目标检测任务上得到广泛应用。

本文提出了一个全新灵活的锚点框机制 MetaAnchor,其锚点框函数可由任意自定义的先验框动态生成。加上 权重预测,MetaAnchor 可与大多数基于锚点框的目标检测系统(如当前最优的单步检测器 RetinaNet)协同工作。相较于预定义锚点框方法,实验证明 MetaAnchor 对于锚点框设置和边界框分布更为鲁棒,并在迁移任务上深具潜力。

论文链接:https://www.paperweekly.site/papers/2670




@QAQ 推荐

#Data Augmentation

本文来自 Google Brain,论文关注的问题是图像领域的数据增强。作者提出了一种名为 AutoAugment 的自动数据增强的方法,可以有效降低误差率。实验表明,本文方法在 CIFAR-10、CIFAR-100、SVHN 和 ImageNet 上实现了最先进的 准确率(无需额外数据)。此外,本文方法还可以直接迁移到其他数据集上而无需进行微调。

论文链接:https://www.paperweekly.site/papers/2706

源码链接:https://github.com/tensorflow/models/tree/master/research/autoaugment




@zl1994 推荐

#Object Detection

本文来自 UIUC 和 IBM论文重点解决目标检测中分类错误的问题。作者指出了当前目标检测框架对于目标分类任务存在的三个问题:1. 分类分支和回归分支共享特征不是最优的;2.多任务训练也不是最优的;3.对于小目标来说,大的感受野会导致小目标冗余的 context。论文主要思路是对分类和回归这两大任务解耦,并借鉴 R-CNN 中的机制使得不同大小的目标有自适应的 context 信息。

论文链接:https://www.paperweekly.site/papers/2688

源码链接:https://github.com/bowenc0221/Decoupled-Classification-Refinement






@paperweekly 推荐

#Image Classification

本文是东京大学发表于 CVPR 2018 的工作,论文尝试将在音频上的方法应用于图像领域,并提出了一种将图像作为波形处理的混合方法。具体来说,作者认为人类无法识别图形波长融合,但这些信息对机器而言却是有意义的。CNN 有将输入数据作为波形处理的操作,作者提出的 BC Learning 方法是将两个不同类的图像进行混合,然后训练模型输出混合比,靠近哪个就分为哪类。

论文链接:https://www.paperweekly.site/papers/2687

源码链接:https://github.com/mil-tokyo/bc_learning_image/




@Kralkatorrik 推荐

#Face Recognition

本文提出了一个轻量级的网络来做人脸识别, 比 MobileFaceNet 的 size 大一倍, 精度提高一些。主要看文章设计网络思路,作者使用 BottleNeck 和快速 降采样策略减少 参数量,从而使这个网络能够运行在移动设备上。

论文链接:https://www.paperweekly.site/papers/2710





@vimjian 推荐

#Pose Estimation

本文来自浙江大学,论文研究的问题是基于 RGB 的姿态估计,作者引入一个逐像素投票的网络来定位 2D keypoints。本文方法在 LINEMOD、Occlusion LINEMOD 和 YCBVideo 数据集上均取得了 SOTA 结果。

论文链接:https://www.paperweekly.site/papers/2739




@IndexFziQ 推荐

#Multi-task Learning

这是一篇来自爱尔兰学者 Ruder 的综述文章。论文整理了 Multi-task Learning 的相关工作,重点介绍在深度学习上的应用。 多任务学习在很多任务上都可以获得比较不错的效果,如何选择合适的辅助任务帮助主任务获得更好的效果也是值得关注的地方。

论文链接:https://www.paperweekly.site/papers/2708


@Yerrick 推荐

#Learning to Rank

本文是 Google 发表于 CIKM 2018 的工作,论文形式化地将 Learning to Rank 领域经典的 LambdaMart 方法的 loss 表示出来,并提出了对于 NDCG 更紧的 bound,能够更好地在训练时提升 NDCG。同时基于他们的方法可以设计更多基于 Listwise 的 metric 直接进行优化。推导并不特别复杂,很有启发意义。方法也被 TensorFlow/ranking所实现。

论文链接:https://www.paperweekly.site/papers/2667



@NeoTheSunshine 推荐

#Graph Neural Networks

本文是麻省理工和斯坦福发表于 ICLR 2019 的工作,论文证明了 GNNs 至多可以和 WL test 在区分图结构方面同样有效。此外,作者还证明了 GNN 和 WL test 同样有效情况下的对 neighbor aggregation 和 graph pooling functions 的条件,并且提出一种简洁但有效的模型架构 GIN。

论文链接:https://www.paperweekly.site/papers/2730


@figo 推荐

#Neural Architecture Search

本文来自 小米 AI,内容上属于目前很火的 AutoML Neural Architecture Search。这篇论文提出了 MoreMNAS 算法,应该是多目标(EA-NSGAII)+强化学习 NAS 的首篇论文。论文的初步试验,已经击败了 SRCNN、FSRCNN、VDSR 等单帧超分辨率领域知名网络(应该是截止到 CVPR 2016 的成果)。 

论文的想法是比较巧妙的,采用 NSGAII 作为主框架,解决 强化学习由于超参、算法等导致的可能的衰退问题,同时采用 强化学习变异可以更好的利用学习的经验,二者相互补充,使得方法的鲁棒性有保证。另外 强化学习只用来解决那些不容易解决的目标例如超分的 PSNR,对于其他可以提前计算的目标,则用了 Roulette-wheel selection。

论文中的搜索空间直接采用 cell-block,看起来效果也不错,比较自然地完成 Cross Over 和 Natural Mutation 环节。另外,论文解决的实际上是带约束的 MOP 问题,并对最低的 PSNR 进行了约束,以保证模型的业务可用性。 

实验结果是基于一台 8GPU 机器完成(V100,1 周),实乃 深度学习炼丹师的福音,对于不少公司而言,这个配置是现成的。总体这种方法有一定的通用性,感兴趣的读者可以用来试水其他领域。遗憾的是该论文没有公开源码。

论文链接:https://www.paperweekly.site/papers/2740



@paperweekly 推荐

#Click-Through Rate Prediction

本文是 阿里巴巴发表于 AAAI 2019 的工作,作者提出了一种由兴趣抽取和兴趣演化两个模块共同组成的 CTR 预估模型——DIEN。论文亮点在于作者关注隐藏在用户行为背后的潜在兴趣特征的挖掘和表示(GRU + auxiliary loss)。

淘宝平台上商品种类繁多,用户兴趣具有多样性。预测时,仅仅捕获与目标商品相关的兴趣及其演变(AUGRU)。该算法被应用于阿里妈妈定向广告各大产品中,在DIN的基础上取得了非常显著的效果提高。

论文链接:https://www.paperweekly.site/papers/2692

源码链接:https://github.com/alibaba/x-deeplearning/tree/master/xdl-algorithm-solution/DIEN

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论论文机器学习NLP计算机视觉
65
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
杨强人物

杨强现任香港科技大学新明工程学讲席教授、计算机科学和工程学系主任,大数据研究所所长 。他是人工智能研究的国际专家和领军人物,在学术界和工业界做出了杰出的服务和贡献,尤其近些年为中国人工智能(AI)和数据挖掘(KDD)的发展起了重要引导和推动作用。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

降采样技术

降采样是数位信号处理领域中的一种多速频数字信号处理(multi-rate digital signal processing)系统中采样率转换(sample rate conversion)技术的一种,或指代用来降低信号采样率的过程,与插值相反——插值用来增加取样频率——降采样通常用于降低数据传输速率或者数据大小。因为降采样会有混叠的情形发生,系统中具有降采样功能的部分称为降频器(decimator)。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

多任务学习技术

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
旷视科技机构

旷视成立于2011年,是全球领先的人工智能产品和解决方案公司。深度学习是旷视的核心竞争力,我们打造出自研的AI生产力平台Brain++并开源其核心——深度学习框架“天元”,实现了算法的高效开发与部署。在持续引领技术进步的同时,我们推动AI产业的商业化落地,聚焦个人物联网、城市物联网、供应链物联网三大赛道,为个人用户带来更出色的美学体验与安全保障、让城市空间更有序、并帮助企业实现工业、仓储数字化升级。我们提供包括算法、软件和硬件产品在内的全栈式、一体化解决方案。

https://www.megvii.com
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
小米集团机构

小米公司正式成立于2010年4月,是一家专注于智能手机自主研发的移动互联网公司,定位于高性能发烧手机。小米手机、MIUI、米聊是小米公司旗下三大核心业务。“为发烧而生”是小米的产品理念。小米公司首创了用互联网模式开发手机操作系统、发烧友参与开发改进的模式。2018年7月,工业和信息化部向与中国联合网络通信集团有限公司首批签约的15家企业发放了经营许可证,批准其经营移动通信转售业务,其中包括:小米科技有限责任公司。 2018年7月9日,正式登陆香港交易所主板 。

https://www.mi.com/
海信集团有限公司・算法工程师
图片都看不到😭
谢谢指正,已补。
图片都看不到+1 而且微信公众号上也找不到这篇文章
谢谢指正,已补。
已补上~可以看到了