本周NLP、CV、机器学习论文精选推荐

@paperweekly 推荐

#Knowledge Graph

本文是新加坡国立大学和 eBay 发表于 AAAI 2019 的工作,论文提出了一种基于循环神经网络的推荐模型,对用户和物品之间的交互特征在知识图谱中存在的关联路径进行建模,为用户提供可解释性推荐。

该模型基于 LSTM 学习关联路径的表示,充分考虑了实体、关系间产生的序列依赖性,具备较强的推理能力。实验表明,本文模型在电影数据集 MI 和音乐数据集 KKBox 上取得了当前最优结果。

论文链接:https://www.paperweekly.site/papers/2644

@zkt18 推荐

#Sequence to Sequence Learning

本文是北京大学和微软发表于 AAAI 2019 的工作。最大似然估计常被用作评估 Seq2Seq 生成序列的效果,根据实证研究,作者认为非平滑方法往往效果较差。

本文提出了一种句子正则化方法,为目标序列中的所有 token 输出平滑的预测概率。在三个神经机器翻译任务和一个文本摘要任务上的实验表明,本文效果超出传统MLE,每个token概率越平滑,BLEU分数越高。

论文链接:https://www.paperweekly.site/papers/2640

@zkt18 推荐

#Contextual Augmentation

本文来自中国科学院大学。传统 GAN 与 VAE 生成句子在一致性与可读性方面难以保证质量,近年基于词语替换的方法取得了成功。

BERT 使用 Masked Language Model(MLM)任务来预训练,MLM 任务是利用上下文的填空任务(cloze)。这个任务和短文本的语境增强(Contextual Augmentation,使用语言模型来预测并替换句子中的部分词,生成新句子)任务非常贴近。

预训练好的 BERT 模型, 可以通过 MLM 任务来实现语境增强。对于有类别标签的短文本,为了使预测出的替换词和原标签兼容,本文提出一个 Conditional MLM 的 fine-tuning 任务。

BERT 输入中的 Segmentation Embeddings 被替换成 Label Embeddings,在下游目标任务数据集上训练 Conditional MLM 任务,得到 Conditional BERT。将 Conditional BERT 应用于语境增强,对 6 个短文本分类数据集进行文本增强,都得到了分类效果的明显提升。

论文链接:https://www.paperweekly.site/papers/2655

@guohao916 推荐

#Machine Reading Comprehension

本文来自约翰霍普金斯大学和微软论文发布了一个带有常识性推理的机器阅读理解数据集。实验结果表明目前的最新阅读理解模型在该数据集上的结果显著弱于人工评估结果。ReCoRD 数据集为研究如何缩小人与机器之间对于常识推理的理解提供了机会。

论文链接:https://www.paperweekly.site/papers/2648

数据集链接:https://sheng-z.github.io/ReCoRD-explorer/

@Zsank 推荐

#Neural Language Model

本文来自斯坦福大学 Andrew Ng 团队。数据增强作为一种能够显著提升模型性能的方法,已经在 CV 领域证明了其有效性,但鲜有用于 NLP 领域中。在 NLP 领域,正则化一般是对权重(如 L2 正则化)或者隐层单元(如 dropout)进行处理的,而不是直接对数据本身。

在本文中,作者证明了神经语言模型中,对数据施加噪声相当于n-gram的插值平滑,能够提升神经语言模型的性能。BERT 也是用了神经语言模型,并且训练时使用了 Mask 方法。而 Mask 方法为什么有效正是这篇论文的一个重点。虽然两者方法不同,但也可以作为 BERT 的扩展阅读。况且,就凭该论文的作者们的名字也值得一看。

论文链接:https://www.paperweekly.site/papers/2641

源码链接:https://github.com/stanfordmlgroup/nlm-noising

@zkt18 推荐

#Text Classification

本文是杜克大学发表于 ACL 2018 的工作。作者将文本分类看作 words and labels joint embedding:每一 label 嵌入到词向量的同一位置。使用 attention 训练,确保对于一个文本序列,相关词的权重比非相关词高。Word Embedding 效果对于提高任务准确率十分重要,重点在于如何使用 label 信息构建文本序列表示。

NLP 任务通常有三步操作,embed->encode->predict。本文在 embed 中加入 label 信息,在 encode 中使用关于 word 和 label 的注意力,简单模型即可取得先进结果。

论文链接:https://www.paperweekly.site/papers/2459
源码链接:https://github.com/guoyinwang/LEAM

@darksoul 推荐

#Object Detection

本文是香港中文大学发表于 AAAI 2019 的工作,文章从梯度的角度解决样本中常见的正负样本不均衡的问题。从梯度的角度给计算 loss 的样本加权,相比与 OHEM 的硬截断,这种思路和 Focal Loss 一样属于软截断。

文章设计的思路不仅可以用于分类 loss 改进,对回归 loss 也很容易进行嵌入。不需要考虑 Focal Loss 的超参设计问题,同时文章提出的方法效果比 Focal Loss 更好。创新点相当于 FL 的下一步方案,给出了解决 class-imbalance 的另一种思路,开了一条路,估计下一步会有很多这方面的 paper 出现。

论文链接:https://www.paperweekly.site/papers/2654

源码链接:https://github.com/libuyu/GHM_Detection

@wangshy 推荐

#Video Object Detection

本文是清华大学和商汤科技发表于 ECCV 2018 的工作。在视频物体检测任务中,作者提出了一种关注运动信息(Fully Motion-Aware Network:MANet)的端到端模型,它在统一的框架中同时进行像素级和实例级的特征对准来提高检测精度。

像素级校准可灵活地建模细节运动,而实例级校准更多地捕捉物体整体运动信息,以便对遮挡具有鲁棒性。实验表明,本文模型在ImageNet VID数据集上达到了领先的精度。

论文链接:https://www.paperweekly.site/papers/2622

源码链接:https://github.com/wangshy31/MANet_for_Video_Object_Detection

@pyy 推荐

#Data Augmentation

本文来自神户大学,论文提出了一种基于随机图像裁剪和修补的图像预处理方法 RICAP,随机裁剪四个图像并对其进行修补以创建新的训练图像。该方法非常简单实用,把几张图拼在一起,然后 label 就是这几张图类别占图片大小的比率。实验表明,本文方法在 CIFAR-10 数据集上实现了 2.19% 的测试误差。

论文链接:https://www.paperweekly.site/papers/2645

@Kralkatorrik 推荐

#Image Classification

本文是清华大学和 UIUC 发表于 CVPR 2018 的工作。这篇文章假定数据样本在特征空间服从高斯混合分布,使用 Gaussian Mixture 代替 Softmax 做概率表示,用交叉熵损失来做优化。除此之外,遵循约束类内距离增加类间距离的思想,引入 L_likehood 损失,并在 GM 中增加 margin,构成了最终的 LGM Loss。

论文链接:https://www.paperweekly.site/papers/2619

源码链接:https://github.com/WeitaoVan/L-GM-loss

@paperweekly 推荐

#Human Pose Estimation

本文来自电子科技大学和 Vision Semantics。现有的人体姿态估计方法通常更侧重于设计网络学习更适合的特征,从而使得定位精度更高。往往容易忽视在模型实际部署时,可能面临模型较大和计算复杂度过高的问题。本文基于一个轻量级的 Hourglass 网络和知识蒸馏,提出了一种模型复杂度更低、模型 size 更小的全新方法——FPD。

论文链接:https://www.paperweekly.site/papers/2647

@haonan 推荐

#Generative Graph

本文是斯坦福大学和南加州大学发表于 ICML 2018 的工作,论文关注的问题是基于图的概率生成模型,作者提出了一种全新的深度自回归模型 GraphRNN。写作动机如下:1. 因为需要表示 node 之间的关系,所以 space 大;2. node 的表示顺序多种多样;3. node 的生成顺序需要依赖已经生成的 node 顺序。

论文链接:https://www.paperweekly.site/papers/2608

源码链接:https://github.com/JiaxuanYou/graph-generation

@xuzhou 推荐

#Time Series Analysis

时间序列聚类是根据序列之间的相似性或者特征进行分类。之前的方法通常是将特定的距离衡量方法和标准的聚类算法结合起来。但是这些方法没有考虑每一个序列的子序列之间的相似性,这可以被用来更好地比较时间序列。

本文提出了一个新颖的基于两个聚类步骤的聚类算法。第一步,对每个时间序列进行最小平方多项式分割,该技术是基于逐渐变大窗口技术并返回不同长度的分割。然后基于模型近似分割和统计特征系数将所有的分割被映射到相同的维度空间。第二步,对所有时间序列对象进行组合。作者考虑到了算法自动调整主要参数的特点。实验证明了该方法的优越性。

论文链接:https://www.paperweekly.site/papers/2505


@paperweekly 推荐

#Recommender System

本文是 Schibsted Media Group 发表于 RecSys 2018 的工作。论文关注的问题是推荐系统在二手市场上的应用,作者通过在线实验对三种基于深度神经网络的推荐模型进行了基准测试,对比它们在生产环境中的性能表现。这三种模型分别为混合项目-项目推荐器、基于序列的用户项目推荐器以及一种更高级的多臂bandit算法。

结果表明,在冷启动和基于序列的模型中,将协同过滤和内容特性相结合可以更好地表示项目。此外,作者还在其他推荐算法的基础上,将bandit作为更高级的再排序工具,这种方法对于利用上下文信息和组合多个业务领域的推荐系统非常有用。

论文链接:https://www.paperweekly.site/papers/2646

@zhangjun 推荐

#Evolutionary Algorithm

本文是 IBM Research AI 发表于 NeurIPS 2018 的工作,亮点在于将 SGD 和进化算法融合起来,提高机器学习优化算法的有效性。

SGD 是一种常见的基于目标函数梯度的算法,常用于机器学习深度学习模型参数学习,优化效率较高,但容易陷入局部最优解;而进化算法是一种全局优化算法,只要进化代数足够大,总会找到全局最优解,但计算效率相对低下。基于此,本文提出了两者结合的优化框架,并在 CV、NLP、ASR 任务上进行了测试,验证了本文方法的有效性。

论文链接:https://www.paperweekly.site/papers/2615

@ZSCDumin 推荐

#Recommender System

本文来自南洋理工大学。作为个体的用户和群组成员的行为是不同的,作者基于用户评级历史的深度学习技术,提出了一个注意力群体推荐模型来解决群体推荐问题,模型自动学习群组中的每个用户的影响权重并根据其成员的权重偏好为群组推荐项目。虽然基于图和概率的模型已经得到了广泛的研究,但本文是第一个将 Attention 机制应用到群体推荐中的。

论文链接:https://www.paperweekly.site/papers/2561


PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论机器学习计算机视觉NLP论文
5
相关数据
商汤科技机构

商汤科技成立于 2014 年,专注于计算机视觉和深度学习的原创技术,是中国领先的人工智能头部公司,估值超过 45 亿美金。以「坚持原创,让 AI 引领人类进步」为使命,商汤科技建立了国内顶级的自主研发的深度学习超算中心,并成为中国一流的人工智能算法供应商。商汤科技不仅在技术实力上领跑行业,商业营收亦领先同行业,在多个垂直领域的市场占有率居首位。目前,商汤科技已与国内外多个行业的 400 多家领军企业建立合作,包括 Qualcomm、英伟达、本田、中国移动、银联、万达、苏宁、海航、中央网信办、华为、小米、OPPO、vivo、微博、科大讯飞等知名企业及政府机构,涵盖安防、金融、智能手机、移动互联网、汽车、智慧零售、机器人等诸多行业,为其提供基于人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等技术的完整解决方案。

www.sensetime.com
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

最大似然估计技术

极大似然估计是统计学中用来估计概率模型参数的一种方法

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

暂无评论
暂无评论~