收下这 16 篇最新论文,周会基本不用愁

@tobiaslee 推荐

#Attention Mechanism

本文是北京大学孙栩老师组发表在 EMNLP 2018 的作品。文章通过实验发现,在利用 Seq2Seq 模型解决 Multi-Label Classific(MLC)问题时,传统 Attention 机制起到的贡献较小。原因在于传统 Attention 机制关注的是 word-level,而分类任务往往依赖着整个句子的 salient meaning。

作者通过在 LSTM 产生的 word-level 上的表示进行多级的 Dilated Convolution 来捕获更高级别的 semantic unit(例如 phrases)的信息,进而增强 Seq2Seq 的效果。进一步地,作者将高层的 attention 和词级别的 attention 做了整合,提出 Hybrid Attention 来兼顾各个级别表示的信息。文章提出的模型在 RCV1-v2 和 Ren-CECps 上对比的 Seq2Seq 模型都有较大的性能提升。

论文链接

https://www.paperweekly.site/papers/2444

源码链接

https://github.com/lancopku/SU4MLC

@xwzhong 推荐

#Text Classification

本文是 fast.ai 和 Aylien 发表于 ACL 2018 的工作。迁移学习在 CV 领域已得到广泛应用,但 NLP 领域的现有方法通常仍需从头开始训练。ImageNet 的启发下,本文提出了基于微调的通用语言模型——ULMFiT,该模型可应用于 NLP 领域的各类任务,未来也可以尝试将预训练用于不同的 NLP 任务中。论文在六个文本分类数据集上验证了本文模型的有效性,此外,作者在实验中采用的多种 trick 也颇具借鉴意义。

论文链接

https://www.paperweekly.site/papers/1832

源码链接

http://nlp.fast.ai/category/classification.html

@icaruss 推荐

#Open-domain Chatbot

本文是微软发表于 NIPS 2018 的工作,这是一篇关于增加开放域聊天机器人多样性的文章。作者运用了 GAN 和 dual learning 的思想,针对原始的 MMI reranking 方法有所提高。

论文链接

https://www.paperweekly.site/papers/2447

@paperweekly 推荐

#Word Embeddings

本文是香港中文大学发表于 IJCAI 2018 的工作。为了更好地捕捉词汇固有语义和句法信息,本文提出了两种基于词汇共现和奇异值分解的嵌入模型。本文对两种语义关系进行建模,一种是加和操作,另一种是投影操作,从而确保单词向量位于特定的超平面中,以清晰地分离具有不同性质的单词。

论文链接

https://www.paperweekly.site/papers/2416

@paperweekly 推荐

#Dialog Systems

本文是剑桥大学和 PolyAI 发表于 EMNLP 2018 的工作,被评为 EMNLP 2018 最佳论文。论文提出了一个多领域绿野仙踪实验型数据集,这是一个具有标注的真人对话数据集,涵盖多个领域和主题。该数据集包含至少一万组对话,远超其他特定领域任务型对话研究所用的数据集。此外,本文还介绍了该数据集的构建过程、数据结构分析以及标注方法。作者通过在三个不同领域中进行实验对比,证明所构建数据集具有良好表现。

论文链接

https://www.paperweekly.site/papers/2428

源码链接

https://github.com/budzianowski/multiwoz

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论奇异值聊天机器人文本分类NLPImageNet迁移学习LSTMSeq2Seq论文
51
相关数据
来也机构

「来也」是国内领先的人工智能交互平台,由常春藤盟校(Ivy League)归国博士和MBA团队发起,核心技术涵盖自然语言处理(NLP)、多轮对话控制和个性化推荐系统等。公司已获得数十项专利和国家高新技术企业认证。 来也的愿景是通过AI赋能,让每个人拥有助理。C 端产品小来是智能化的在线助理,通过业内创新的AI+Hi模式,提供日程、打车、咖啡、差旅和个性化查询等三十余项技能(覆盖400w用户和数十万服务者),让用户用自然语言发起需求并得到高效的满足。B端品牌吾来输出知识型的交互机器人和智能客户沟通系统,帮助各领域企业客户打造行业助理。目前已经在母婴,商旅,金融和汽车等行业的标杆企业实现商业化落地。

https://www.laiye.com/
文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

奇异值分解技术

类似于特征分解将矩阵分解成特征向量和特征值,奇异值分解(singular value decomposition, SVD)将矩阵分解为奇异向量(singular vector)和奇异值(singular value)。通过分解矩阵,我们可以发现矩阵表示成数组元素时不明显的函数性质。而相比较特征分解,奇异值分解有着更为广泛的应用,这是因为每个实数矩阵都有一个奇异值分解,但未必都有特征分解。例如,非方阵型矩阵没有特征分解,这时只能使用奇异值分解。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

序列到序列技术

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
机器之心・产品经理
收藏了