仵冀颖作者Hao Wang编辑

KDD 提前看 | KDD 里的技术实践和突破

数据挖掘、深度学习以及其他机器学习的模型、算法在过去几年一直保持快速发展,研究人员不断提出了大量优秀的模型、算法等,在实验条件下,模型和算法的准确度、处理速度等性能不断提高。一些模型和算法也被应用于实践中,获得了很好的效果。我们从 2019 年 KDD 的录用论文中选取了几篇重点阐述技术实践和突破的文章进行分析和介绍。结合具体行业的特点,例如在线学习系统原始数据异构性强、医疗行业专业词汇可理解性差、气象数据稳定性差以及在线推荐系统智能化需求提升等,研究人员对经典的模型和算法进行了改进和参数调整,以适应具体的场景、满足应用的需要。

本文将对以下四篇论文进行介绍:
  1. QuesNet: A Unified Representation for Heterogeneous Test Questions

  2. Unsupervised Clinical Language Translation

  3. Deep Uncertainty Quantification: A Machine Learning Approach for Weather Forecasting

  4.  Exact-K Recommendation via Maximal Clique Optimization

1.QuesNet: A Unified Representation for Heterogeneous Test Questions
原文地址:https://arxiv.org/pdf/1905.10949.pdf
本文是 Research Track 中 Machine Learning Themes 方向的一篇文章,主要是针对在线教育提出的基于表示学习的应用,本文作者来自中科大和科大讯飞。近年来在线学习系统,包括 Khan Academy、LeetCode 等,为不同年龄段的用户提供在线学习场景,基于问题语料库的智能分析,系统可为用户提供个性化的学习服务。现有方法主要是利用自然语言处理技术将问题语句直接转化为句法模式或语义编码,之后利用监督学习方法优化模型,将编码结果应用于后续数据分析加工处理。这些方法依赖于大量的手工标记数据,由于标注数据的缺乏和准确度不高,在线学习系统的个性化数据分析、推送性能受到很大影响。
问题描述
本文提出了一种直接利用大规模无标记问题语料库的无监督学习模型。与传统算法相比本文工作的最大特点是直接利用无标记的问题语料库进行智能分析,这就解决了标记数据缺乏的问题。然而,针对在线学习智能推送的无监督学习存在三个主要难点:第一,应用于教学系统的问题数据具有连贯异构的特点,如图 1 所示,语料库中的问题形式有文本(红色)、图像(绿色)以及逻辑先验知识(黄色)等。第二,针对语料库的分析不是简单基于语言环境完成文本直译(提取低层特征),还需要考虑它所包含的逻辑信息(提取高层特征)。第三,在实践中无标记问题语料库必须是简单易获取的,从而能够支持后续数据加工处理,满足在线应用的需求。
Figure 1: Two examples of heterogeneous questions.
本文提出一种基于统一特定域的理解性深度学习算法 QuesNet。QuesNet 能够将某一问题的异构数据聚合到统一的特定域,此外能够提取语义信息和逻辑知识等。QuesNet 与多种不同的后续算法组合使用,能够有效提高数据分析结果、改进在线产品的应用效果。
QuesNet 模型构建
QuesNet 主要包括三个部分:嵌入层、内容层和语句层。其中,嵌入层中将异构的语料信息映射到统一域中,内容层中应用多层双向 LSTM 提取低层语义特征,而语句层遵循自注意力机制实现高层逻辑知识信息与低层语义特征的融合。
Figure 2: QuesNet model architecture.
图 2 给出 QuesNet 模型结构。图 2(a) 为 QuesNet 的整体三层结构,其中图 2(b) 为嵌入层,该层实现异构语料数据嵌入;图 2(c) 为内容层,应用双向 LTSM 提取特征,双向 LSTM 具体结构见图 2(d);图 2(e) 为语句层,基于全局自注意力机制实现。

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
理论监督学习集成学习元学习智能硬件无监督学习数据挖掘KDD 2019
2
暂无评论
暂无评论~