社会计算组 作者

ACL 2020 | 微软发布大规模新闻推荐数据集MIND,开启新闻推荐比赛

编者按:个性化新闻推荐技术是诸多在线新闻网站和应用的关键技术,可以提升用户的新闻阅读体验并减轻信息过载。目前,许多有关新闻推荐的研究是在私有数据集上开展的,而已有的公开数据集往往规模较小,或者基于英语之外的其它语言。高质量基准数据集的缺乏限制了新闻推荐领域的研究进展。因此,微软亚洲研究院联合微软新闻产品团队在 ACL 2020上发布了一个大规模的英文新闻推荐数据集 MIND,并将于近日举办 MIND 新闻推荐比赛。

近年来,很多用户都喜欢使用在线新闻网站和手机 APP 来进行电子化的新闻阅读。但是,由于每天都有大量新闻产生和发布,用户难以在有限的时间内从大量新闻中找到自己感兴趣的内容,面临严重的新闻信息过载。个性化新闻推荐可以根据用户的个人兴趣对候选新闻进行排序和展示,是提升用户在线新闻阅读体验的一项重要技术。目前,新闻推荐已广泛用于 Microsoft News 等诸多在线新闻平台中。

图1:个性化新闻推荐的流程

个性化新闻推荐的简化流程如图1所示。首先从用户的行为历史中推断用户的个人兴趣,再根据用户兴趣对候选新闻进行个性化排序,最终将排名靠前的若干新闻展示给用户。尽管人们对推荐系统这一领域已经开展了广泛的研究,但新闻推荐仍存在一些独特的挑战:首先,新闻有很强的时效性。新闻平台每天会产生大量新的新闻,而已有的新闻会快速消失。这带来了严重的冷启动问题,并导致许多如协同过滤等基于 ID 来表示用户和待推荐物品的推荐方法无法使用;其次,很多现有的推荐系统使用如 ID 等人工设计的特征来表示待推荐物品。但是,如图2所示,新闻文章具有丰富的文本,并且这些文本包含重要的内容信息。推荐系统需要从新闻文本中了解新闻内容,不能简单地使用 ID 等特征来表示新闻;第三,准确地建模用户对新闻的兴趣存在挑战。用户的兴趣通常比较多样并随时间动态演化,需要基于大量的用户反馈行为来挖掘和建模。然而新闻平台上往往不具有显式的用户反馈,甚至许多用户的隐式反馈也十分稀疏。因此,新闻推荐是一个重要并具有挑战性的研究课题。

图2:Microsoft News 主页及新闻示例

近年来,学术界和工业界的研究人员提出一些基于深度学习的新闻推荐方法,如 Embedding based News Recommendation 等。但这些方法通常是在私有数据集上设计和验证的,这使得其他研究人员难以对这些方法进行验证并提出改进。

很多推荐任务如产品推荐、电影推荐和餐厅推荐等通常有一些公认的基准数据集,例如 Amazon、MovieLens、Yelp 等。然而在新闻推荐领域高质量的基准数据集比较匮乏,严重制约了这一研究领域的进展。目前仅有少数几个公开的新闻推荐数据集,例如 Plista、Adressa、Globo 和 Yahoo! 等。但是,这些数据集存在一些限制。例如,它们大部分不是英文数据集,并且其中一些规模很小,或者新闻信息不完整。在表1中我们总结了这些数据集的具体情况。

表1:已有的若干公开新闻推荐数据集

MIND 数据集

高质量的基准数据集可以显著促进特定领域的研究,例如 ImageNet 和 SQuAD 数据集极大促进了图像分类和机器阅读理解领域的研究。为了促进新闻推荐领域的研究,我们构建了一个大规模的新闻推荐数据集 Microsoft News Dataset,简称 MIND。MIND 数据集是从六周内 Microsoft News 用户的匿名化新闻点击记录中构建的,它包含16万多条新闻条目,1500 余万次展示记录,以及来自100万匿名用户的2400余万次点击行为。表2展示了 MIND 数据集的一些统计信息。在 MIND 数据集中,每个新闻条目都具有丰富的文本信息,例如标题、摘要、正文、类别和实体。

表2:MIND 数据集统计数据

图3展示了 MIND 数据集中新闻标题、摘要和正文的长度分布,以及新闻文章生存时间的分布。可以看到,新闻标题通常很短,而新闻正文则比较长。另外,大约85%的新闻文章自首次出现算起,大约在两天后将不再显示在新闻主页上,表明新闻信息在网络新闻平台的更新速度很快。

图3:MIND 数据集中新闻标题、摘要和正文的长度分布以及新闻生存时间的分布

新闻推荐的核心任务是根据用户之前在新闻平台的交互行为来预测用户接下来喜欢阅读的新闻,从而对候选新闻进行排序。为了便于模型训练和评估,MIND 数据集中的每个样本都组织为[UserID, Timestamp, ImpressionLog, ClickHistory]的格式。表3展示了一个样本的示例。UserID 和 Timestamp 表示一组新闻在时间 Timestamp 展示给了目标用户 UserID。ImpressionLog 包含了这组新闻中具体包含的新闻及用户和他们的交互行为(点击或不点击)。ClickHistory 是该用户过去点击过的新闻文章的序列,可用于挖掘用户的兴趣。

表3:MIND 数据集中的一个样本示例

MIND 数据集同时提供了新闻条目的详细信息。每个新闻都有 ID、URL、标题、摘要、类别和命名实体信息。此外,我们提供了一个可以从 URL 对应的新闻网页抓取和解析新闻正文内容的工具。表4中展示了一个示例新闻。对于新闻中出现的命名实体,MIND 数据集还提供了从公开知识图谱预训练的实体及其关系的嵌入向量,以促进知识增强的新闻推荐方法的研究。

表4:MIND 数据集中的一条示例新闻

MIND 数据集下载链接为:https://msnews.github.io/

实验结果

我们在 MIND 数据集上对多种推荐算法做了对比研究,结果如表5所示。其中,FM、DSSM、Wide&Deep 和 DeepFM 是常见的通用推荐算法,其余算法是专门为新闻推荐设计的算法。实验以 AUC、MRR、nDCG@5 和 nDCG@10 作为推荐性能的评价指标。

实验结果表明,新闻推荐算法往往比通用推荐算法在新闻推荐任务上具有更好的性能。这是因为在通用推荐算法中,新闻和用户使用人工设计的特征来表示,而这些新闻推荐算法则使用自然语言模型从新闻文本中学习新闻内容表示,并使用神经网络从过去点击过的新闻中学习用户兴趣表示。另外,这些新闻和用户表示模型在新闻推荐数据上以端到端的方式进行训练,从而更好地建模新闻推荐的任务特点。

表5:不同算法在测试集上的性能

我们还在 MIND 数据集上比较了现有新闻推荐算法中使用的不同新闻建模方法。表6中的结果表明,与传统方法(如 LDA 和 TF-IDF)相比,如 CNN、LSTM 和多头自注意力机制等基于深度学习的文本表示模型能更好地理解新闻内容。我们也发现注意力机制对于新闻表示非常有用。此外,图4中的结果显示 BERT 等预训练语言模型可以提升模型对新闻内容的理解能力,同时在新闻推荐任务中微调预训练的 BERT 模型可以取得更好的性能。

表6:不同文本建模方法的对比 

图4:预训练语言模型的效果

我们还发现,同时使用多种新闻文本(例如标题、摘要、正文、类别和命名实体)往往比单独使用某一种新闻文本更好地理解新闻内容。

表7:使用不同文本信息进行新闻表示的对比

此外,我们还比较了现有新闻推荐算法中使用的各类用户兴趣建模方法。表8结果表明,神经网络可以更好地从用户过去点击过的新闻中建模用户的兴趣。另外,如图5所示,更多的点击行为通常可以帮助更加准确地建模用户兴趣。挖掘冷启动用户的新闻阅读兴趣对于已有的模型是一个巨大的挑战。

表8:不同用户建模方法的对比


图5:历史点击新闻数量的影响

大量实验表明,MIND 可以用作新闻推荐研究的基准数据集。未来我们计划将新闻中的图像和视频信息以及不同语言的新闻条目加入到 MIND 数据集中,以支持多模态和多语言的新闻推荐的研究。除了点击行为外,我们计划增加其它用户交互行为,如阅读、点赞、分享等,帮助进行更准确的用户兴趣建模和推荐性能评估。

除了提升新闻推荐系统的准确性以外,MIND 数据集还能支持对很多其它重要的问题进行研究。例如,如何解决新闻推荐中的信息茧房问题,提升新闻推荐结果的多样性;如何解决新闻推荐中潜在的偏见和不公平性,设计更加公平和可解释的新闻推荐系统;如何在新闻推荐和用户兴趣建模的同时更好地保护用户的行为数据,实现隐私保护的新闻推荐等。MIND 数据集有助于研究者开发更加负责任的新闻推荐系统。除了新闻推荐任务以外,MIND  数据集也可以用于许多其它自然语言处理任务,例如主题分类、文本摘要和新闻标题生成等。

微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

工程MINDACL 2020
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~