启迪之星上海来源

复旦数据院副院长阳德青:知识图谱在个性化推荐系统中的应用

本文为你着重介绍基于知识图谱的搜索与推荐方面的基本内容和应用,知识图谱领域的研究及前沿技术。

我们几乎每天都会收到各种各样的推荐信息,从新闻购物到吃饭娱乐个性化推荐系统作为一种信息过滤的重要手段,可以依据我们习惯和爱好推荐合适的服务,但传统的推荐系统容易出现稀疏性和冷却冷启动的问题,而知识图谱作为一种新兴的辅助信息近几年逐渐引起了研究人员的关注。本期创业沙龙有幸邀请到复旦大学大数据学院和大数据研究院副院长、副教授阳德青老师。阳老师面向大数据学院、计算机学院和新闻学院的本科生、研究生讲授过多门专业课程,包括《社交网络挖掘》、《Java Web 应用开发》、《新媒体技术导论》等。这次本文为你着重介绍基于知识图谱的搜索与推荐方面的基本内容和应用,知识图谱领域的研究及前沿技术。

本次特邀嘉宾

阳德青

复旦大学大数据学院和大数据研究院

副院长、副教授

2013年在复旦大学计算机科学技术学院获得计算机软件与理论专业的博士学位。阳老师的主要研究领域为数据挖掘知识图谱的构建与应用、推荐系统社会网络分析等,其研究成果论文先后在WWW、ICDM、CIKM、ECML等数据科学领域的国际顶尖学术会议上发表,并拥有多项发明专利。同时,他先后主持、参加了多项国家科技部、自科基金委、上海市科委、经信委、教委等专项课题,并在与阿里、华为等科技公司的合作中取得了丰硕的实际应用成果。此外,阳老师先后担任过复旦大学学生工作部、研究说工作部副部长和学生职业发展教育服务中心主任,具有丰富的学生管理和大学生双创指导经验。

一、知识图谱的基本概念

什么是知识图谱呢?

知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Object)。形式化的进行解释,知识图谱是一种海量知识表征形式,蕴含了各类实体、概念及其间的各种语义关系。通俗来讲就是一种数据库,本质上就是一种语义网路。相比于传统语义网络,知识图谱具有更高的实体、概念覆盖率,更为丰富的语义关系,自动化构建程度高以及较高的数据质量等。它研究的意义在于为语义匹配(消除语义鸿沟)、实现机器智脑提供了丰富的背景知识。

二、基于传统知识的推荐

了解传统知识推荐的特点和缺点,才可以更清晰的明白知识图谱产生的必要性,更精准的把握知识图谱的特质,怎么样做到智能推荐。

1.基于知识的传统推荐

主要分为两种:

  • 基于约束的知识化推荐通过用户的输入限定物品属性值形成规则集合,形成候选物品的范围约束——关于用户的知识。类似于输入条件的查询。

  • 基于个案的知识化推荐是先通过某种算法产生一组候选物品给用户选择,将用户的选择作为参照物,再通过物品间的相似性计算找出其他与参照物品高度相似的候选物品,再让用户进一步选择,多次与用户的迭代交互,直至最终产生用户最想要的物品。类似问答式的搜索。

2.传统推荐算法的挑战

基于协同过滤的弊端

•冷启动  •数据稀疏  •可扩展性

当一个新用户进入一个网络时,我们对他的兴趣爱好还一无所知,这时如何做出推荐是一个很重要的问题。一般在这个时候,我们只是向用户推荐那写普遍反映比较好的物品,也就是说,推荐完全是基于物品的。

新用户问题还有一个变种就是长尾(long tail)问题,在Amazon中,不是所有的用户都对很多书给出了评分,很多用户只给少数的书给出了评分,这些用户就处在一个长尾中,如何处理那些不太表露自己兴趣的用户,也是推荐系统的一个主要问题。

基于内容的弊端

•特征描述  •同义/多义词  •“十面埋伏”是电影?小说?还是成语?  •结果的同质性(缺乏多样性) 

  • 在物品知识的获取上,系统需要人工构建知识,对长尾实体的覆盖有限。

  • 在用户知识的获取上,系统需要用户输入信息,甚至要反复交互,体验感差。

3.推荐系统中引入知识图谱的优势

首先,能够提高推荐的精确性知识图谱中蕴含了用品直接丰富的语义信息,能够更好的发现用户的兴趣点。

其次,还能提高推荐的多样性。在很多的推荐场景中,比如新闻推荐,我们知道多样性是一个很大的问题,我们很容易发现推荐算法发现了你的兴趣点之后,给你推荐的东西越来越像,比如你点了几个NBA的新闻,后面来的全是NBA新闻,一开始可能觉得还不错,时间稍微长一点,就会觉得厌烦了,阅读的视野也会越来越窄。这是因为很多算法是根据文本里面抽取出来的关键字和主题来猜测用户偏好,这样推荐的时候就会产生比较类似的结果。

知识图谱作为一种全局信息,里面有丰富的语义信息,每个物品对应的节点通常都能扩散到很多其他的信息节点上去,比如用户喜欢霸王别姬这部电影,可能是因为主演、题材或者导演,每种都有可能,推荐的时候就不会过于集中到一种类型中去,增加了多样性。

第三,能增加推荐的可解释性。可解释性是推荐系统的非常重要的因素,其重要性甚至在很多场景中要远远大于推荐的准确性等效果指标,可以被很好解释的推荐系统才能增加用户对系统的信任感。

那么实现一个好的推荐关键在于什么?去做好物品和用户的画像,这两个画像寻找准确之后他们特征就可以精准的把握,然后去找一些匹配的算法,那这样的结果就是就八九不离十了。以及一些比较有挑战的,比如说跨领域的推荐。

三、基于知识图谱的物品画像

显式画像:知识图谱中直接找到的关联(例如两部电影的共同属性)作为刻画两个物品相关性的依据。有基于向量空间模式和基于异构信息网络两种模式。

为每种属性生成一个表示向量,每一维对应该属性的某个值的权重。例如,电影的演员属性可以表示成一个向量,第一维的值可以是第1号演员对该电影的TF-IDF权重值。

将物品和其每种属性值对应的实体都表示成异构信息网络的一类结点,它们之间构成各种类型的边。例如,每部电影和其每个演员都由一条表示“参演”的边相连。

不同物品间会共享某些属性对应的实体,所以会有一条经过该共享实体的元路径meta-path将两个物品相连。例如,成龙主演的不同电影之间都通过一条“电影-演员(成龙)-电影”的元路径相连 

由不同类型的元路径相连的两个物品都具有一定的相似度。

隐式画像:利用基于深度神经网络的嵌入embedding向量来表示物品,物品间的相似度计算基于其对应嵌入向量在向量空间中的距离。有基于随机游走的图嵌入(graph embedding)和基于KG embedding两种模型。

四、基于知识图谱的用户画像

基于概念标签的用户画像

•算法目标:根据输入一组标签(词袋),生成的概念标签数尽量少,同时在语义上尽量全地覆盖所有原始标签的语义。

利用记忆网络存储刻画用户对物品属性的偏好特征,比纯基于用户历史上的偏好物品刻画用户特征要更加准确、丰富。

五、基于知识图谱的跨领域推荐

跨领域推荐的主要任务

•缓解冷启动问题,为新用户推荐提供选择和帮助提高推荐精准度,缓解数据稀疏问题 •增加推荐多样性

跨领域推荐面临的挑战 

•数据海量性  •数据异构性 •数据稀疏性 •数据相依性数据低质性

主流的跨领域推荐算法 

    基于协同过滤 •基于语义关系 •基于深度学习

实现跨领域推荐的关键假设 

    用户的兴趣偏好或项目特征在领域之间存在一致性或相关性(通过知识图谱发现)

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

产业阳德青复旦大学个性化推荐系统知识图谱
1
相关数据
华为机构

华为成立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。华为的主要业务分布在无线、网络、软件、服务器、云计算、人工智能与大数据、安全、智能终端等领域,发布了5G端到端解决方案、智简网络、软件平台、面向行业的云解决方案、EI企业智能平台、新一代FusionServer V5服务器、HUAWEI Mate等系列智能手机、麒麟系列AI芯片等产品。目前华为拥有18万员工,36所联合创新中心,14所研究院/所/室,业务遍及170多个国家和地区。

http://www.huawei.com/cn
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

知识表征技术

知识表示是人工智能的一部分,它关心代理人(agent)如何在决定做什么时使用它所知道的知识, 这是一门将思考作为计算过程的研究。严格来说知识表示和知识推理是同一研究领域密切相关的两个概念,但实际上知识表示也经常用来直接指代包含推理的广义概念,因此在这里沿用后者,即知识表示等价于知识表示与推理。这是一个涉及使用符号来表示一些推定代理人(putative agent)相信的命题集合的研究领域。 但是在另一方面,我们同时不想坚持这些符号必须代表代理人相信的主张。因为实际上代理人可能相信无数的命题,但只有一部分被表示出来。 而弥合所代表的事物与所相信的事物之间的差距将成为推理(reasoning)在知识表示中所承担的责任。因此,推理一般来说是对代表一系列代理所相信的命题符号进行形式化处理,以产生新的表征。 符号需要比它们表示的命题更容易操纵,因此它们必须足够具体,以便我们可以操纵它们(移动它们,拆开它们,复制它们,串起它们) 构建新命题的表征。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

社会网络分析技术

社会网络分析方法是由社会学家根据数学方法﹑图论等发展起来的定量分析方法,近年来,该方法在职业流动、城市化对个体幸福的影响、世界政治和经济体系、国际贸易等领域广泛应用,并发挥了重要作用。社会网络分析是社会学领域比较成熟的分析方法,社会学家们利用它可以比较得心应手地来解释一些社会学问题。许多学科的专家如经济学、管理学等领域的学者们在新经济时代——知识经济时代,面临许多挑战时,开始考虑借鉴其他学科的研究方法,社会网络分析就是其中的一种。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

异构信息网络技术

与homogeneous同构信息网络相区别,异构信息网络的网络模式限定了对象集合以及对象间关系的类型约束。这些约束使得异构信息网络具有半结构化的特点,引导着网络语义的探究。异构信息网络可以由许多相互连接的、大规模的数据集来构造,范围涉及社会、科学、工程、商业应用等。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

推荐文章
暂无评论
暂无评论~