北京智源人工智能研究院作者:

北京智源人工智能研究院发布“智能信息检索与挖掘”研究方向新进展

2019917日,北京——由北京智源人工智能研究院(以下简称“北京智源”)主办,中国人民大学高瓴人工智能学院(以下简称“高瓴人工智能学院”)协办的“智能信息检索与挖掘”报告会在京成功举办。这是继8月27日北京智源正式对外发布该研究方向后,国内信息检索与挖掘顶尖学者首次对这一领域的各个关键问题做全景式报告。该研究方向的参与人,包括首席科学家、中国人民大学信息学院院长文继荣教授,智源研究项目经理、中国人民大学窦志成教授,以及来自来自北京大学、清华大学、中国科学院等单位的智源研究员和智源青年科学家出席了本次报告会。

作为北京智源继“人工智能数理基础”和“机器学习”后发布的第三个重大科研方向,“智能信息检索与挖掘”旨在于智能信息检索与挖掘的基础理论方面寻求突破,同时基于理论基础,建立新型信息检索与挖掘算法,有效解决用户精准多样的信息需求与庞大互联网数据规模之间的鸿沟问题。在本次报告会上,共有九位学者围绕着“智能信息检索与挖掘”这一方向的各个关键领域,发表了相关的研究成果及议题:

  • 相关性认知建模探索中科院计算所研究员郭嘉丰从认知视角来理解相关性,并介绍了进行建模的一些探索和研究成果。他表示,相关性是信息检索领域的核心概念,计算机科学领域和信息科学领域都对此展开了长期研究,计算机科学领域侧重于相关性的建模,而信息科学领域则侧重于对相关性认知过程的探索,随着机器学习技术的发展,特别是深度学习技术的到来,深度检索模型具备了强大的模型容量和拟合能力,使得我们有可能利用深度检索模型建模更加复杂的相关性决策过程,提升相关性建模的有效性。

 

中科院计算所研究员郭嘉丰

  • 网络表示学习:网络是一种常见数据类型,例如社交网络、信息网络等。网络数据固有的复杂关联、多尺度并存、高维时变等特性给网络数据的分析处理提出了挑战。网络表示学习致力于将高维稀疏的网络数据映射到低维稠密空间,从而便于利用成熟的机器学习工具完成网络数据的分析挖掘任务。中科院计算所研究员沈华伟就图表示学习近年来的主要进展,包括无监督的网络嵌入和有监督的图神经网络等进行了介绍,并分享了其近期在网络表示学习和图卷积神经网络方面的一些研究工作。

中科院计算所研究员沈华伟

  • 强化排序学习:在搜索系统的各个组成部分中,排序模型决定了搜索系统向用户所展示的网页顺序,对搜索性能起着至关重要的作用。近年来,得益于其强大的交互式建模能力,强化学习技术被逐步应用于搜索排序中并取得了良好的效果,被称为“强化排序学习”。中国人民大学教授徐君重点介绍了强化排序学习在搜索中的研究进展,包括用户与搜索系统的交互模式分析和基于马尔科夫决策过程的多样化排序任务建模与求解。实验结果表明强化排序学习能够通过多轮交互获得更优的网页排序策略。

中国人民大学教授徐君

  • 社交媒体情感计算:针对如何从社交媒体异构数据中获取用户情感,以及如何把情感与心理健康分析相关联等技术挑战,清华大学长聘副教授贾珈系统介绍了其在网络海量数据的情感计算与交互方面开展的研究工作,重点介绍了情感维度属性与情感认知表征的关联方法、融合深度学习与因子图的海量跨模态异构数据的情感预测模型,以及面向心理健康的情感计算方法等。此外,报告还将展示基于网络海量数据情感计算的其他相关应用研究,例如如何让计算机学会欣赏人类眼中的美学。

清华大学长聘副教授贾珈

  • 面向知识图谱的自然语言问答研究:在本次报告中,北京大学教授邹磊主要关注面向知识图谱的问答系统。知识图谱是目前知识库的一种常见表达形式,是以图形(Graph)的方式来展现“实体”、实体“属性”,以及实体之间的“关系”。近年来随着大数据、人工智能等概念与技术的兴起,知识图谱和KB-QA相关的研究工作和工业应用逐渐引起重视。例如由Amazon收购的EVI系统(原名为TrueKnowledge),就是一种面向开放领域的结构化知识问答系统。Facebook定义的Facebook Social Graph,用于连接社交网络的用户,用户分享的照片、电影、评论;在所构建的Social Graph基础上,Facebook推出了Graph Search(图搜索)功能,即将用户的自然语言问题,转化为面向Social Graph上的图搜索问题,从而回答用户的自然语言问题。另外越来越多的chatbot(聊天机器人)产品中也引入了面向知识图谱的问答功能,使得chatbot和人交互时用户可以获得更多知识方面的回答。IBM的Watson系统在参加智力问答节目《危险边缘》(Jeopardy)的比赛时,也同样采用DBpedia和Yago知识图谱数据来回答某些自然语言问题。本次报告主要介绍目前学术界和工业界面向知识图谱问答的主要关键技术和邹磊教授团队在面向知识图谱的自然语言问答系统方面的工作gAnswer。

北京大学教授邹磊

  • 一种基于概念规则集的可解释性学习框架:可解释性机器学习在用户权利保障,提高用户对模型的信任度等方面扮演了越来越重要的角色,在很多关键领域(如医疗、保险、刑侦等)正变得不可或缺。现有很多关于可解释性机器学习的研究试图获取具有简单形式的模型。然而,简单的模型并不总是意味着好的可解释性。相比于通过数据拟合来进行机器学习,人类善于通过对数据归纳总结形成易于理解的概念层次。受人类学习的启发,清华大学教授王建勇尝试建立一个基于分层概念规则集的可解释性学习框架。位于某一层次的规则集对应于相应粒度的某个概念,我们使用这些不同粒度的概念来获得数据的一个可解释性表示。进而提出了一个面向分类任务的、挖掘高质量概念规则集的框架。实验结果表明该学习框架可以获得和其他可解释性学习算法相近的分类性能,同时提供了更好的可解释性。

清华大学教授王建勇

  • 分布式机器学习算法的系统优化:分布式机器学习算法已经被广泛用于大规模数据分析与挖掘。北京大学教授崔斌认为,在分布式机器学习系统中,人们需要考虑一些对系统性能有重要影响的因素,如并行策略、同步协议和网络通信等。在本次报告中,崔斌教授介绍了其在分布式机器学习系统设计优化的一些工作,包括面向高维海量数据的并行策略、面向异构环境的同步协议、基于数据草图的梯度压缩方法。报告最后,崔斌教授还介绍了北京大学与腾讯合作研发的分布式机器学习系统Angel,系统针对海量训练数据和高维模型参数做了深度优化,在易用性、稳定性、可扩展性等方面获得了良好的效果,并支持多种不同类型的机器学习算法。Angel系统作为腾讯第三代高性能机器学习计算平台,已经在腾讯的多个实际业务中得到了应用,并在GitHub开源 (https://github.com/Tencent/angel)。

北京大学教授崔斌

  • 基于端到端模型的知识获取与知识问答知识图谱是人工智能的核心基础设施之一,对于语义内容理解有重要的支撑作用。传统知识抽取与问答方法多采用多步Pipeline的处理策略,往往存在错误积累,难以学习的问题。在本报告中,中科院自动化所副研究员刘康结合研究组近些年的工作,主要介绍基于端到端的知识获取与知识问答的最新方法。其优势在于,利用神经计算与符号表示各自的优势,将大规模知识获取与问答问题转变成一个可学习问题,更加适用于大规模、开放域环境。

中科院自动化所副研究员刘康

  • 图神经网络 (GNN) 算法及其应用图神经网络将深度学习方法延伸到非欧几里得的图数据上,大大提高了图数据应用的精度。清华大学教授唐杰简单回顾图卷积网络(GCN)并探讨如何提高GCN在图数据上的表示学习能力。唐杰教授表示,几个巧妙、简单的方法可以有效提高GCN的表示能力,该方法可以等价表示为图注意力网络(GAT)。该方法的有效性在包括阿里巴巴等多个超大规模数据集上得到验证。

清华大学教授唐杰

在此前的智源“智能信息检索与挖掘”重大研究方向发布会上,北京市科学技术委员会党组书记、主任许强曾指出:“发展人工智能产业关键靠人才,现阶段我国人工智能尤其在‘机器学习’等领域存在人才少、人才成本高的情况。面向未来,人工智能产业发展前景广阔,也任重道远。我们要积极发挥北京人才集聚优势,着力在培养人才、吸引人才上下功夫。与此同时,坚持‘百花齐放’,充分鼓励高校、研究机构和企业共同引领人工智能产业的发展。北京智源构建了一个开放、自由、创新的研究与人才培养模式,希望未来能够有更多的专家学者参与到这个模式中来,共同努力推动北京地区人工智能领域的发展。”

与此同时,作为“智能信息检索与挖掘”研究方向的首席科学家,中国人民大学教授文继荣表示:“获取高质量的信息永远是人类的核心需求,但由于人类记忆和查找信息的能力有限,因此利用计算机进行检索与挖掘具有极强的必要性。新时代的搜索引擎应该升级为智能信息助手,甚至进一步演变为个人智能信息助手。使得用户能够随时、随地,方便地获取与自己相关的高质量信息和知识。在北京智源的大力支持下,我们能够在智能信息检索与挖掘这一领域进行自由探索。围绕构建‘个人智能信息助手’的关键科学和技术问题,联合北京地区高校和科研机构联合攻关,努力推进智能信息检索与挖掘的研究,并逐渐形成该领域的‘北京学派’。”

中国人民大学教授文继荣

在此次活动的致辞环节,中国人民大学常务副校长王利明表示:“今天,北京智源人工智能研究院与高瓴人工智能学院,共同举办‘智能信息检索与挖掘’智源论坛,文继荣教授作为该重大研究方向首席科学家,是我校协同北京市委市政府,共建人工智能领域‘北京学派’的重要实践。未来,中国人民大学愿意继续积极参与、共同促进‘北京学派’的发展壮大!”

中国人民大学常务副校长王利明

据悉,“智源学者计划”是智源研究院打造高层次基础研究人才队伍的引领性工程,旨在面向当前和未来人工智能创新发展,选拔并培养一批德才兼备、具有国际影响力的学科领军人才和具有发展潜力的青年学术英才,构建富有创新能力、梯队合理的人工智能基础研究创新团队,建立面向未来人工智能发展的高端人才储备,引领未来人工智能基础研究方向,推动北京人工智能产业创新发展。

产业智源学者计划北京智源人工智能研究院
相关数据
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

推荐文章
暂无评论
暂无评论~