清华大学人工智能研究院智能信息获取研究中心成立,马少平任主任

2019 年 6 月 19 日,清华大学人工智能研究院成立第六个研究中心——智能信息获取研究中心,旨在研究如何智能地帮助人们更简单和高效地获得、分析和处理信息。

在信息极大丰富的互联网时代,信息获取已经成为人们的日常。而如何利用人工智能技术提高信息获取的质量和效率是非常迫切的需求,也是对人工智能提出的一项挑战。

6 月 19 日,清华大学人工智能研究院成立了智能信息获取研究中心,这也是清华大学人工智能研究院自成立以来设立的第六个研究中心。清华大学副校长、清华大学人工智能研究院管委会主任尤政院士,清华大学人工智能研究院院长张钹院士出席成立仪式并共同为中心揭牌。在揭牌仪式上,清华宣布由马少平教授担任中心主任,聘请新加坡国立大学蔡达成教授、加拿大蒙特利尔大学聂建云教授担任中心学术顾问。

马少平教授被聘任为智能信息获取研究中心主任

信息获取是人们感知、学习和理解世界的第一步,也是至关重要的一步。而智能信息获取技术能够有效地帮助用户从浩如烟海的信息海洋中迅速准确地获取有价值的信息,主要涉及以下几个方面的研究:智能信息检索、个性化推荐与用户建模、智能问答和智能对话系统、用户行为分析与挖掘。

张钹院士认为智能信息获取在人工智能领域占据重要地位,「如果我们把互联网看成一个智能体,那么智能信息获取就相当于智能体之间的相互通讯,或者说意图交换。互联网最重要的特色是它拥有大量知识和数据,它们深刻反映了用户个体和群体的行为,知识和数据又是智能的基础。利用互联网的知识和数据,就能够构造互联网智能。」

他还表示,智能信息获取研究团队有 20 年的研究经验,坚持企业合作和不同学科的交叉研究,符合清华大学人工智能研究院的「一个核心,两个融合」发展战略,即以人工智能基础理论和基本方法研究为核心,积极推进大跨度学科交叉融合,大范围技术与产业、学校与企业的融合。

尤政院士在致辞中表示,目前人工智能技术在全世界范围内还没有根本性的突破,中国和美国从宏观上来说是在一个起跑线上,因此中国要很好地抓住机遇。清华大学人工智能研究院成立近一年来,不断组织队伍、进行布局,目前已经成立 6 个研究中心,大力支持发展人工智能技术,希望人工智能能够解决现在的一些问题。

同时,他也表达了对智能信息获取研究中心的期望:「希望智能信息获取研究中心成立后,能够发挥学校的综合优势,在清华人工智能研究院的领导下,对国家的人工智能发展做出贡献,同时在国际人工智能研究方面起到核心作用,成为国际知名的、顶尖的研究机构。」

中心主任马少平教授介绍道,智能信息获取研究中心将重点关注以下几个方面:

  • 开展相关理论研究:结合认知心理学、经济学等相关领域理论,探究人类信息获取行为的内在规律,研究支持智能信息获取、处理和分析的基础理论和方法;
  • 构建数据计算平台:建设包含互联网数据、用户行为数据的数据平台和支持智能检索、个性化推荐、智能问答、对话系统的智能计算平台;
  • 促进学术交流合作:举办开放的、国际化的与人工智能和信息获取相关学术活动,增进学术交流;普及智能信息获取和处理分析技术,促进产学合作。

马少平教授介绍智能信息获取研究中心情况

马少平教授还介绍了该研究团队的代表性研究成果,涉及搜索引擎、推荐算法的可解释性、情感聊天机器人。此外,马教授介绍了中心的数据资源,包括互联网语料、搜索数据、专业领域、输入法语料四个类别,这些数据均已开放可获取。

数据集地址:http://tiangong.sogou.com/dataset

学界、业界共同探讨智能信息获取技术

智能信息获取研究中心揭牌仪式结束后,一场学术研讨会拉开序幕。来自蒙特利尔大学的聂建云教授、清华大学张敏副教授、刘奕群副教授、黄民烈副教授、搜狗公司副总裁许静芳博士发表了报告。

聂建云教授带来了题为「Representation learning in information retrieval – What to represent」的特邀报告。聂建云教授以信息检索领域中文档和查询词的表示学习为切入点,深入探讨了传统的内容匹配和基于神经网络的内容表示两种检索思路的优劣与结合方式,指出两类特征对于检索来说同样重要。此外,聂教授还特别指出,研究数据、匹配信息的融合方式以及知识的应用方式在信息检索研究中仍然是巨大挑战,期待研究中心在相关领域取得更大突破。

清华大学张敏副教授的报告围绕「个性化推荐中的可解释性与公平性」这一话题开展。张敏副教授指出,可解释性和公平性是当前信息检索、特别是个性化推荐领域的研究重点和热点。张敏副教授介绍了团队在特征、评论、商品三个层次上,将用户产生内容及基于知识图谱的规则推理学习与推荐算法相融合,开展的可解释性推荐方法研究成果;同时还介绍了在推荐公平性方面,团队在深入理解用户行为、改进推荐算法和改善评价指标方面的研究工作;最后,提出可解释性和公平性是两个紧密关联的具有挑战性的问题,呼吁更多研究者们一起加入到相关研究中来,以提升用户对推荐内容的满意度。

清华大学刘奕群副教授做了题为「群体智能支撑的互联网搜索技术」的报告。在报告中,刘奕群副教授首先强调了搜索对信息化社会和信息安全具有重要的意义,并简要回顾了研究团队在利用群体智能改进互联网搜索技术方面取得的一系列进展。随后,刘奕群副教授介绍了团队在用户行为指导的机器阅读模型和相关性计算两方面最新研究成果,阐述了通过分析人类认知行为,改进计算模型的新研究范式。

搜狗公司副总裁许静芳博士为大家带来了题为「问答—精准信息的智能获取方式」的报告。许静芳博士带大家回顾了信息获取方式的演化历程,指出随着交互方式和用户习惯的变化,问答引擎在为用户带来精准信息方面扮演着越来越重要的角色。问题的表达、答案的连接和答案的生成是问答研究中面临的主要挑战,许静芳博士介绍了相关的研究进展,同时期待能与研究中心在相关方向取得更多研究成果。

清华大学黄民烈副教授的报告主题为「对话系统中的强语义、弱语义」。黄民烈副教授首先为大家介绍了在智能对话场景下,强语义信息与弱语义信息在相关研究中的优劣和应用情况。他指出语义问题、一致性问题和交互性问题是现在对话机器人研究领域的主要挑战,并为大家介绍了课题组通过结合知识图谱信息、神经计算等手段在应对这些挑战的研究进展与成果。

从来自学界和工业界的专家报告中,我们可以看到智能信息获取技术的研究中,不同学科的交叉和学界、产业界合作的重要性。

在现在这个时代,人们获取信息的方式多种多样,搜索、问答、推荐、机器人等等,而这些技术本身也是不断变化的。如何透彻地、动态地观察和研究这些分支,如何利用学界的人才优势和工业界的资源优势,将研究与应用结合起来,从而改善智能信息获取技术、提高人们获取信息的效率,这是智能信息获取研究中心要解决的问题。

入门聊天机器人知识问答搜索引擎推荐算法人工智能研究院智能信息获取研究中心清华大学
相关数据
搜狗机构

搜狗成立于2003年,是中国搜索行业挑战者,AI领域的创新者。目前搜狗月活跃用户数仅次于BAT,是中国用户规模第四大互联网公司。2004年8月,搜狗推出搜狗搜索,现已成为中国第二大搜索引擎。2006年6月,推出搜狗输入法,重新定义了中文输入,目前搜狗输入法覆盖超5亿用户,是国内第一大中文输入法。2017年11月9日,搜狗在美国纽约证券交易所正式挂牌上市,股票交易代码为“SOGO”,开盘价为13.00美元,市值超50亿美元。

http://corp.sogou.com/
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

群体智能技术

集群智能(Swarm Intelligence),是指在某群体中,若存在众多无智能的个体,它们通过相互之间的简单合作所表现出来的智能行为,集群机器人便是集群智能一类。它由Gerardo Beni和Jing Wang于1989年在细胞机器人系统的背景下引入。

黄民烈人物

黄民烈,清华大学计算机科学与技术系副研究员。人工智能、深度学习、机器学习方法与应用;自然语言处理,自动问答,人机对话系统,情感分析,社交数据挖掘。

推荐文章
暂无评论
暂无评论~