2019 年 6 月 19 日,清华大学人工智能研究院成立第六个研究中心——智能信息获取研究中心,旨在研究如何智能地帮助人们更简单和高效地获得、分析和处理信息。
在信息极大丰富的互联网时代,信息获取已经成为人们的日常。而如何利用人工智能技术提高信息获取的质量和效率是非常迫切的需求,也是对人工智能提出的一项挑战。
6 月 19 日,清华大学人工智能研究院成立了智能信息获取研究中心,这也是清华大学人工智能研究院自成立以来设立的第六个研究中心。清华大学副校长、清华大学人工智能研究院管委会主任尤政院士,清华大学人工智能研究院院长张钹院士出席成立仪式并共同为中心揭牌。在揭牌仪式上,清华宣布由马少平教授担任中心主任,聘请新加坡国立大学蔡达成教授、加拿大蒙特利尔大学聂建云教授担任中心学术顾问。
信息获取是人们感知、学习和理解世界的第一步,也是至关重要的一步。而智能信息获取技术能够有效地帮助用户从浩如烟海的信息海洋中迅速准确地获取有价值的信息,主要涉及以下几个方面的研究:智能信息检索、个性化推荐与用户建模、智能问答和智能对话系统、用户行为分析与挖掘。
张钹院士认为智能信息获取在人工智能领域占据重要地位,「如果我们把互联网看成一个智能体,那么智能信息获取就相当于智能体之间的相互通讯,或者说意图交换。互联网最重要的特色是它拥有大量知识和数据,它们深刻反映了用户个体和群体的行为,知识和数据又是智能的基础。利用互联网的知识和数据,就能够构造互联网智能。」
他还表示,智能信息获取研究团队有 20 年的研究经验,坚持企业合作和不同学科的交叉研究,符合清华大学人工智能研究院的「一个核心,两个融合」发展战略,即以人工智能基础理论和基本方法研究为核心,积极推进大跨度学科交叉融合,大范围技术与产业、学校与企业的融合。
尤政院士在致辞中表示,目前人工智能技术在全世界范围内还没有根本性的突破,中国和美国从宏观上来说是在一个起跑线上,因此中国要很好地抓住机遇。清华大学人工智能研究院成立近一年来,不断组织队伍、进行布局,目前已经成立 6 个研究中心,大力支持发展人工智能技术,希望人工智能能够解决现在的一些问题。
同时,他也表达了对智能信息获取研究中心的期望:「希望智能信息获取研究中心成立后,能够发挥学校的综合优势,在清华人工智能研究院的领导下,对国家的人工智能发展做出贡献,同时在国际人工智能研究方面起到核心作用,成为国际知名的、顶尖的研究机构。」
中心主任马少平教授介绍道,智能信息获取研究中心将重点关注以下几个方面:
- 开展相关理论研究:结合认知心理学、经济学等相关领域理论,探究人类信息获取行为的内在规律,研究支持智能信息获取、处理和分析的基础理论和方法;
- 构建数据计算平台:建设包含互联网数据、用户行为数据的数据平台和支持智能检索、个性化推荐、智能问答、对话系统的智能计算平台;
- 促进学术交流合作:举办开放的、国际化的与人工智能和信息获取相关学术活动,增进学术交流;普及智能信息获取和处理分析技术,促进产学合作。
马少平教授还介绍了该研究团队的代表性研究成果,涉及搜索引擎、推荐算法的可解释性、情感聊天机器人。此外,马教授介绍了中心的数据资源,包括互联网语料、搜索数据、专业领域、输入法语料四个类别,这些数据均已开放可获取。
数据集地址:http://tiangong.sogou.com/dataset
学界、业界共同探讨智能信息获取技术
智能信息获取研究中心揭牌仪式结束后,一场学术研讨会拉开序幕。来自蒙特利尔大学的聂建云教授、清华大学张敏副教授、刘奕群副教授、黄民烈副教授、搜狗公司副总裁许静芳博士发表了报告。
聂建云教授带来了题为「Representation learning in information retrieval – What to represent」的特邀报告。聂建云教授以信息检索领域中文档和查询词的表示学习为切入点,深入探讨了传统的内容匹配和基于神经网络的内容表示两种检索思路的优劣与结合方式,指出两类特征对于检索来说同样重要。此外,聂教授还特别指出,研究数据、匹配信息的融合方式以及知识的应用方式在信息检索研究中仍然是巨大挑战,期待研究中心在相关领域取得更大突破。
清华大学张敏副教授的报告围绕「个性化推荐中的可解释性与公平性」这一话题开展。张敏副教授指出,可解释性和公平性是当前信息检索、特别是个性化推荐领域的研究重点和热点。张敏副教授介绍了团队在特征、评论、商品三个层次上,将用户产生内容及基于知识图谱的规则推理学习与推荐算法相融合,开展的可解释性推荐方法研究成果;同时还介绍了在推荐公平性方面,团队在深入理解用户行为、改进推荐算法和改善评价指标方面的研究工作;最后,提出可解释性和公平性是两个紧密关联的具有挑战性的问题,呼吁更多研究者们一起加入到相关研究中来,以提升用户对推荐内容的满意度。
清华大学刘奕群副教授做了题为「群体智能支撑的互联网搜索技术」的报告。在报告中,刘奕群副教授首先强调了搜索对信息化社会和信息安全具有重要的意义,并简要回顾了研究团队在利用群体智能改进互联网搜索技术方面取得的一系列进展。随后,刘奕群副教授介绍了团队在用户行为指导的机器阅读模型和相关性计算两方面最新研究成果,阐述了通过分析人类认知行为,改进计算模型的新研究范式。
搜狗公司副总裁许静芳博士为大家带来了题为「问答—精准信息的智能获取方式」的报告。许静芳博士带大家回顾了信息获取方式的演化历程,指出随着交互方式和用户习惯的变化,问答引擎在为用户带来精准信息方面扮演着越来越重要的角色。问题的表达、答案的连接和答案的生成是问答研究中面临的主要挑战,许静芳博士介绍了相关的研究进展,同时期待能与研究中心在相关方向取得更多研究成果。
清华大学黄民烈副教授的报告主题为「对话系统中的强语义、弱语义」。黄民烈副教授首先为大家介绍了在智能对话场景下,强语义信息与弱语义信息在相关研究中的优劣和应用情况。他指出语义问题、一致性问题和交互性问题是现在对话机器人研究领域的主要挑战,并为大家介绍了课题组通过结合知识图谱信息、神经计算等手段在应对这些挑战的研究进展与成果。
从来自学界和工业界的专家报告中,我们可以看到智能信息获取技术的研究中,不同学科的交叉和学界、产业界合作的重要性。
在现在这个时代,人们获取信息的方式多种多样,搜索、问答、推荐、机器人等等,而这些技术本身也是不断变化的。如何透彻地、动态地观察和研究这些分支,如何利用学界的人才优势和工业界的资源优势,将研究与应用结合起来,从而改善智能信息获取技术、提高人们获取信息的效率,这是智能信息获取研究中心要解决的问题。