Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI界的北京学派,要升级传统搜索引擎,打造个人智能信息助理

AI界的北京学派,要升级传统搜索引擎,打造个人智能信息助理

8月27日,这个聚集了清华唐杰教授、人大文继荣教授(人大高瓴人工智能学院院长,SIGIR2020主席)等一众在信息检索与挖掘领域有丰富经验的研究人员的团队宣布,他们将致力于打造基于自然交互的个人智能信息助理,取代传统的搜索引擎,成为下一代信息获取工具。

这件事,能做成吗?

撰文 | 太浪

1 新时代的搜索需求

获取高质量(准确、全面、深入、实时)信息,永远是人类的核心诉求,是进行正确判断和决策的前提。但人的记忆和查找信息的能力是有限的,而计算机在这一方面却优势突出。

搜索引擎诞生的背景就是,信息过载,人类需要一个可以帮自己在互联网上找自己所需要信息的工具。

但随着人们使用搜索引擎的场景越来越多,(比如在使用电脑、手机、可穿戴设备时,甚至是在驾驶途中,都有搜索信息的需求,比如查找某个目的地,)信息量越来越大,信息存储地越来越多。很多信息已经不是像传统的 web 形式存在,而是存在于各种 APP 中。有数据显示,截至 2018 年12月,我国市场上监测到的APP在架数量为449万款。而随着 5G、传感器的发展,万物互联时代的到来,新的信息形式的产生,将会带来更进一步的信息爆炸。

数据分散化现象加剧,越来越多的信息不再能被搜索引擎找到。

与此同时,现有搜索引擎的诸多缺陷却没有得到补足。比如,一问一答的交互形式,让用户无法完整描述整个信息需求。给出的搜索结果是一排排冗长的文档而非精确的答案。更不用说,使用搜索引擎完成人类高复杂度的任务(比如,协助高考填报志愿,帮选学校/专业),机器更无能为力。

2 基于自然交互的个人智能信息助理

基于这样的背景,8 月 27 日,北京智源人工智能研究院发布了「智能信息检索与挖掘」重大研究方向,旨在智能信息检索与挖掘的基础理论方面寻求突破,同时基于理论基础建立新型的信息检索与挖掘算法,有效解决用户精准多样的信息需求与庞大的互联网数据规模之间存在的鸿沟问题。

为了实现上述目标,智源研究院聘请了来自北大、清华、人大、中科院的十位知名学者:王建勇教授、崔斌教授、唐杰教授、郭嘉丰研究员、徐君教授、刘奕群教授、刘康副研究员、邹磊教授、沈华伟研究员、贾珈副教授,他们均是所在研究领域具有国际影响力的中青年学术带头人,有多位是国际顶级期刊的编委,也曾获得国际知识发现与数据挖掘大会(KDD)、国际信息检索大会(SIGIR)等数据挖掘领域国际顶级会议的最佳论文奖。

北京智源人工智能研究院是 2018 年 11 月,在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立,依托北京大学、清华大学、中国科学院、百度小米、字节跳动、美团点评、旷视科技等北京人工智能领域优势单位共建的新型研发机构。

「现在,是时候集中我们北京的力量,去探索下一代信息获取工具了。」文继荣教授表示。作为「智能信息检索与挖掘」重大研究方向的首席科学家,他将领导「智能信息检索与挖掘」团队,面向新时代,致力于做出「基于自然交互的个人智能信息助手」,取代传统的搜索引擎,成为下一代信息获取工具。

AI界的北京学派,要升级传统搜索引擎,打造个人智能信息助理

文继荣教授

文继荣教授在27日的发布会上指出,目前,搜索引擎仍是人们主动获取信息的主要手段,也是迄今为止最为成功的大规模人工智能应用之一。但搜索技术的架构和交互界面已经 30 年未变,搜索的核心技术也已经 10 年没有重大进步。

他认为,新时代的搜索引擎应该升级为智能信息助手,甚至进一步演变为个人智能信息助手,使得用户能够随时、随地,方便地获取与自己相关的高质量信息和知识。

根据文继荣的描述,你可以自然地与他们开发的智能信息助手进行对话,与它多轮交互,或者等它来主动交互;当你对它提问时,它会给出精确的答案,而不是给出一堆文本让你自己看,它有知识,能回答准确;它具有数据整合的功能,会用各种各样的信息(包括公开数据、个人数据和第三方数据)来满足你的信息需求;它还会专属于你,根据你的用户画像,它会知道你想要什么,并且能感知你所处的场景,给你提供个性化服务。

为了实现这样一个目标,智源研究院「智能信息检索与挖掘」团队将从理论基础、算法模型、系统三个层面展开研究。

理论方面唐杰、徐君、沈华伟将探索整个智能信息检索与挖掘领域的「数学理论基础」和「认知理论技术」;

算法模型方面,刘奕群、贾珈将围绕「基于自然语言的交互式信息获取」进行研究,王建勇、刘康、邹磊将着重突破「知识增强的信息表示与挖掘」,崔斌、郭嘉丰、徐君将主要研究「深度语义检索与推荐模型」问题。

「实际上,算法模型这三个部分对应着传统信息检索三个最重要的问题:一是对用户需求的理解,二是对文本/数据的理解,三是将用户需求和文本/数据做连接,做检索和推荐。」文继荣表示,「但是它在广度和深度上,相比于我们传统的信息检索,往前走了一大步。」

做出新一代个人智能信息助手,便是他们要在系统方面做的努力。

文继荣表示,他们希望「围绕构建个人智能信息助手的关键科学和技术问题,联合北京地区高校和科研机构的优秀学者,进行联合攻关,显著推进智能信息检索与挖掘的研究,逐渐形成该领域的『北京学派』。」

3 花式交流促协同

不过,虽然大家有着共同目标,但各位学者来自不同单位、有着各自日常工作,如何在接下来的项目执行过程中更好地合作,是需要费心思考的。

「现在国内很多大项目基本上是把钱一分,大家就分头做自己的了,到最后是不是能够有一些好的成果出来,是很难的。这个是普遍性的问题。」文继荣说,「但是我不希望我们在智源做事情也是那样。我还是希望有一个更好的机制,使大家将来能够像今天这样,有更多的交流,在很多方面互相合作。」

于是,在 8 月 27 日「智能信息检索与挖掘」重大研究方向发布会的圆桌讨论环节,文继荣教授、崔斌教授、唐杰教授、徐君教授、郭嘉丰教授、刘奕群教授、窦志成教授、沈华伟教授以及字节跳动人工智能实验室负责人马维英博士共同就这一话题进行了探讨。

AI界的北京学派,要升级传统搜索引擎,打造个人智能信息助理

窦志成表示,从一开始,就应当确立共同的目标与责任分工:大概有一个要执行的输出物,需要哪些数据,围绕这些数据要做哪些地方;然后,每个人的研究尽量往这个方面移一下。

多位学者均表示,定期的、各种形式的、跨学科的沟通交流十分必要。

刘奕群讲述了自己非常欣赏的一种模式:澳大利亚墨尔本有一批学者,他们会定期在墨尔本边上一个非常漂亮的小城市举办信息检索相关的学术论坛、学生会议。据他了解,墨尔本差不多聚集了至少五六个来自不同学校的、做这个档次的高水平的检索的学者,他们会跨大学去指导一些学生。学生可以得到不只一位导师的指导。

他认为,应该形成一个以智源研究院为中心,不同导师、学生联系紧密、沟通频繁的研究团体。只有通过不同观点的不断碰撞,才能激发更多的活力与创意。

也有学者指出,应该有跨领域的交流。

徐君曾在微软亚洲研究院当过实习生,他说,自己学生时代最大的受益就是可以听各种各样不同的报告,然后与其他人进行讨论。前段时间被拉去帮助解决新药研发问题的经历,更是让他认识到跨学科交流的重要性。

「刚开始去的时候,我完全不懂,但是一两个小时的交流后,我逐渐明白他们面临的问题是什么。一个是怎么做匹配,另一个是化合物的数量可能达几十亿种,他们可能要算二十年才能算出一个药来。那么,这个时候,我们人工智能的一些方法在这个领域能够发挥作用。」

《Nature》一篇探讨 AI 可能对药物研发产生的变革的文章中指出,深度学习能够通过穷尽各大患者及健康人群数据库,找到药物候选靶点,运用算法精准预测,快速筛选活性化合物,虚拟构建药物分子,大大缩短药物研发的周期。

徐君觉得,那些搞制药的人想出来的方法,「也许也能够反哺我们」。

这批智源学者中,有多位是从微软亚洲研究院走出来的,他们对数据、应用、需求的重要性都有深刻认识。因此,当字节跳动人工智能实验室负责人马维英博士提到可以给数据、给算力时,被「cue」,届时一定要兑现承诺。

「我觉得今天这边的研究能利用更好的大数据。我们的数据资源很丰沛,从新闻、图片、视频、直播到新一代问答,我们也在做音乐的创作。所有的内容,大数据非常多,可以让你做内容的理解、创造、分发,连接人和信息,再到垂直应用到广告、电商、财经、教育、学习、理财等领域。如果需要,我们还能够提供算力。」

马维英表示,作为企业,他们最想要的是「人才」,「我们也在做搜索,我们的推荐引擎也是使用排序算法而不是传统的推荐,跟搜索引擎一样复杂。我们也非常重视对话引擎,今天,除了看头条,我们也想听头条、问头条、跟头条对话,但这得一步一步,这些都有机会一起合作。」

他希望,能够打通智源与字节跳动等企业之间的沟通与交往渠道,实现数据、算力、人才的优势互补。

崔斌则认为,最终要做出一个系统(智能信息助手)是一件有难度的事,「按照现在项目的形式,基本上很难各家一起来做。」

这个问题是需要首席科学家文继荣进行协调的。

产业搜索引擎字节跳动人工智能推荐算法大数据技术
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
刘康人物

中国科学院自动化研究所副教授,研究领域:自然语言处理、信息抽取、问答系统、信息检索、机器学习。

唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名,该系统于2006年3月推出,目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

排序算法技术

排序算法是将一串数据依照特定排序方式进行排列的算法,最常用到的排序方式是数值顺序以及字典顺序。基本上,排序算法的输出必须遵守下列两个原则:输出结果为递增序列(递增是针对所需的排序顺序而言);输出结果是原输入的一种排列、或是重组。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
旷视科技机构

旷视成立于2011年,是全球领先的人工智能产品和解决方案公司。深度学习是旷视的核心竞争力,我们打造出自研的AI生产力平台Brain++并开源其核心——深度学习框架“天元”,实现了算法的高效开发与部署。在持续引领技术进步的同时,我们推动AI产业的商业化落地,聚焦个人物联网、城市物联网、供应链物联网三大赛道,为个人用户带来更出色的美学体验与安全保障、让城市空间更有序、并帮助企业实现工业、仓储数字化升级。我们提供包括算法、软件和硬件产品在内的全栈式、一体化解决方案。

https://www.megvii.com
小米集团机构

小米公司正式成立于2010年4月,是一家专注于智能手机自主研发的移动互联网公司,定位于高性能发烧手机。小米手机、MIUI、米聊是小米公司旗下三大核心业务。“为发烧而生”是小米的产品理念。小米公司首创了用互联网模式开发手机操作系统、发烧友参与开发改进的模式。2018年7月,工业和信息化部向与中国联合网络通信集团有限公司首批签约的15家企业发放了经营许可证,批准其经营移动通信转售业务,其中包括:小米科技有限责任公司。 2018年7月9日,正式登陆香港交易所主板 。

https://www.mi.com/
5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

推荐文章
暂无评论
暂无评论~