AI界的北京学派,要升级传统搜索引擎,打造个人智能信息助理

AI界的北京学派,要升级传统搜索引擎,打造个人智能信息助理

8月27日,这个聚集了清华唐杰教授、人大文继荣教授(人大高瓴人工智能学院院长,SIGIR2020主席)等一众在信息检索与挖掘领域有丰富经验的研究人员的团队宣布,他们将致力于打造基于自然交互的个人智能信息助理,取代传统的搜索引擎,成为下一代信息获取工具。

这件事,能做成吗?

撰文 | 太浪

1 新时代的搜索需求

获取高质量(准确、全面、深入、实时)信息,永远是人类的核心诉求,是进行正确判断和决策的前提。但人的记忆和查找信息的能力是有限的,而计算机在这一方面却优势突出。

搜索引擎诞生的背景就是,信息过载,人类需要一个可以帮自己在互联网上找自己所需要信息的工具。

但随着人们使用搜索引擎的场景越来越多,(比如在使用电脑、手机、可穿戴设备时,甚至是在驾驶途中,都有搜索信息的需求,比如查找某个目的地,)信息量越来越大,信息存储地越来越多。很多信息已经不是像传统的 web 形式存在,而是存在于各种 APP 中。有数据显示,截至 2018 年12月,我国市场上监测到的APP在架数量为449万款。而随着 5G、传感器的发展,万物互联时代的到来,新的信息形式的产生,将会带来更进一步的信息爆炸。

数据分散化现象加剧,越来越多的信息不再能被搜索引擎找到。

与此同时,现有搜索引擎的诸多缺陷却没有得到补足。比如,一问一答的交互形式,让用户无法完整描述整个信息需求。给出的搜索结果是一排排冗长的文档而非精确的答案。更不用说,使用搜索引擎完成人类高复杂度的任务(比如,协助高考填报志愿,帮选学校/专业),机器更无能为力。

2 基于自然交互的个人智能信息助理

基于这样的背景,8 月 27 日,北京智源人工智能研究院发布了「智能信息检索与挖掘」重大研究方向,旨在智能信息检索与挖掘的基础理论方面寻求突破,同时基于理论基础建立新型的信息检索与挖掘算法,有效解决用户精准多样的信息需求与庞大的互联网数据规模之间存在的鸿沟问题。

为了实现上述目标,智源研究院聘请了来自北大、清华、人大、中科院的十位知名学者:王建勇教授、崔斌教授、唐杰教授、郭嘉丰研究员、徐君教授、刘奕群教授、刘康副研究员、邹磊教授、沈华伟研究员、贾珈副教授,他们均是所在研究领域具有国际影响力的中青年学术带头人,有多位是国际顶级期刊的编委,也曾获得国际知识发现与数据挖掘大会(KDD)、国际信息检索大会(SIGIR)等数据挖掘领域国际顶级会议的最佳论文奖。

北京智源人工智能研究院是 2018 年 11 月,在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立,依托北京大学、清华大学、中国科学院、百度小米、字节跳动、美团点评、旷视科技等北京人工智能领域优势单位共建的新型研发机构。

「现在,是时候集中我们北京的力量,去探索下一代信息获取工具了。」文继荣教授表示。作为「智能信息检索与挖掘」重大研究方向的首席科学家,他将领导「智能信息检索与挖掘」团队,面向新时代,致力于做出「基于自然交互的个人智能信息助手」,取代传统的搜索引擎,成为下一代信息获取工具。

AI界的北京学派,要升级传统搜索引擎,打造个人智能信息助理

文继荣教授

文继荣教授在27日的发布会上指出,目前,搜索引擎仍是人们主动获取信息的主要手段,也是迄今为止最为成功的大规模人工智能应用之一。但搜索技术的架构和交互界面已经 30 年未变,搜索的核心技术也已经 10 年没有重大进步。

他认为,新时代的搜索引擎应该升级为智能信息助手,甚至进一步演变为个人智能信息助手,使得用户能够随时、随地,方便地获取与自己相关的高质量信息和知识。

根据文继荣的描述,你可以自然地与他们开发的智能信息助手进行对话,与它多轮交互,或者等它来主动交互;当你对它提问时,它会给出精确的答案,而不是给出一堆文本让你自己看,它有知识,能回答准确;它具有数据整合的功能,会用各种各样的信息(包括公开数据、个人数据和第三方数据)来满足你的信息需求;它还会专属于你,根据你的用户画像,它会知道你想要什么,并且能感知你所处的场景,给你提供个性化服务。

为了实现这样一个目标,智源研究院「智能信息检索与挖掘」团队将从理论基础、算法模型、系统三个层面展开研究。

理论方面唐杰、徐君、沈华伟将探索整个智能信息检索与挖掘领域的「数学理论基础」和「认知理论技术」;

算法模型方面,刘奕群、贾珈将围绕「基于自然语言的交互式信息获取」进行研究,王建勇、刘康、邹磊将着重突破「知识增强的信息表示与挖掘」,崔斌、郭嘉丰、徐君将主要研究「深度语义检索与推荐模型」问题。

「实际上,算法模型这三个部分对应着传统信息检索三个最重要的问题:一是对用户需求的理解,二是对文本/数据的理解,三是将用户需求和文本/数据做连接,做检索和推荐。」文继荣表示,「但是它在广度和深度上,相比于我们传统的信息检索,往前走了一大步。」

做出新一代个人智能信息助手,便是他们要在系统方面做的努力。

文继荣表示,他们希望「围绕构建个人智能信息助手的关键科学和技术问题,联合北京地区高校和科研机构的优秀学者,进行联合攻关,显著推进智能信息检索与挖掘的研究,逐渐形成该领域的『北京学派』。」

3 花式交流促协同

不过,虽然大家有着共同目标,但各位学者来自不同单位、有着各自日常工作,如何在接下来的项目执行过程中更好地合作,是需要费心思考的。

「现在国内很多大项目基本上是把钱一分,大家就分头做自己的了,到最后是不是能够有一些好的成果出来,是很难的。这个是普遍性的问题。」文继荣说,「但是我不希望我们在智源做事情也是那样。我还是希望有一个更好的机制,使大家将来能够像今天这样,有更多的交流,在很多方面互相合作。」

于是,在 8 月 27 日「智能信息检索与挖掘」重大研究方向发布会的圆桌讨论环节,文继荣教授、崔斌教授、唐杰教授、徐君教授、郭嘉丰教授、刘奕群教授、窦志成教授、沈华伟教授以及字节跳动人工智能实验室负责人马维英博士共同就这一话题进行了探讨。

AI界的北京学派,要升级传统搜索引擎,打造个人智能信息助理

窦志成表示,从一开始,就应当确立共同的目标与责任分工:大概有一个要执行的输出物,需要哪些数据,围绕这些数据要做哪些地方;然后,每个人的研究尽量往这个方面移一下。

多位学者均表示,定期的、各种形式的、跨学科的沟通交流十分必要。

刘奕群讲述了自己非常欣赏的一种模式:澳大利亚墨尔本有一批学者,他们会定期在墨尔本边上一个非常漂亮的小城市举办信息检索相关的学术论坛、学生会议。据他了解,墨尔本差不多聚集了至少五六个来自不同学校的、做这个档次的高水平的检索的学者,他们会跨大学去指导一些学生。学生可以得到不只一位导师的指导。

他认为,应该形成一个以智源研究院为中心,不同导师、学生联系紧密、沟通频繁的研究团体。只有通过不同观点的不断碰撞,才能激发更多的活力与创意。

也有学者指出,应该有跨领域的交流。

徐君曾在微软亚洲研究院当过实习生,他说,自己学生时代最大的受益就是可以听各种各样不同的报告,然后与其他人进行讨论。前段时间被拉去帮助解决新药研发问题的经历,更是让他认识到跨学科交流的重要性。

「刚开始去的时候,我完全不懂,但是一两个小时的交流后,我逐渐明白他们面临的问题是什么。一个是怎么做匹配,另一个是化合物的数量可能达几十亿种,他们可能要算二十年才能算出一个药来。那么,这个时候,我们人工智能的一些方法在这个领域能够发挥作用。」

《Nature》一篇探讨 AI 可能对药物研发产生的变革的文章中指出,深度学习能够通过穷尽各大患者及健康人群数据库,找到药物候选靶点,运用算法精准预测,快速筛选活性化合物,虚拟构建药物分子,大大缩短药物研发的周期。

徐君觉得,那些搞制药的人想出来的方法,「也许也能够反哺我们」。

这批智源学者中,有多位是从微软亚洲研究院走出来的,他们对数据、应用、需求的重要性都有深刻认识。因此,当字节跳动人工智能实验室负责人马维英博士提到可以给数据、给算力时,被「cue」,届时一定要兑现承诺。

「我觉得今天这边的研究能利用更好的大数据。我们的数据资源很丰沛,从新闻、图片、视频、直播到新一代问答,我们也在做音乐的创作。所有的内容,大数据非常多,可以让你做内容的理解、创造、分发,连接人和信息,再到垂直应用到广告、电商、财经、教育、学习、理财等领域。如果需要,我们还能够提供算力。」

马维英表示,作为企业,他们最想要的是「人才」,「我们也在做搜索,我们的推荐引擎也是使用排序算法而不是传统的推荐,跟搜索引擎一样复杂。我们也非常重视对话引擎,今天,除了看头条,我们也想听头条、问头条、跟头条对话,但这得一步一步,这些都有机会一起合作。」

他希望,能够打通智源与字节跳动等企业之间的沟通与交往渠道,实现数据、算力、人才的优势互补。

崔斌则认为,最终要做出一个系统(智能信息助手)是一件有难度的事,「按照现在项目的形式,基本上很难各家一起来做。」

这个问题是需要首席科学家文继荣进行协调的。

产业大数据技术推荐算法人工智能字节跳动搜索引擎
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
刘康人物

中国科学院自动化研究所副教授,研究领域:自然语言处理、信息抽取、问答系统、信息检索、机器学习。

唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名,该系统于2006年3月推出,目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

排序算法技术

排序算法是将一串数据依照特定排序方式进行排列的算法,最常用到的排序方式是数值顺序以及字典顺序。基本上,排序算法的输出必须遵守下列两个原则:输出结果为递增序列(递增是针对所需的排序顺序而言);输出结果是原输入的一种排列、或是重组。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
旷视科技机构

旷视科技是以人工智能技术为核心的物联网解决方案提供商,致力于用非凡科技为客户和社会创造最大价值。基于自主原创的AI技术体系,旷视赋能手机、摄像头、机器人等感知设备,让“机器看懂世界”,并通过软硬结合的解决方案构建个人IoT、公共IoT、商业IoT三大物联网络,助力行业实现降本增效,提升客户商业效益和人们生活品质。旷视科技是世界最早一批用深度学习方法实现人脸识别规模化商用的人工智能企业之一,旗下拥有全球领先的人脸识别开放平台Face++和第三方人脸身份验证平台FaceID,并已在多个垂直领域推出了包括人脸识别支付、人脸识别解锁、全帧智能抓拍机在内的多个具有开创性意义的AI产品。 旷视科技在行业的领先地位源于对核心技术持之以恒的创新。作为中国人工智能原创技术企业代表之一,旷视拥有国内外在申及授权专利900余件,并代表行业领先技术提供方参与了19项人工智能国家及行业标准制定。旷视在各项国际人工智能顶级竞赛中多次击败Google、Facebook、Microsoft等知名企业,揽获25项世界技术评测第一,在ECCV2018的COCO、Mapillary竞赛中,旷视独揽4冠,刷新了中国AI技术的世界新高度。旷视科技取得的成绩获得了诸多认可。2014年,旷视被认定为国家级高新技术企业;2015年,旷视被认定为中关村高新技术企业;2016年11月,旷视入选中关村前沿科技企业;2017年3月,旷视被科技部评为“独角兽”企业,并位列人工智能企业首位;2017年5月,旷视核心人脸识别技术被美国著名科技评论杂志《麻省理工科技评论》评定为2017全球十大突破技术,同时旷视入榜“全球最聪明公司”排名第11位;2017年7月,旷视受邀在国家政府半年经济会议中向李克强总理做企业创新汇报;2017年12月,旷视产业级的人工智能技术入选世界互联网领先科技成果;2018年,旷视入选国家知识产权示范企业,获批全国博士后科研工作站一级站点,并承担国家重点研发计划“变革性技术关键科学问题”重点专项核心课题。

小米机构

小米是中国一家专注于智能硬件、智能家居以及软件开发的企业,于2010年4月6日成立,总部位于中国北京,截至2018年3月31日,员工人数近1.45万。 2010年8月及12月,小米发布了基于安卓系统深度定制的第三方固件MIUI及首款移动应用米聊。2011年8月16日,小米正式推出了其第一款硬件产品——小米手机(一代),开创了以互联网线上抢购高配置、低售价的智能手机销售模式。 通过旗下生态链品牌MIJIA(米家),小米的产品线从智能手机及耳机、移动电源等手机周边产品和音箱、手环等相关移动智能硬件,扩展到智能电视、机顶盒、路由器、空气净化器、电饭煲等家居消费产品。截至2018年3月底,小米已进入全球74个国家和地区的市场,并在其中15个市场智能手机出货量名列前五。 2012年,小米全资买入北京多看科技有限公司,进入电子书阅读领域。多看阅读是旗下网站,并有相应的App。2018年,业界传闻小米有计划生产电子阅读器。 2018年5月3日,小米正式向香港交易所提交IPO申请[6],于2018年7月9日以同股不同权的方式挂牌上市,并计划于7月23日纳入恒生综合指数。 2018年11月19日,美图公司与小米集团宣布达成战略合作伙伴关系,合作期限30年。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

推荐文章
暂无评论
暂无评论~