联想AI实验室负责人徐飞玉:人工智能变迁,从实验室走入日常生活

面向开发者的世界上最大的人工智能主题在线演讲与对话大会 AI WITH THE BEST(AIWTB)于 2017 年 4 月 29-30 日在 AIWTB 官网上通过在线直播的方式举办。昨日,机器之心报道了 Ian Goodfellow 线上分享的有关对抗样本与安全隐私的精彩内容

在本文中,机器之心对这次大会上 AI 专家徐飞玉的演讲进行了梳理,并附有大会演讲视频和 PPT。今年 3 月 23 日,联想宣布成立人工智能实验室,同时宣布徐飞玉博士加盟联想,作为副总裁负责联想研究院人工智能实验室的研发工作。

据悉,1998 年以来,徐飞玉博士一直在德国人工智能研究中心工作。加入联想之前,她是该研究中心语言技术实验室文本分析研究组负责人以及首席研究员。

徐飞玉博士在多语言信息系统、信息抽取、文本挖掘、大数据分析、商务智能、问答系统以及 NLP 技术移动应用等领域拥有丰富的经验,领导过 30 多个国内外研发项目,研发以及管理经验涵盖了创新的完整周期,包括基础研究、应用与研发以及产品商业化。

2016 年 11 月,前微软亚洲研究院常务副院长芮勇博士加入联想,成为联想新的 CTO;数月间,联想新的技术战略——「智能驱动的设备+云」战略——已然成形。人工智能正在成为联想着力加强和投入的战略领域。

演讲主题

人工智能的变迁:从实验室走入日常生活(The Migration of AI from Laboratories into Everyday Life)

今天,人工智能已不仅仅存在于科幻小说之中。大数据及其分析平台、先进的机器学习方法、高速互联网、全球性开源研发社区等大量涌现,这一切催生出了强大的人工智能应用,比如网页智能搜索、机器翻译、智能交互式助手和商业智能软件。

在本次演讲中,我将会概述德国人工智能研究中心的跨学科应用型研究,以表明人工智能未来应用的广大前景。我也会介绍人工智能从实验室走进日常生活的变迁,及其已被证明有效的商业化。正是这种商业化的驱动方法缩短了人工智能从研发走向产品的周期。本次演讲将会介绍一些核心方法,包括设计思维的整合,结合研究与产品使用的整个研发过程的最初步骤等。接着我会着重介绍语言技术的两个应用领域并解释其具体应用:1) 文本大数据分析,2) 智能会话智能体。

徐飞玉博士首先介绍了什么是人工智能:能让机器向人类一样行动。

人工智能热的原因,很有用。提升人类感知和认知,比如搜索引擎。另外,人工智能还可以帮助人与机器交互。

为什么现在会出现人工智能热呢?原因有以下几个方面。比如数据、技术、硬件等等。

人工智能之所以很热,还因为在某些方面甚至可以超过人类(超人智能,比如 AlphaGo)。那么,对比之下,人工智能与人类智能有哪些相似与不同呢?

因此,人工智能可以做一些人类无法做到的事情。

人工智能的发展让很多新的产品、服务和商业模式成为可能,也大大提升了现有产品、服务和商业模式。以下是一些重要技术领域。

人工智能已经被许多领域应用。如下表所示,金融服务、制造业、农业、教育等,一共 216 个领域。

接下来,就看几个利用最新技术的例子。比如,对话用户界面和对话系统。

接着,徐飞玉博士讲了当前的会话式助手的三个参数:1. 能动性(用户、系统、两者混合);2. 中值/方式(声音、文本、图片、触控);3. 会话深度(搜寻、问题回答、命令导向、真实会话)。

当你对语音助手说,给我看看 Peter 在北京的照片时,它首先会分析人物是 Peter,位置为北京;接着它会在图片库中进行检索,并最终给出 Peter 在北京的最后照片。

所以,语音助手图片检索的整个过程可以描述为:输入、分析、理解、行动选择、整合、输出。

接下来,徐飞玉博士重点介绍了文本大数据分析处理这一具体应用。

首先,她先解释了大数据,认为其有如下三个特点:大容量(数据大小)、高速度(变化的速度)、多种类(数据资源)。

在大数据中,文本是最大的也是最常见的大数据来源之一。

但文本数据却是非结构化的。

非结构化也就意味着需要对其进行分析处理。所以接下里要讲的什么是文本信息分析处理。

文本信息分析处理是指在给定一个非结构化文本的情况下,文本分析系统能够自动识别并提取相关实体或概念之间的关系,这种关系对于满足用户需求很重要。

随后,徐飞玉博士讲了文本分析处理技术的 3 个通常性应用任务:

通常性应用任务 1:用于信息查找者的信息访问。

在搜索引擎中,文本分析处理技术可以将用户非结构化的文本性提问映射到更结构化的标准提问,从而帮助信息查找者完成信息访问。

通常性应用任务 2:用于信息提供者的信息获取。

在网络中,信息提供者可从海量免费文本中提取结构化信息,从而可构建知识库以达到信息储备的目的。

接着,演讲中给出一个有关流行歌星的实例:如何从网络中获取流行歌星的完整社交网,并将其分为 4 类:流行歌星、艺术家、个人、团体。

通常性应用任务 3:大数据分析

大数据分析可在结构化数据和非结构化数据之间建立连接:

  • 大规模信息监控

  • 分析:领域、市场、趋势等分析

  • 观察:浏览相关最新进展

演讲给出了文本分析处理技术的架构流程图。

最后,这次演讲对人工智能的贡献作了以下总结:

  • 感知:为视觉、听觉和感觉解释传感器输入

  • 观察我们的世界:监控数据和网页

  • 知识:使全世界的知识触手可得

  • 理解:实时分析海量数据

  • 从经验中学习:机器学习

  • 智能化:机器人、自动化流程 

入门联想产业AIWTB文本处理
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
Ian Goodfellow人物

Ian Goodfellow 是机器学习领域备受关注的年轻学者之一,他在本科与硕士就读于斯坦福大学,师从吴恩达,博士阶段则跟随蒙特利尔大学的著名学者Yoshua Bengio研究机器学习。Goodfellow 最引人注目的成就是在2014年6月提出了生成对抗网络(GAN)。这一技术近年来已成为机器学习界最火热的讨论话题,特别是在最近几个月里,与GAN有关的论文不断涌现。GAN已成为众多学者的研究方向。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

商业智能技术

商业智能(Business Intelligence,BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

文本分析技术

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

联想机构

联想集团是1984年中国科学院计算技术研究所投资20万元人民币,由11名科技人员创办,是中国的一家在信息产业内多元化发展的大型企业集团,和富有创新性的国际化的科技公司。 从1996年开始,联想电脑销量一直位居中国国内市场首位;2005年,联想集团收购IBM PC(Personal computer,个人电脑)事业部;2013年,联想电脑销售量升居世界第一,成为全球最大的PC生产厂商。2014年10月,联想集团宣布了该公司已经完成对摩托罗拉移动的收购。 作为全球电脑市场的领导企业,联想从事开发、制造并销售可靠的、安全易用的技术产品及优质专业的服务,帮助全球客户和合作伙伴取得成功。联想公司主要生产台式电脑、服务器、笔记本电脑、智能电视、打印机、掌上电脑、主板、手机、一体机电脑等商品。 自2014年4月1日起, 联想集团成立了四个新的、相对独立的业务集团,分别是PC业务集团、移动业务集团、企业级业务集团、云服务业务集团。2016年8月,全国工商联发布“2016中国民营企业500强”榜单,联想名列第四。 2018年12月,世界品牌实验室编制的《2018世界品牌500强》揭晓,排名第102。

推荐文章
暂无评论
暂无评论~