机器之心编辑部原创

联邦学习、AutoML、认知智能,市北·GMIS 2019带你一览AI前沿技术

「市北·GMIS 2019 全球数据智能峰会」于 7 月 19 日-20 日在上海市静安区举行。本次峰会以数据智能为主题,聚焦前沿研究方向,同时关注产业生态的发展,为技术从研究走向落地提供借鉴。点击阅读原文,即刻报名。

自 1956 年达特矛斯会议提出「人工智能」的名称和概念以后,AI 技术已经发展了 60 余年,经历过「寒冬」也经历过「复苏」。2011 年之后,得益于大数据、算力、算法的快速发展,以深度神经网络为代表的人工智能技术蓬勃发展,在图像分类语音识别、NLP 等任务上实现了极大突破,也代表着这波人工智能浪潮的兴起。

2017 年,机器之心主办了首届全球智能机器峰会(GMIS),聚焦最前沿的 AI 技术,邀请来自全球多个领域的科学家与研究者进行分享,内容涉及无监督学习、语音识别、语音降噪、视觉信息处理、迁移学习、认知对话等技术领域,覆盖了计算机科学、语言学神经科学等交叉学科。

历经两年,人工智能领域新研究、新应用不断涌现,如 2017 年下半年 Geoffrey Hinton 倾力推动的 CapsNet;2018 年当时号称「史上最强 GAN」的 BigGAN;异常火热的图神经网络;为 NLP 领域带来全新突破的 BERT、XLNet 等等。

此外,最新发布的剑桥 2019 年度《State of AI Report》,也把联邦学习、AutoML 等列为取得重大研究与技术突破的领域,而这也是今年「市北·GMIS 2019 全球数据智能峰会」所关注的研究热点。

联邦学习保护数据隐私的机器学习

近年来,世界各国和地区逐渐重视保护公民的数据隐私。欧盟已通过了《数据隐私保护条例》(General Data Protection Regulation,简称 GDPR),要求公司在使用数据前要先向用户声明模型的作用。而中国的《网络安全法》也要求与第三方进行数据交易时需要确保数据保护的义务。这些法案和规定让许多大数据公司产生担忧,不敢互相交流数据,这对依赖大数据的机器学习是一个挑战。

怎样在保证数据隐私安全、合法合规的前提下,让人工智能共同使用参与各方的数据训练呢?联邦学习是一个可行的解决方案。首先,联邦学习通过加密手段交换参与各方的用户识别符,而非用户数据本身。其次,参与联邦学习的双方可根据识别符找出同样的用户,将这部分用户的不同特征作为输入、迭代训练模型和交换参数。在此过程中,双方不能反推对方拥有而自己没有的特征,因此保护了数据隐私。最终,参与联邦学习的各方可以在不共享数据的前提下,利用双方的数据优势实现各自的模型增长。

作为深耕联邦学习领域的大牛,杨强教授认为,联邦学习机器学习面对更加严格的数据管理规定的解决方案。杨教授希望首先推动建立金融领域的联邦学习建模规范,让不同企业都受益于合规的联邦学习生态,促进机器学习业态健康发展。

随着联邦学习技术逐渐成熟,相关领域和企业也期待着它的应用落地。在今年「市北·GMIS 2019 全球数据智能峰会」上,杨强教授将为与会嘉宾深度解读联邦学习

杨强教授是香港科技大学讲席教授,KDD 中国主席,微众银行首席人工智能官。曾于 2013 年当选国际人工智能协会(AAAI)院士,2016 年当选 AAAI 执行委员会委员,2017 年当选国际人工智能联合会(IJCAI)理事会主席。

杨强教授是联邦学习领域的开创者,带领团队开创性的发表了多篇相关领域论文,涉及联邦学习技术以及其中的数据安全、强化学习迁移学习等问题,包括一篇 KDD TIST 2019 顶会论文。此外,杨教授在 IEEE 建立了联邦学习的框架和应用标准。杨教授所在的微众银行团队发布了《联邦学习白皮书 V1.0》,为联邦学习的发展奠定了基础。

自然语言对话:未来技术发展的机遇与挑战

随着这波人工智能浪潮的兴起,语音助手、智能音箱、聊天机器人等各种自然语言对话系统也如雨后春笋般地涌现。

在我们与这些对话系统交互的工程中,我们一方面感叹技术发展的迅速,一方面也期待人与机器之间更为自然流畅的对话。这也就是自然语言对话技术需要解决的问题。

自然语言对话的挑战在什么地方?未来可能会有哪些突破,以及需要重点研究与开发哪些技术?7 月 19 日,在市北·GMIS 2019 全球数据智能峰会」上,李航教授将发表主题为《自然语言对话:未来技术发展的机遇与挑战》的演讲。

李航教授,曾任微软亚洲研究院高级研究员与主任研究员、华为诺亚方舟实验室主任,现任字节跳动 AI Lab 总监。研究方向包括信息检索自然语言处理、统计机器学习数据挖掘。曾出版多部学术专著,如经典的《统计学习方法》。

VideoAI 的过去、现在和未来

在新一代信息技术的驱动下,互联网正全面视频化,以视频作为主要信息传递介质和功能载体的互联网形态——视联网,成为大势所趋。眼睛是人类感知世界的「关键窗口」,视联网新生态下,智能视频技术让人工智能拥有了感知世界的眼睛。

智能视界,如何通过 AI 聚势视频场景效能,助力视频价值规模化释放?技术飞速发展,VideoAI 如何加速视频应用技术迭代升级?极链科技首席科学家姜育刚将从数据、算法、算力等角度深度分析打造大规模智能视频分析系统的关键要素,分享对 AI 的过去、现在和未来发展的思考。

姜育刚,极链科技首席科学家,复旦大学计算机科学技术学院教授。姜育刚教授是中国视频识别与检索领军人物,曾获上海 IT 青年十大新锐 、国家万人计划青年拔尖人才,首届国际计算机学会中国新星奖得主。

认知智能:让机器善解人意

认知智能是人工智能的重要组成部分,它主要关注逻辑层的信息处理,包含自然语言理解、自动推理、知识表示等核心环节。认知智能有助于发现世界和历史上海量的有用信息,并洞察信息间的关系,不断优化自己的决策能力,从而拥有专家级别的实力,辅助人类做出决策。认知智能的发展将使大量繁琐却重要的工作变得更加高效精准,也更人性化。

认知智能在国内外都是研究的热点话题,如何使机器「能理解会思考」,是很多研究者努力的方向。目前,认知智能已在金融、法律等领域得到应用。

7 月 19 日,吕正东博士将结合实际场景中的案例,介绍深度好奇在认知智能领域从算法研究到产业落地方面的实践,以及如何用「最前沿的技术+最切实的方式」,帮助公安和金融领域的用户。

吕正东博士是深度好奇创始人兼 CTO,曾任职于微软亚洲研究院、华为诺亚方舟实验室,长期从事机器学习人工智能的研究,在自然语言理解、自动推理、语义匹配、问答、对话等方面卓有建树,是深度学习领域(尤其是 NLP 方向)具有世界顶尖水平并享有国际声誉的科学家和技术专家。

自动机器学习技术回顾与展望

机器学习需要大量数据标注、调参优化等过程,因此它是有门槛的,需要具备专业知识的人参与其中。如果非机器学习领域的人员也想利用机器学习算法和模型来简化工作流程、提供优秀的解决方案,他们该怎么办呢?自动机器学习(AutoML)应运而生。

顾名思义,AutoML 将机器学习的流程大大自动化,这项技术旨在以数据驱动、客观、自动化的方式进行模型选择、调参等决策:用户只需提供数据,AutoML 系统会自动决定最适合该任务的方法。这能极大地降低用户使用机器学习的门槛。

AutoML 领域已经发展了很多年,社区举办了众多研讨会与比赛等。但 2017 年,谷歌 I/O 大会推出自己的 AutoML 算法,引起了极大的关注,之后 AutoML 领域的研究得到了很大的推动,实现了很多性能提升。

如今,经过两年的发展,自动机器学习领域又有哪些技术突破?未来发展方向何在?

在今年「市北·GMIS 2019 全球数据智能峰会」上,涂威威将在大会首日的「前沿研究与技术趋势」Session 中,为我们分享主题《自动机器学习技术回顾与展望》。

涂威威老师是第四范式的资深算法科学家,设计开发了百度第四范式的大规模分布式机器学习框架,从事 AutoML 研发与应用。过去数年,涂威威曾担任 NeurIPS、KDD Cup 等国际 AI 顶会 AutoML 比赛的负责人,他也是 TPAMI 首个 AutoML 特刊创办者之一。

「市北·GMIS 2019 全球数据智能峰会」将于 7 月 19 日- 20 日在上海市静安区举行。本次峰会以数据智能为主题,力邀全球 30 余位重磅嘉宾,将进行 24 场主题演讲、2 个圆桌论坛、4 个 Session、1 场 AI 画展和「AI00」数据智能榜单发布。

大会详情如下:

市北·GMIS 2019全球数据智能峰会于7月19日-20日在上海市静安区举行。本次峰会以「数据智能」为主题,聚焦最前沿研究方向,同时更加关注数据智能经济及其产业生态的发展情况,为技术从研究走向落地提供借鉴。

本次峰会设置主旨演讲、主题演讲、AI画展、「AI00」数据智能榜单发布、闭门晚宴等环节,已确认出席嘉宾如下:


产业联邦学习自然语言处理VideoAI认知智能自动机器学习
2
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

华为机构

华为成立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。华为的主要业务分布在无线、网络、软件、服务器、云计算、人工智能与大数据、安全、智能终端等领域,发布了5G端到端解决方案、智简网络、软件平台、面向行业的云解决方案、EI企业智能平台、新一代FusionServer V5服务器、HUAWEI Mate等系列智能手机、麒麟系列AI芯片等产品。目前华为拥有18万员工,36所联合创新中心,14所研究院/所/室,业务遍及170多个国家和地区。

微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

第四范式机构

第四范式成立于2015年初,是国际领先的人工智能技术与服务提供商,已服务20多个行业完成上千个AI落地案例。目前国内重要的国有银行和全国性股份制银行,超过一半都是第四范式的客户,此外,公司在互联网、医疗、政府、能源、零售、媒体等行业均有涉猎,诸多案例取得百分之一百以上的效果提升。

复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
李航人物

李航,毕业于日本京都大学电气电子工程系,日本东京大学获得计算机科学博士学位。北京大学、南京大学兼职教授。曾任日本NEC公司中央研究所研究员,微软亚洲研究院高级研究员与主任研究员、华为技术有限公司诺亚方舟实验室主任,是《统计学习方法》作者。

吕正东人物

华为诺亚方舟实验室高级研究员,曾在微软亚洲研究院工作。研究兴趣:机器学习、数据挖掘。

杨强人物

杨强现任香港科技大学新明工程学讲席教授、计算机科学和工程学系主任,大数据研究所所长 。他是人工智能研究的国际专家和领军人物,在学术界和工业界做出了杰出的服务和贡献,尤其近些年为中国人工智能(AI)和数据挖掘(KDD)的发展起了重要引导和推动作用。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

流数据技术

流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

CapsNet技术

Hinton 等人实现了一个简单的 CapsNet 架构,该架构由两个卷积层和一个全连接层组成,其中第一个为一般的卷积层,第二个卷积相当于为 Capsule 层做准备,并且该层的输出为向量,所以它的维度要比一般的卷积层再高一个维度。最后就是通过向量的输入与 Routing 过程等构建出 10 个 v_j 向量,每一个向量的长度都直接表示某个类别的概率。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

香港科技大学机构

香港科技大学(The Hong Kong University of Science and Technology),简称港科大(HKUST),为东亚研究型大学协会、环太平洋大学联盟、亚洲大学联盟、中国大学校长联谊会、京港大学联盟、粤港澳高校联盟重要成员,并获AACSB和EQUIS双重认证,是一所亚洲顶尖、国际知名的研究型大学。该校以科技和商业管理为主、人文及社会科学并重,尤以商科和工科见长。

极链科技机构

Video++极链科技2014年成立于上海,是一家以人工智能为核心,专注新文娱领域的AI科技公司,深耕以文娱为基础的计算机视觉技术的自主研发。经过多年的技术迭代升级,公司构筑了技术壁垒,实现了行业领先,其独立研发的文娱人工智能系统「VideoAI」与视频互动操作系统「VideoOS」已规模化商用,并成为新文娱领域的视频应用技术标准。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

深度好奇机构

深度好奇2016年创立于北京,成立初期即获千万级天使轮投资。公司由NLP领域的著名专家吕正东(前MSRA、华为诺亚方舟实验室资深研究员)创办,致力于用最前沿的语义技术提高垂直领域销售、决策、风控等核心环节的效能。深度好奇的技术团队将深度学习和符号智能结合, 独家研发出用于复杂语言理解的神经符号系统,在国内NLP技术中具有范式性和引领性,所研发的系列产品深受行业客户认可。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

推荐文章
暂无评论
暂无评论~