Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

参与李泽南

对话AWS上海AI研究院长张峥:寻找繁荣背后的正确道路

如果要问最近 AI 领域的热点是什么,「图网络」肯定名列其中。最近,一些科技巨头和研究机构已经推出了图神经网络框架,其中张峥教授等人提出的 DGL 非常引人注目。

张峥教授自去年 9 月任 AWS 上海 AI 研究院院长,他也是上海纽约大学计算机系终身教授,纽约大学库朗数学研究所、计算机系、数据学院兼职教授,美国伊利诺大学香槟大学(UIUC)博士。他曾任惠普中央研究院研究员,微软亚洲研究院系统研究方向创始人、首席研究员、副院长。张峥的主要研究领域为深度学习人工智能、高性能大容量计算和存储系统。

张峥也是开源深度学习平台 MXNet 的共同创始人和顾问。在 2018 年 12 月,张峥等人开源了 DGL,这是一款面向图神经网络和图机器学习的全新框架。

最近,张峥教授接受了机器之心的专访。对于近期人工智能领域的新研究、深度学习框架的发展,他发表了自己的看法。

机器之心:回顾过去一年,人工智能领域中有哪些让您印象深刻的研究成果?

张峥:对抗网络的成熟,以及在对抗网络上建立的轮回训练(CycleGAN)的框架,有潜力可以大大降低标注成本。

另外,在自然语言处理TransformerBERT——在我看这工作以退为进,把自然语言处理推到了第三阶段:一开始把语言简单地看作是一个序列,所以用循环网络处理;第二阶段认为有显示的结构,所以用树状循环网络(TreeLSTM)处理带人工标注的结构语句(比如语法树);第三阶段承认语句中有结构,但抛弃了人工标注的先验结构,用自注意力的方式让网络自己发现和利用。和很多工作一样,这是个循环上升的过程,之后一定有好工作会发生。

其他的我在机器之心上配合上海人工智能大赛写过一篇文章,可以参考(参见:上海纽约大学张峥教授:2017 年影响力论文推荐)。

机器之心:过去一年中,您觉得自己最有意义的工作是什么?

张峥:我的博士生在 NeuIPS 发了第二篇文章,连续第二年获得英伟达的先锋研究奖,这两个工作都要感谢我在纽大的同事 Kyunghyun Cho 教授的合作和指导。两篇文章都是比较基础的工作,另外在图像处理自然语言处理上也做了些其他尝试,但不能说很理想。

从系统领域转过来,要学习的还是很多,倒是带领团队潜心把图计算和深度网络结合的平台 DGL 做出来发布了,相对比较满意。

机器之心:您从大规模分布式计算理论和实践的研究转向机器学习领域。相对于一直研究深度学习的学者,您看待问题是否会有一些不同的视角?

张峥:首先要澄清一点,「不同」不见得总是好事。跨界很幸苦,不光要学新的,还要重学原来学错的。比如说我们当年在大学里把矩阵运算背得滚瓜烂熟,但对其背后的几何性质缺乏更直观(也更漂亮)的理解。Unlearn 经常比 learn 要难得多。

我是做系统出身,对模块的层次、结构、功能划分非常敏感,因此对一大坨神经元拍在一起完成一个任务的设计很排斥。任何复杂系统,都是协同作战,复杂的大数据计算(或存储)架构是这样,大脑是这样,没道理人工智能的架构不是。所以我看一个问题,设计一个网络和模型,总是本能地重视系统化的角度。

同理,我看到把机器学习用到系统设计和实践的机会要更快一点。这几年系统和深度学习结合的研究发展非常迅速,比如 SysML 这一支,我好几年前就在呼吁了。只是我一直醉心于学习 ML,自己没花时间去做。

机器之心:2018 年 9 月,您宣布任职亚马逊 AWS 上海人工智能研究院首任院长,任职前后您觉得自己的工作内容有些哪些转变?

张峥:挺多的,应该说是更忙了。原来教学的时间现在要换成建设研究院的具体工作,研究上面除了基础研究之外还要辟出一部分时间来看如何和 AWS 的产品对接。

机器之心AWS 上海人工智能研究院目前主要在进行哪些方向的研究?

张峥:主要围绕 DGL 这个平台;具体的还不方便透露。

机器之心:目前 AWS 上海研究院的研究人员数量有多少?正在和哪些大学展开合作?

张峥:我只能说研究院有很好的发展前景,从研究员到实习生都有不错的机会。一个研究院,和大学的研究单位在同一个生态环境中,所以我会非常注重和大学的互动。现阶段因为精力有限,会着重在上海和周边的几所高校。

机器之心:随着最近张潼离职腾讯 AI Lab 等事件,有关前沿技术落地难的问题被人们广泛讨论,如何看待学界和产业界之间的隔阂?

张峥:学界和产业界应该交叉,也应该互补。如何在工业界做好研究院,本身就是一个很有意思和意义的题目,在不同时段、不同产业、不同公司文化需要有个适应的过程。长远地看,两者一定是个共生共存的关系。

机器之心:您参与开发了深度学习框架 MXNet、MinPy,最近又推出了图神经网络框架 DGL。过去一年里,业界的深度学习框架经历了哪些重要进步?

张峥:我觉得学习框架有趋同的趋势,MinPy 的初衷和 PyTorch 是一样的,设计目标里先照顾用户方便;TensorFlow 反过来,用暴力市场推广和良好的性能来弥补使用上的不便。

我在 NeuIPS 的研讨会上听了包括 MXNet 之内各个主要框架的进展汇报,显然双方在往中间走,有趋同的态势。但整体上看,进展放缓,而且有点零和游戏。

学习框架的进一步推动需要硬件和编译器的提高。硬件是每个云服务商最终能和别家竞争的独门暗器,大家都在使劲儿。AWS 在编译部分和开源社团合作顺利,我认为现在看来具有优势。

机器之心图神经网络和图机器学习会是未来的主要趋势吗?

张峥:把图像看成一堆像素,把语言看出一串符号,肯定是错误的。我一直认为繁荣的背后遮蔽了更正确的道路。信号背后有结构、有层次,但不见得必须是人能看清、能解释的结构,直觉上语言学家定义的语法都太僵硬了。没有结构的时候去发现结构,有结构的时候用好结构,这是同一枚硬币的两面,是必须要做的工作。要做好,就得把刀先磨快,这是为什么要花大功夫做 DGL。

「趋势」不好说,基础性的工作一开始不见得性能好,而现在学界跟风刷分的风气和习惯太深了。

机器之心:在 AWS 和纽约大学、上海纽约大学推出的 DGL 之外,最近 DeepMind微软和阿里也推出了各自的图神经网络框架(如 graph_nets、NGra、Euler),如何评价这些工具?

张峥:除了图卷积模型之外,还有小图的生成模型,还有把传统网络用图计算解构的新视角。这些都是 DGL 在项目初期就定下的目标。模型种类涵盖广,性能超越已有的开源实现,API 打磨干净,文档和教程多多易善,不和已有的框架打架(DGL 同时支持 PyTorch 和 MXNet,TF 也可以移植),而是开辟新战场,这些是 DGL 和最近发布的这些框架的显著区别。事实上,也是吸取了当年 Minpy 的一部分经验和教训。

机器之心:过去一年里,人们对于自动驾驶等领域的期待正逐渐转向现实,AI 还有很多问题没有解决。在您看来,「人工智能寒冬」是否已经出现?

张峥:我没感觉到。不是说没有泡沫,或者泡沫没戳破,只是因为我不关心。有趣有意义的问题不停地出现,干都干不完啊。

机器之心:请给出自己的预测吗,在 2019 年里,人工智能领域会有哪些新发展?

张峥:预测就算了哈(笑)。如果上一年你让我预测,我可能没一个猜对。当时大家(包括我)都看好强化学习,结果至少在可重复性方面,强化学习相比其他框架,要弱得多;我当年觉得 GAN 很酷,但没料到结果可以这么好。不过,我一直认为有几个特别重要、基础性的方向,希望今年能见到好成果。

机器之心:目前人工智能的发展还面临着哪些主要挑战?

张峥:发掘结构肯定是最主要的一个。还有,embedding 到底应该是什么形式?在欧式空间里弄一个向量,肯定太简单了。另外,也是我最爱说的一点,人工智能现在在行为和计算单元上模拟人脑,但缺乏结构上的、系统级别的近似,所以和脑科学的衔接没有基础。

机器之心:您很喜欢看书,最近在看什么书?最近有什么可以推荐的人工智能类书籍吗?

张峥:书每天都读,只是今年完成的量大概减半。好在我参加一个很小的读书群,都是读书狂人,以王烁老师为代表,其中一半还写书、出书,很受益。小白老师的《封锁》今年得奖,黄昱宁老师的《八部半》开始深度涉及科幻,关注人和机器的关系。在他们的影响下读了一系列麦克尤恩的小说,他到上海我还蹭了几次局。老麦的下一部小说讲机器人,我很期待。他认为最终的分水岭不是图灵测试,而是看机器人能不能写小说。所以我一边读一边琢磨机器人有没有可能写出他那样的小说,就像之前我琢磨 Ta 们能不能写诗一样。

如果能写小说是个测试,我想如果 Ta 能在第一、第二、第三人称中腾挪转换地书写自己的才算。小说中有没有人类,或者有人类也只是个点缀,没啥关系。:)

刚读完《2018 最佳美国自然和科学写作》。这是我最喜欢的系列,读了多年,基本上所用作品都是极具文学性的科学写作。和人工智能紧密相关的有两篇文章,一个是对占了美国科学哲学一半江山的 Daniel Dennett 的写真,其中关于「僵尸悖论」的部分和第二篇又强相关,那一篇讲冷血宝宝的问题,这些宝宝长大成人后在最好的情况下也是伪装得很好但毫无同理心的「僵尸」。这里引发的问题很深刻,值得仔细想想。关于这个集子里的好文章,我会找时间把笔记整理一下发出来。

产业图网络AWS
1
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

MXNet技术

MXNet是开源的,用来训练部署深层神经网络的深度学习框架。它是可扩展的,允许快速模型训练,并灵活支持多种语言(C ++,Python,Julia,Matlab,JavaScript, Go,R,Scala,Perl,Wolfram语言)

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

CycleGAN技术

GAN的一个变种

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

分布式计算技术技术

在计算机科学中,分布式计算,又译为分散式運算。这个研究领域,主要研究分布式系统如何进行计算。分布式系统是一组电脑,通过网络相互链接传递消息与通信后并协调它们的行为而形成的系统。组件之间彼此进行交互以实现一个共同的目标。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
推荐文章
暂无评论
暂无评论~