Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心(海外)编辑部

对话Quoc Le: 我相信谷歌大脑正在走进第四代机器学习Learning-to-learn

作为 Google Brain 的创始成员,Quoc Le 是一个天生的 AI 才子。2014 年,他利用深度学习技术和自动转换单词的端到端系统推动了机器翻译性能,为谷歌随后在神经机器翻译方面的突破奠定了基础。自 2014 年以来,Le 将目光投向自动化机器学习(AutoML)。2016 年,Le 与 Google 研究员合作,发表了开创性论文《Neural Architecture Search with Reinforcement Learning》,该研究推动了 Google Cloud AutoML 的创建,并使 AutoML 迅速成为热门话题。

在这一次的采访对谈中,Quoc Le 为机器之心 (Synced) 解读了关于 AutoML 以及 Google Brain 发展进程背后的故事。

(以下为对话原文,机器之心做了不改变原意的整理。)

您觉得 AutoML 在过去一年中取得了哪些进展和突破呢?

首先,据我所知,AutoML 最大的成功是围绕计算机视觉的。最近我做了一个演讲,回顾了计算机视觉领域的一些最新技术,结果发现 ImageNet 数据集中最好的三个或四个模型实际上是由 AutoML 生成的,而 ImageNet 可能是目前计算机视觉领域最难的竞赛之一。我们自动生成的模型已经比人工设计的模型更好了。

您觉得 AutoML 具有什么特别的意义呢?

我认为机器学习的许多应用领域都存在着这样一个真实的现象:NLP 和语音模型都是由人类专家手工调整和设计的,这需要付出很多努力、投入大量时间。AutoML 所做的基本上是能够自动设计模型并且比人类设计的模型更好。虽然你必须进行大量的计算,但是进入循环的人力减少了。这属于其中一个部分,关于架构生成和模型生成。

第二部分是关于数据增强方面。今年我们进行了大量研究,使用机器学习来进行自动化数据处理和数据增强的过程。例如,让模型做得更好的一种方法是丰富你的数据。如果你有一只猫的图像,你相信如果你稍微旋转那个图像,它仍然是一只猫;或者你放大这个图像,它仍然是一只猫,然后你便可以丰富你的数据,这个过程称为数据增强。

这很难。人们多年以来都在全力以赴地做到这一点。我们的项目会自动化这个过程。我们采用一个函数库来获取图像并对其进行处理。例如,它会使图像变亮、变暗或均衡图像,然后选取其中一个函数,让我们在处理该图像的小程序中进行组合从而丰富我们的数据集。当进行了很多计算时,我们就可以自动化该过程,并且非常成功。我们有一篇名为《Improving Deep Learning Performance with AutoAugment 》的论文,对于我们应用的每一个数据集,它都带来了很大的改进,这让我看到了很大的希望。

您能总结一下您在 2018 年的研究和工作吗?

我在过去一年的工作可以划分为不同的垂直领域。我从事计算机视觉、结构数据和 NLP 方面的研究。如果从技术上来分,2018 年我主要关注模型生成和数据生成两方面。

与其他公司相比,您认为 Google Brain 对人工智能的追求有何不同?

也许我可以先告诉你我起初为什么会选择在这类项目上工作。人工智能的发展经历了四代。第一代被称为 Good Old-fashioned AI。Good Old-fashioned AI 意味着你用手工制作一切,什么都不学。第二代是浅层学习。在浅层学习中,你手工制作了一些特征并学习了如何分类。第三代,深度学习,也就是到目前为止很多人都享受其中的。基本上你手工编写算法,但是你学习了这些特征,你学习了预测,端到端,其中涉及了比浅层学习更多的学习。第四代,这是新的东西,也是我现在的工作,我称之为 Learning-to-learn (学会学习)。在这一代,我们应该学习一切。我们应该同时学习架构、数据处理、算法和预测等功能。目前我们正处于第四代的开始,所以在谷歌大脑,我们确实致力于 Learning-to-learn 这个方向。这是 Google Brain 正在研究的众多领域之一。我们的使命是努力建立智能,让生活更美好。因此,我们会确保我们构建的技术可以使很多人受益。因此,我们在游戏 AI 上没有投入太多,但我们在尝试开发技术来改善类似医学成像、自动驾驶这些不同领域的应用效果。最近,Waymo 撰写了关于我们在 AutoML 和他们自动驾驶汽车项目合作的博客文章,我们为他们的自动驾驶汽车项目实现了一系列模型的自动化。因此,我们虽倾向于进行早期研究,但我们也非常努力地使我们的技术对用户产生价值。

2019 年您的研究工作重点是什么呢?

就像我说的那样,目前是在 Learning-to-learn 的初期。我相信我们正在进入第四代机器学习,这一代机器学习你不需要做太多,它自己会学到一切。我在架构研究和 AutoML 方面的一些工作还处于初期阶段,因此我将继续扩展并进一步研究如何从端到端学会一切。

2019 年,您对 AutoML 相关技术和应用的发展有何期望?

我认为大多数云平台,或商业云平台将以一种形式或另一种形式运用 AutoML,因为我认为这对最终用户来说会产生很大的影响。可以编写机器学习程序的人实际上非常少,但想要实际使用机器学习的人却非常多。AutoML 是研究人员将其技术实际转移到许多其他公司的绝佳机会,所以我希望很多云公司都会使用 AutoML。在研究中,我认为它将开始获得很大的动力。我已经看过许多来自学术界的那些非常令人兴奋的论文。在 Google 之外,他们在这个领域做了非常有趣的工作,其中一些重要的突破也来自中国。

如果 AutoML 想达到更好的性能表现,目前所遇到的技术挑战是什么?

我认为目前很多 AutoML 的问题仍然是需要在搜索空间中进行一些手工操作。因此,为了让 AutoML 工作,一种方法是搜索所有可能的程序,但这是一个非常大的搜索空间。因此,我们倾向于限制一下,比方说在许多 TensorFlow 函数中进行搜索等。如果不必花太多时间在搜索空间上,我认为会很棒,这是第一。第二是我们拥有的许多搜索方法仍然有点贵,资源仅适用于大公司。所以你才看到大公司能从这个领域中做出很多非常正确的研究。不过我认为最近已经有一些方法可以使用来自学术界和其他一些看起来非常有希望的公司的高效搜索方法,所以我对此抱有希望。但我认为这是 AutoML 未来需要改进的两个关键部分。

您认为未来还有哪些其他新的技术方向需要探索呢?

在 AutoML 之外,无监督学习的出现让我觉得非常兴奋。我认为无监督学习将释放大量已激活数据的巨大潜力,并且我们在过去几年中已经开始看到很多进展。所以我特别要提出这篇名为 BERT 的论文,我想很多人都熟悉 BERT。我们已经在 Google 上发布了使用预训练语言模型来改进下游应用程序的想法,这非常酷。它建立在早期许多团队的其他非常好的研究之上,它积累到了令人兴奋的模型输入的那一刻,这很酷。我期待看到更多像无监督学习这样的发展,因为它将释放另一种潜力,如未标记的数据。另外,我在设计可扩展模型方面也看到了巨大潜力。这样的模型非常大,你可以利用大量数据,但在同时推理成本却很低。所以我们的想法是你可以训练非常大的模型但是你不需要花费太多的计算来评估这个模型。这也是令人兴奋的另一个方向。

在过去的一年中,人工智能领域出现了包括数据泄漏、人才稀缺、模型偏见、可解释性、执法等方面的问题。您最关心哪一个问题?能否就此问题谈谈您的看法?

预测中的偏见可能是我最担心的事情。我们拥有的许多机器学习模型取决于训练数据。很多时候,由于某种原因,我们似乎对我们的训练数据不够了解。如果预测存在偏见,可能会影响很多人,然而我们似乎没有在这方面取得足够的进展。不过我想我们会取得进展的,因为目前很多研究人员都在积极思考这个问题。

在过去七年中,Google Brain 取得了非凡的成功,很少有其他 AI 研究实验室可以超越。而且您也为 TensorFlow、AutoML 和 Google Neural Translate 的开发做出了贡献,所以您能说说 Google Brain 成功将实验室技术应用到产品中的秘诀是什么吗?

首先,其实我们还有很多需要向其他研究实验室学习的地方,他们做得非常棒。至于我们的秘诀,我认为 Google Brain 其中一个独特之处在于,在我们的环境中,研究人员有很多机会与非常优秀的工程师合作。在许多其他研究实验室中,研究人员和工程师往往要么在不同的地方工作,要么在不同的团队中工作,诸如此类。但在 Google Brain 中,这两者能非常好地融合协作。我和非常有才华的工程师一起工作,他们看了我们做的一些研究,然后能找出一种不同的方式,做出比我们最初想要的更好的产品。另一方面是我们的环境非常自下而上。我们办公室的许多研究人员确实对如何应用他们的技术以及应用于什么产品非常有创造力。有时你最终会以非常有创意的方式为你的产品找到你从未见过的应用程序或探索到不同的方向。我认为这些都是 Google Brain 做的非常好的事情。因此,第一个秘诀是要做非常综合的研究模型,将工程和研究结合起来,这也是 TensorFlow 能够迅速开发和谷歌翻译能够快速启动的原因。第二个秘诀实际上是一个自下而上的研究模型,使工程师和研究者可以找到一种方法来创造性地将他们的技术应用到产品当中。

产业AutoML神经架构搜索
1
相关数据
Waymo机构

Waymo是Alphabet公司(Google母公司)旗下的子公司,专注研发自动驾驶汽车,前身是Google于2009年开启的一项自动驾驶汽车计划,之后于2016年独立。2017年10月,Waymo开始在美国亚利桑那州的公开道路上试驾。2018年12月,Waymo在凤凰城郊区推出了首个商业自动乘车服务Waymo One。

http://www.waymo.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

自动化机器学习技术

机器学习最近在许多应用领域取得了长足的进步,这促成了对机器学习系统的不断增长的需求,并希望机器学习系统可以被新手快速地熟悉并使用。相应地,越来越多的商业企业推出产品旨在满足这种需求。这些服务需要解决的核心问题是:在给定数据集上使用哪种机器学习算法、是否以及如何预处理其特征以及如何设置所有超参数。这即是自动化学习(AutoML)企图解决的问题。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~