百度亮相NeurIPS 首届Expo:向世界科普了一次中国自动机器学习框架

在 NeurIPS 的第一届 Expo 上,百度向 NeurIPS 2018 年大会参与者展现了什么?

近日,国际人工智能顶级会议 NeurIPS 2018 在加拿大蒙特利尔开幕。今年,除了更改了会议名称缩写,与往届 NIPS 还有所不同的是增加了面向产业的 Expo,以 Talk&Panel、Workshop、Demonstration 的形式展现产业界人工智能研究成果。

百度作为国内最早投身 AI 领域的科技巨头,今年不仅数篇学术论文入选 NeurIPS 2018,百度大数据实验室于当地时间 12 月 2 日组织了一场主题为《Common Model Infrastructure》的 Workshop,邀请了来自谷歌、微软、XPrize 的研究者,就自动机器学习这一专题进行分享,百度方面也介绍了自己在这方面的研究成果。

在 Keynote 演讲中,百度大数据实验室主任浣军就百度自动深度学习的技术进展 AutoDL 做了分享。百度深度学习技术平台部总监马艳军介绍了 2016 年百度开源的深度学习框架 PaddlePaddle,及其产业化应用。

百度打造自动化深度学习引擎 AutoDL

2015 年 ResNet 的出现使得深度学习架构的层数和参数数量暴增,这给研究员搭建和调试优化模型带来了巨大的挑战。自动化机器学习技术能大幅度地减少研究员搭建模型的时间,也为那些缺乏深度学习技能的研究团队提供了一个可以搭建定制化模型的平台。

百度在今年 7 月举办的 AI 开发者大会上首次提出 AutoDL 1.0,利用深度学习来设计深度学习网络架构,并于四个月后的百度世界大会上推出 AutoDL 2.0,进一步完善其功能。浣军表示,百度提出 AutoDL 的目的是希望通过开放、普惠的人工智能让更多中小企业同样能享受到人工智能的红利。

在演讲中,浣军详细介绍了 AutoDL 的设计特色和现有能力。AutoDL 主要由三个部分组成:第一部分是模型设计,即自动化机器学习的神经架构设计方法;第二部分是模型适配,即神经网络如何根据不同的任务目标和硬件设备生成与之适配的模型;第三部分模型迁移,即将预训练好的模型架构应用在特定的小数据集上。

首先是模型设计。和市面上已有的产品相比—包括谷歌的 Cloud AutoML、微软的 Custom Vision Services、亚马逊Amazon ML、Salesforce 的 TransmogrifAI —AutoDL 从功能上更完整,能实现包括神经网络结构搜索、自动模型选择、和自动参数调整等功能,AutoDL 设计效果也居于业内前列。

AutoDL 的搜索方法主要基于深度强化学习,从头开始搜索神经网络架构,即神经架构搜索。AutoDL 的设计架构中,存在一个「模型编码器」和「模型测评器」。「模型编码器」是一个循环神经网络,将构建架构的模块组合在一起获得一个新的网络架构。「模型测评器」训练这个架构并且希望模型架构能够收敛,最后获得新的准确率会作为奖励反馈给「模型编码器」。通过这种循环,AutoDL 相比人工搭建与调试能获得性能更好的模型。

浣军强调说,为了解决自动化机器学习的设计过程所出现过拟合问题,百度的研究员使用了一组正则化方法,包括混合(mix-up)和摇摇(shake-shake),并且开发了基于 Rademacher 复杂度的正则化,来保证泛化能力。以下是实验结果。

其次是模型适配。人工智能应用不只是在云端,如何让庞大的、复杂的深度学习模型在边缘计算以及终端计算上发挥作用,保证模型推理准确性的同时减少模型的规模以适配算力和内存较小的硬件设备,已经成为人工智能技术提供商的主要挑战。今年,模型压缩和自动化机器学习两个领域的交叉研究是工业界热议的话题(可参见机器之心过去报道的韩松和李佳的研究)。

浣军以图像分类物体识别问题举例,百度实现了文献中的最新进展 3D-FilterMaps。相比于传统卷积层中的一组独立过滤器(Filter),从 3D - FilterMap 中提取的过滤器作为重叠的 3D 子矩阵,相邻过滤器之间的权重共享。由于权重共享,当 3D - FilterMap 生成相同数量的过滤器时,其参数大小比传统卷积层中要学习的滤波器小得多。3D-FilterMaps 的主要作者现在是百度大数据实验室的研究员。

实验证明,在 CIFAR-10 数据集上,压缩后的 ResNet-50 模型在参数数量只有 1/6 的情况下,准确率竟然还提升了 0.04%;压缩后的 DenseNet121 在参数数量只有 1/5 的情况下,准确率只降低了 0.03%。 

最后是模型迁移。将预训练好的模型应用在特定的小数据集上是目前主要的迁移方法,它能高效快速地完成部分权重的训练。由于性能受到了特定数据集大小的限制,目前业内已经研究了一些正则化方法,用 SPAR(起点作为参考)来约束目标网络的外层权重

百度大数据实验室的研究员提出了一种新的正则化转移学习框架—Deep Learning Transfer Using Feature Map With Attention (DELTA),旨在保留目标网络的外层输出,而不是约束神经网络权重。除了最小化经验损失之外,DELTA 还可以通过约束由注意力机制精确选择的特征图的子集来对齐两个网络的外层输出。实验结果表明,该方法在新任务中(包括家具分类、商品搜索分类、重叠细胞分类等)实现了更高的准确率,优于传统的基准水平。该论文已经递送至 ICLR 2019 。

在和机器之心的交流中,浣军表示,内部应用和外部产业是 AutoDL 的实际应用场景。内部应用有百度零基础定制化训练和服务平台 Easy DL,一站式开发平台 AI Studio,以及可视化大数据分析与开发环境 Jarvis;外部产业运用则有例如工业质量检测,医疗健康管理等。

自动化机器学习还有很长的路要走,目前刚刚处于研发落地的阶段。浣军表示,百度将在未来重点关注深度神经网络本身的不透明、以及自动设计或会带来的不易解释性。

百度深度学习技术平台部总监马艳军在 Workshop 中也同期做了主题演讲。他介绍了 2016 年百度开源的深度学习框架 PaddlePaddle,以及它在产业向的应用。

面向企业与开发者的深度学习平台 PaddlePaddle

2016 年,百度开源 PaddlePaddle 框架,成为国内科技巨头最早开源的深度学习框架。如今经过两年的发展,百度 PaddlePaddle 已经走向成熟,成为适合中国开发者和企业的深度学习工具。

今年 7 月,百度开发者大会正式发布了深度学习平台 PaddlePaddle 3.0,其中开源的新一代深度学习框架 Paddle Fluid 也在不久前更新到了成熟的 1.1.0 版本。马艳军在演讲中向 NeurIPS 2018 参会者介绍了以深度学习框架为核心的套件 PaddlePaddle Suite,它为开发者(或非开发者)提供了完整的深度学习开发流程。如下所示 PaddlePaddle Suite 自底向上提供了核心框架、模块和服务平台「三大件」。

马艳军表示,该套件从数据预处理到模型部署为深度学习的整个开发和应用流程提供了完整的工具。其中核心框架是从头构建模型的基础,具有安全、高效、表现稳定的特性。而模块与组件可以帮助快速训练与试验模型。

他在研讨会中介绍道,现如今各行各业都在尝试运用人工智能,PaddlePaddle Suite 最顶层的服务平台会为开发者提供整体流程支持,在他看来,互联网产业对于人工智能的采用最多。然而,其他产业在相对缺乏专业人才的情况下,EasyDL 可以为完全没有基础的用户提供自动化的机器学习模型。AI Studio 提供了各种竞赛教程与免费 GPU 资源;今年百度 7 月份公布的 Auto DL 可通过网络结构自动化设计技术让更多中小企业运用 AI。

马艳军在接受机器之心专访时曾表示过,「套件中服务平台、核心框架、模块及组件三部分都是相互有联系的,模块与组件都是依托核心框架所做的工具,而平台是基于核心框架与组件所搭建的系统。例如在组件中,Visual DL 能可视化整个训练和测试过程,包括损失函数的变化、模型计算图和中间生成的图像等。而 PARL 是深度强化学习框架性质的组件,它相当于提供了一套强化学习模型、算法和函数等,这些都还是基于核心框架的。」

此外对于 PaddlePaddle 在技术上的优势,马艳军表示其主要体现在官方模型支持、移动端推理加速和超大规模并行训练三方面。在官方模型支持上,Paddle 针对推荐系统、视觉任务和自然语言处理等领域维护了大量优秀且稳定的模型。官方支持不仅表示这些模型是没问题的,同时还表示不论怎样更新 PaddlePaddle,不论在什么环境下,这些模型也都是跑得动的。

在移动端加速方面,马艳军表示 Paddle Mobile 对移动端硬件的支持基本上是所有框架中最完整的,且现在已经支持最主流的 90% GPU。最后,PaddlePaddle 还在超大规模的并行深度学习上有显著特色,对超大规模稠密参数和稀疏参数场景都进行了完善的支持,包括大规模异构计算集群、异步训练和同步训练模式、以及千亿级稀疏特征任务在数百个节点的并行训练。

此次 Workshop 是百度大数据实验室主任浣军博士与圣地亚哥超算中心资深研究员 Dr. Chaitan Baru 共同组织的。Workshop 演讲嘉宾还包括 Google Brain 资深算法工程师 Mr. Quentin de Laroussilhe, Microsoft 资深数据工程师 Mr. Olivier D. Martin,和 XPrize 总经理 Dr. Amir Banifatemi。

小结

除了在 NeurIPS Expo 展会环节组织了一场产学研讨会,作为本届大会的白金赞助商,百度在为期一周的 NeurIPS 2018 大会上还有诸多技术展示。据机器之心了解,今年百度有数篇论文被 NeurIPS 2018 接收,其中一篇为 Spotlight(3.5%)。此外,在 12 月 2 日的 Expo 中,百度还 demo 演示了他们最新的中英同传技术。在 Booth 展示中,除了中英同传技术,百度还向参会者呈现了用于检测眼底疾病的 AI 眼底相机。

本届NeurIPS上正在积极地释放着信号:加快人工智能技术落地。产业展会大厅里络绎不绝的人群,正能让我们一窥人工智能愈发宽广的产业落地与应用。

工程PaddlePaddleNIPS 2018NIPS百度
1
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
李佳人物

李佳,此前曾任谷歌云机器学习/人工智能研发负责人(Head of R&D, AI/ML, Senior Director at Cloud,Google)。本科毕业于中国科大自动化系。新加坡南洋理工大学硕士。在伊利诺伊大学香槟分校、普林斯顿大学与斯坦福大学跟随李飞飞从事计算机视觉研究。2011 年获斯坦福大学计算机科学博士。曾在谷歌实习,2011 年加入雅虎,2014 年成为雅虎资深研究员,开始领导雅虎实验室的视觉计算和机器学习部门。2015 年 2 月,Snapchat 聘请李佳担任公司研发主管。2016 年加入谷歌。2018年11月从谷歌离职,全职参与斯坦福医学院智能医院项目。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

边缘计算技术

边缘运算(英语:Edge computing),又译为边缘计算,是一种分散式运算的架构,将应用程序、数据资料与服务的运算,由网络中心节点,移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户终端装置,可以加快资料的处理与传送速度,减少延迟。在这种架构下,资料的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

密集型连接网络技术

Gao Huang等研究者提出了DenseNet,该论文获得了CVPR 2017的最佳论文。DenseNet的目标是提升网络层级间信息流与梯度流的效率,并提高参数效率。它也如同ResNet那样连接前层特征图与后层特征图,但DenseNet并不会像ResNet那样对两个特征图求和,而是直接将特征图按深度相互拼接在一起。DenseNet最大的特点即每一层的输出都会作为后面所有层的输入,这样最后一层将拼接前面所有层级的输出特征图。这种结构确保了每一层能从损失函数直接访问到梯度,因此可以训练非常深的网络。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

自动化机器学习技术

暂无评论
暂无评论~