Lin Yuan专栏

深度学习框架简史:TF和PyTorch双头垄断,未来十年迎来黄金时期

当前,各式各样深度学习框架的发展充分赋能机器学习,尤其是深度学习领域,为开发者提供了极致便利。在本文中,Waymo 软件工程师 Lin Yuan 细数了二十一世纪以来深度学习框架的发展历程,并划分为了石器、青铜、铁器、罗马和工业化时代。

过去十年,机器学习(尤其是深度学习)领域涌现了大量算法和应用。在这些深度学习算法和应用涌现的背后,是各种各样的深度学习工具和框架。它们是机器学习革命的脚手架:TensorFlow 和 PyTorch 等深度学习框架的广泛使用,使得许多 ML 从业者能够使用适合的领域特定的编程语言和丰富的构建模块更容易地组装模型。

回顾深度学习框架的演变,我们可以清楚地看到深度学习框架和深度学习算法之间的紧密耦合关系。这种相互依赖的良性循环推动了深度学习框架和工具的快速发展。

By Nationalmuseet, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=90400464

石器时代(21 世纪初)

神经网络的概念已经出现一段时间了。在 21 世纪初之前,有一些工具可以用来描述和开发神经网络。这些工具包括 MATLAB、OpenNN、Torch 等,它们要么不是专门为神经网络模型开发定制的,要么拥有复杂的用户 api,缺乏 GPU 支持。在此期间,ML 实践者在使用这些原始的深度学习框架时不得不做很多繁重的工作。

By Nationalmuseet, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=90400464

青铜时代(~2012 年)

2012 年,多伦多大学的 Alex Krizhevsky 等人提出了一种深度神经网络架构,后来被称为 AlexNet[1],该架构在 ImageNet 数据集上达到了 SOTA 精度,并大大超过了第二名的选手。这一出色的结果引发了深度神经网络的热潮,此后各种深度神经网络模型在 ImageNet 数据集的准确性上不断创下新高。

大约在这个时候,一些早期的深度学习框架,如 Caffe、Chainer 和Theano 应运而生。使用这些框架,用户可以方便地建立复杂的深度神经网络模型,如 CNN、RNN、LSTM 等。此外,这些框架还支持多 GPU 训练,这大大减少了对这些模型的训练时间,并且能够对以前无法装入单一 GPU 内存的大型模型进行训练。在这些框架中,Caffe 和 Theano 使用声明式编程风格,而 Chainer 采用命令式编程风格。这两种不同的编程风格也为即将到来的深度学习框架设定了两条不同的开发路径。

Nordisk familjebok — Nordisk familjebok (1910), vol.13, Till art. Järnåldern. https://commons.wikimedia.org/w/index.php?curid=109777

铁器时代(2015 ~ 2016)

AlexNet 的成功引起了计算机视觉领域的高度关注,并重新点燃了神经网络的希望,大型科技公司加入了开发深度学习框架的行列。其中,谷歌开源了著名的 TensorFlow 框架,它至今仍是 ML 领域最流行的深度学习框架。Caffe 的发明者加入了 Facebook 并发布了 Caffe2;与此同时,Facebook AI 研究(FAIR)团队也发布了另一个流行的框架 PyTorch,它基于 Torch 框架,但使用了更流行的 Python api。微软研究院开发了 CNTK 框架。亚马逊采用了 MXNet,这是华盛顿大学、CMU 和其他机构的联合学术项目。TensorFlow 和 CNTK 借鉴了 Theano 的声明式编程风格,而 PyTorch 则继承了 Torch 的直观和用户友好的命令式编程风格。命令式编程风格更加灵活(比如定义一个 While 循环等)并且容易跟踪,而声明式编程风格通常为内存和基于计算图的运行时优化提供了更多的空间。另一方面,被称为「mix」-net 的 MXNet 同时支持一组符号(声明性)api 和一组命令式 api,并通过一种称为杂交(hybridization)的方法优化了使用命令式 api 描述的模型的性能,从而享受了这两个领域的好处。

2015 年,何凯明等人提出了 ResNet[2],再次突破了图像分类的边界,在 ImageNet 的准确率上再创新高。业界和学界已经达成共识,深度学习将成为下一个重大技术趋势,解决各种领域的挑战,这些挑战在过去被认为是不可能的。在此期间,所有深度学习框架都对多 GPU 训练和分布式训练进行了优化,提供了更加用户直观的 api,并衍生出了专门针对计算机视觉自然语言处理等特定任务的 model zoo 和工具包。还值得注意的是,Francois Chollet 几乎是独自开发了 Keras 框架,该框架在现有框架(如 TensorFlowMXNet)之上提供了神经网络和构建块的更直观的高级抽象。从今天开始,这种抽象成为 TensorFlow 中模型层面事实上的 api。

By User Lamré on sv.wikipedia https://commons.wikimedia.org/w/index.php?curid=801434

罗马时代(2019 ~ 2020)

正如人类历史的发展一样,深度学习框架经过一轮激烈的竞争,最终形成了两大「帝国」:TensorFlow 和 PyTorch 的双头垄断,这两大「帝国」代表了深度学习框架研发和生产中 95% 以上的用例。2019 年,Chainer 团队_将他们的开发工作转移到 PyTorch;类似地,微软_停止了 CNTK 框架的积极开发,部分团队成员转而支持 Windows 和 ONNX 运行时上的 PyTorch。Keras 被 TensorFlow 收编,并在 TensorFlow 2.0 版本中成为其高级 api 之一。在深度学习框架领域,MXNet 仍然位居第三。

在此期间,深度学习框架空间有两种趋势。首先是大型模型训练。随着 BERT[3] 的诞生,以及它的近亲 GPT-3[4] 的诞生,训练大型模型的能力成为了深度学习框架的理想特性。这就要求深度学习框架能够在数百台(如果不是数千台的话)设备的规模下有效地进行训练。第二个趋势是可用性。这一时期的深度学习框架都采用命令式编程风格,语义灵活,调试方便。同时,这些框架还提供了用户级的装饰器或 api,以通过一些 JIT(即时)编译器技术实现高性能。

By Tharunbr77 — Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=86866550

工业时代(2021+)

深度学习在自动驾驶、个性化推荐、自然语言理解到医疗保健等广泛领域取得了巨大成功,带来了前所未有的用户、开发者和投资者浪潮。这也是未来十年开发深度学习工具和框架的黄金时期。尽管深度学习框架从一开始就有了长足的发展,但它们之于深度学习的地位还远远不如编程语言 JAVA/ c++ 之于互联网应用那样的成熟。还有很多令人兴奋的机会和工作有待探索和完成。

展望未来,有几个技术趋势有望成为下一代深度学习框架的主流:

  • 基于编译器的算子(operator)优化。如今,许多操作符内核都是通过手动或第三方库实现的,比如 BLAS、CuDNN、OneDNN 等,这些库针对特定的硬件平台。当模型被训练或部署在不同的硬件平台上时,这会造成很大的开销。此外,新的深度学习算法的增长速度往往比这些库的迭代速度快得多,这使得这些库常常不支持新的算子。深度学习编译器,如 Apache TVM、MLIR、Facebook Glow 等,已经提出了在任何硬件后端上有效优化和运行计算的建议。它们可以作为深度学习框架的整个后端。

  • 统一的 API 标准。许多深度学习框架共享类似但略有不同的用户 api。这给用户从一个框架切换到另一个框架带来了困难和不必要的学习曲线。虽然大多数机器学习从业者和数据科学家都熟悉 NumPy库,但在新的深度学习框架中,NumPy API 自然会成为 tenor 操作 API 的标准。我们已经看到快速发展的框架 JAX 受到了用户的热烈欢迎,它的 api 完全与 NumPy 兼容。

  • 数据搬运作为一等公民。多节点或多设备训练正在成为深度神经网络训练的规范。最近开发的深度学习框架,如  OneFlow,从设计的第一天起就将这一观点纳入设计考虑,并将数据通信视为模型训练的整体计算图的一部分。这为性能优化打开了更多的机会,而且由于它不需要像以前的深度学习框架那样维护多种训练策略(单设备 vs 分布式训练),因此除了提供更好的性能之外,它还可以提供更简单的用户界面。

总结

我们正处于一场人工智能革命的黎明。人工智能领域的新研究和新应用正在以前所未有的速度涌现。八年前,AlexNet 网络包含 6000 万个参数,最新的 GPT-3 网络包含 1750 亿参数,网络规模在 8 年内增加了 3000 倍!另一方面,人类的大脑包含大约 100 万亿个参数(即突触)。这表明,如果有可能的话,神经网络要达到人类的智能水平还有很大的差距。

这种难以接受的网络规模对模型训练和推理的硬件和软件计算效率都提出了很大的挑战。未来的深度学习框架很可能是算法、高性能计算、硬件加速器和分布式系统的跨学科成果。

作者简介

Lin Yuan是Waymo的一名资深软件工程师。他为自动驾驶汽车感知规划任务开发了机器学习平台。在加入Waymo之前,他曾在Amazon AI从事大规模分布式学习。他是Apache深度学习框架MXNet和LFAI分布式学习库Horovod的代码提交者和主要贡献者。

在从事AI领域的工作之前,他在VLSI设计和自动化方面积累了丰富的经验。他曾担任ICCAD会议的设计自动化会议和技术程序委员会(Design Automation Conference and Technical Program Committee)主席。他获得了马里兰大学帕克分校的计算机工程博士学位。

[1] Alex Krizhevsky et al., ImageNet Classification with Deep Convolutional Neural Networks (2012), NeurIPS 2012

[2] Kaiming He et al., Deep Residual Learning for Image Recognition (2016), CVPR 2016

[3] Jacob Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)

[4] Tom B. Brown et al., Language Models are Few-Shot Learners (2020), NeurIPS 2020

[5] Announcing the Consortium for Python Data API Standards (2020)

链接:https://syncedreview.com/2020/12/14/a-brief-history-of-deep-learning-frameworks/

入门深度学习框架发展历程TensorFlowPyTorch
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
Waymo机构

Waymo是Alphabet公司(Google母公司)旗下的子公司,专注研发自动驾驶汽车,前身是Google于2009年开启的一项自动驾驶汽车计划,之后于2016年独立。2017年10月,Waymo开始在美国亚利桑那州的公开道路上试驾。2018年12月,Waymo在凤凰城郊区推出了首个商业自动乘车服务Waymo One。

http://www.waymo.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习曲线技术

在机器学习领域,学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

MXNet技术

MXNet是开源的,用来训练部署深层神经网络的深度学习框架。它是可扩展的,允许快速模型训练,并灵活支持多种语言(C ++,Python,Julia,Matlab,JavaScript, Go,R,Scala,Perl,Wolfram语言)

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

OneFlow机构

一流科技是一家集生产、 研发和销售为一体的创新型人工智能领域创业公司。主营产品是具有完全自主知识产权的分布式深度学习框架OneFlow,同时也提供集算力算法、数据管理于一体的一站式的机器学习平台。OneFlow支持进行大规模分布式训练,支持市场主流硬件芯片和算法。作为企业级人工智能深度学习引擎,OneFlow支持私有云部署和公有云部署,可通过软件平台提供线上自动化的模型训练服务,也可提供定制化的一站式人工智能解决方案。公司创始人为袁进辉,清华大学博士、博士后,师从中国人工智能泰斗张钹院士,研究方向为计算机视觉及机器学习

https://www.oneflow.org
相关技术
推荐文章
暂无评论
暂无评论~