英特尔今天宣布推出开源 BigDL,一个用于 Apache Spark 开源集群计算框架的分布式深度学习库。
深度学习库是英特尔公司在行业中实现最先进的人工智能战略的一部分。在去年 11 月宣布的公司战略,详细介绍了英特尔所做的工作——通过旗下的人工智能学院(Intel® Nervana™)使人工智能训练和工具被更广泛的开发人员所获取。
BigDL 具有基于 Spark 架构的高效大规模分布式深度学习库,使大数据用户和数据科学家更容易获得深度学习。BigDL 使得 AI 专家能够像在数百个领域的数千个应用程序中工作的数据科学家一样研究数据。
BigDL 还可以作为用于数据存储、处理和挖掘、特征工程以及机器和深度学习工作量等的统一数据分析平台(Hadoop / Spark)。它允许开发人员将深度学习应用程序编写为在现有 Spark 或 Hadoop 集群之上运行的标准 Spark 程序,以使深度学习工作量与他们使用的数据更直接地接触。BigDL 已经在 Databricks Spark 平台上运行。
英特尔软件与服务部高级副总裁兼总经理 Doug Fisher 说:「BigDL 是一个开源项目,我们鼓励所有开发人员在 BigDL Github 上与我们联系,采样代码并为项目做出贡献。」
BigDL:在 Apache Spark 上的分布式深度学习
BigDL 是一个为 Apache Spark 而建的分布式深度学习库;通过 BigDL,用户能够以标准的 Spark 程序编写深度学习应用,并能直接在现有的 Spark 或 Hadoop 集群上运行。
丰富的深度学习支持。BigDL 是在 Torch 之后搭建的模型,为深度学习提供全面支持,包括经由 Tensor 的数字计算和高级神经网络;此外,用户还可以通过使用 BigDL 把 Caffe 或 Torch 里预训练的模型加载到 Spark 程序中。
极其完美的运行表现。为了获取非常好的运行表现,在每个 Spark 任务中 BigDL 使用因特尔 MKL 和多线编程。因此,在单个节点的至强(Xeon,与主流 GPU 比较)处理器上的处理比即用部署的开源框架 Caffe、Torch 以及 TensorFlow 有量级上的提升。
高效的横向扩展性能。BigDL 能高效的进行横向扩展从而实现大数据的数据分析,通过发布 Apache Spark(快如闪电般的分布式数据处理框架),以及 Spark 上有效实施的同步 SGD 和全局归约交流机制。
为什么是 BigDL?
你也许想用 BigDL 写一些深度学习程序如果:
你想要在存储数据(例如 HDFS,HBase,Hive 等)的相同大数据(Hadoop / Spark)集群上分析大量数据。
你想要为你的大数据(Spark)程序和/或工作流程添加深度学习功能(训练或预测)。
你想要利用现有的 Hadoop / Spark 集群来运行深度学习应用程序,然后可以与其他工作量(例如 ETL、数据仓库、特性工程、经典机器学习、图形分析等)动态共享。
怎样使用 BigDL?
想学习如何安装和搭建 BigDL(Linux 和 macOS 上的安装),你可以查阅构建文档(Build Page)。链接:https://github.com/intel-analytics/BigDL/wiki/Build-Page
想学习如何运行 BigDL 程序(运行一个局部 Java 程序或者 Spark 程序),你可以查阅开始指导页面(Getting Started Page)。链接:https://github.com/intel-analytics/BigDL/wiki/Getting-Started
想在 EC2 上尝试使用 BigDL,你可以查阅在 EC2 上运行的页面(Running on EC2 Pages)。链接:https://github.com/intel-analytics/BigDL/wiki/Running-on-EC2
想在几分钟内学到如何通过 BigDL 创建实用的神经网络,你可以查阅教程页面(Tutorial Page)。链接:https://github.com/intel-analytics/BigDL/wiki/Tutorials
更多细节内容,可以在说明文档中查阅(Documents Page),说明文档包含教程、范例、编程指南等内容。链接:https://github.com/intel-analytics/BigDL/wiki/Documents
支持
你可以加入 BigDL 谷歌网上论坛(https://groups.google.com/forum/#!forum/bigdl-user-group)(或订阅邮件列表:bigdl-user-group+subscribe@googlegroups.com)以获得更多关于 BigDL 的问题和讨论。
你可以在问题页面上发布错误报告和功能请求。
GitHub 资源:https://github.com/intel-analytics/BigDL