一鸣报道

Netflix开源Polynote:对标Jupyter,一个笔记本运行多种语言

使用类似 Jupyter Notebook 进行数据分析和机器学习是近来较为方便灵活的开发方式,但是 Jupyter Notebook 缺乏对多种语言的原生支持,在管理笔记本内的依赖、数据可视化等方面有所欠缺。近日,NetFlix 公司将其数据分析和机器学习开发工具 Polynote 开源。这一工具支持多语言在一个笔记本程序内运行,还增加了很多新特性,值得读者朋友尝试使用。

谈到数据科学领域的开发工具,Jupyter 无疑是非常知名的一种。它具有灵活高效的特点,非常适合进行开发、调试、分享和教学。近日,Netflix(奈飞)居然也玩起了跨界,他们开源了一个名为 Polynote 的程序。类似于 Jupyter,Polynote 可以进行开发工作,但是能够支持包括 Python 在内的多种编程语言。

据奈飞在 Medium 的文章中介绍,Polynote 开发的目的是为了给数据科学家和机器学习研究者提供一个笔记本环境,使他们能够自由且无缝地和奈飞本身基于 JVM 的机器学习平台结合。这一平台很大程度上使用的是 Scala 语言,还有一些基于 Python 的机器学习和可视化代码库。Polynote 之前已经在奈飞内部的团队中使用了,现在他们希望将其开源,以促进相关研究的发展。

Polynote 的五大特性

据介绍,Polynote 有五个特性值得关注。

支持多语言

Jupyter Notebook 不同,Polynote 本身支持多种语言编程。除了对 Scala 语言的一级支持,Polynote 还在一个笔记本内支持多语言运行,包括 Scala、Python、SQL 和 Vega,而且这些语言都具备自动补全功能。

实现多语言支持的是 polyglot。它可以让用户在不同的块中写不同的代码。另外,每个代码块都会接受符合输入名的变量,并返回要求的变量给出下一段代码,不管这些代码是什么样的语言。这样可以让用户按照需要选择某种语言中最合适的工具。

polyglot 支持多种语言一起运行。

编辑功能增强

除了和 Jupyter Notebook 一样可以在代码编辑中插入文本编辑,Polynote 可以很容易地插入 LaTex 公式。

另外,文本编辑方面有常用的编辑功能。

运行增强

在运行的时候,运行的代码块和代码行会显示出来,方便开发者查看运行情况。

如图所示,Polynote 在运行时会显示当前运行的代码块和代码,以及完成某个任务需要的时间。

依赖和配置管理

Polynote 支持对笔记本的依赖和配置进行管理,这样可以避免很多运行时的问题。

如上图所示,polynote 的配置和依赖管理界面类似于 PyCharm 等高级 IDE,可以自行改变各种依赖的版本和安装方法。和 Jupyter Notebook 不同,这些配置是不需要外部文件或集群服务器进行的。

数据可视化

Polynote 和两个非常著名的数据可视化工具进行了结合,它们分别是 Vega 和 Mataplotlib。Polynote 同时也对数据挖掘有着天然支持,这包括数据表视图、表格检查工具、图表构建工具,以及对 Vega 的支持。

数据位置有一个按钮,可以展示图表。

通过工具构建图表。

此外,Polynote 还有一些有趣的小特性,如将代码块的位置记录,使得代码库能够按照顺序运行,以保证可复现性。

安装方法

目前,Polynote 是一个 notebook 程序,因此用户可以在本地使用,或搭建网络服务。

首先,用户需要下载这一基于 JVM 的服务器应用(用来提供网络服务代理)。如果要在本地环境下使用,用户可以从开源列表中找到最新版本并下载名为「polynote-dist.tar.gz」的文件(文件可以从 Assets 文件下找到)。

tar -zxvpf polynote-dist.tar.gz
cd polynote

下载后进入目录,然后进行准备。

准备内容目前有以下一些:

  • Polynote 只在 OSX 和 Linux 进行了测试,用 Chrome 浏览器进行代理,因此作者们希望用户能够及时反馈意见;

  • 如果用户需要 Spark 支持,则需要安装 Apache Spark;

  • 用户需要使用 Python3,而不是 Python2。

还有一些其他的依赖,安装代码如下:

pip3 install jep jedi pyspark virtualenv

如果要进行配置,用户需要拷贝 config-template.yml 文件到 config.yml 文件中,并取消需要修改的配置上的注释功能。

运行时,运行以下文件(在下载的文件中):

./polynote.py

参考链接:

https://medium.com/netflix-techblog/open-sourcing-polynote-an-ide-inspired-polyglot-notebook-7f929d3f447

https://github.com/polynote/polynote

官网:https://polynote.org (https://polynote.org/)

入门NetflixPolynote程序开源
1
相关数据
数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

Jupyter技术

Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。 Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等 。

数据可视化技术

数据可视化被许多学科视为现代视觉传达的等价物。为了清晰有效地传递信息,数据可视化使用统计图形、图表、信息图和其他工具。数字数据可以使用点、线或条编码,以视觉传达定量消息。有效的可视化帮助用户对数据进行分析和推理。它使复杂的数据更容易理解和使用。用户可以根据特定的分析任务进行数据可视化,例如进行比较或理解因果关系,并且图形的设计原则(即,显示比较或显示因果关系)来进行可视化。表通常用于用户查找特定测量的地方,而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。

推荐文章
暂无评论
暂无评论~