路、思、一鸣报道

在白板上写写画画,集成AutoML的数据分析也能如此简单

近年来,尽管PowerBI等数据分析产品已经降低了企业进行数据分析的门槛,但从事数据分析仍需要相当的经验和技能。近日,MIT和布朗大学联合团队开发了一款交互式数据科学分析系统。通过集成AutoML等先进技术,系统可以帮助非专业人士在触控屏上进行直接的数据可视化和动态分析,甚至可以在数据科学家和非专业人士之间的实现多人协作。

在《钢铁侠》系列电影中,托尼·史塔克用全息投影显示三维数据,用手进行拖拽调整,然后解决超级英雄遇到的问题。现在,MIT 和布朗大学的研究者合作开发了一个交互式数据分析系统,该系统可以在触摸屏上运行,所有人(不仅仅限于托尼那样的天才亿万富翁)都可以使用数据分析解决现实世界问题。

研究人员用数十年开发出了这款名为「北极星」(Northstar)的交互式数据科学系统。系统在云上运行,但是它的用户界面支持多种触摸屏设备,包括智能手机和大型交互式白板。用户将数据集输入系统,然后在用户友好的交互界面上进行操作、合并、特征提取。他们可以使用手指或者电子笔,在分析中发现趋势和规律。

Northstar 网址:http://northstar.mit.edu/

Vizdom demo:vimeo.com/139165014

普惠式数据分析系统

由于北极星系统的可视化拖拽特性,据北极星项目负责人 Tim Kraska 的介绍,这一系统可以使不了解数据科学的咖啡馆店长预测未来几周的销售额,从而决定咖啡的进货量。

北极星系统还可以对多种数据类型进行处理和预测。例如,对于医生来说,北极星系统可以帮助他们预测病人得某种疾病的可能性,企业则可能更关注销售额数据,而北极星也可以实现销售额趋势的预测。

此外,北极星系统可以在触摸屏上交互运行,这使得多人协作成为可能。在雇佣了数据科学家的企业中,专家和非专家的沟通成本较高。但是如果有北极星系统支持,各个部门的人可以一起开会并参与数据分析工作,形成完整的协作。

拖拽协作,图表即有

那么,北极星系统的工作方式是什么样子呢?

首先,初始化的北极星系统是一个黑白界面。用户可以将数据集上传到系统中。在左侧则会出现一个「datasets」方框。任何数据标签都会自动出现在下方的「attributes」方框内。这里同时会出现一个「operators」方框,包括多种算法和新型 AutoML 工具。所有的数据都会在云上进行分析存储。

之后,用户可以从数据集或属性方框中拖拽出需要可视化的数据部分,并展示在触摸屏上,白板的范围可任意扩展。

用于数据分析的面板是无边界的,只要滑动就能获得新的空白面板。

更巧妙的是,拖拽出来的单个图表可以和其他图表进行联合分析,如图:

通过拖拽数据图表即可分析,也可以将多个图表拖拽到一起,实现联合分析和可视化。

这些看起来好像都是简单的「Excel」级操作,用来做数据分析是不够的?在北极星系统中,其实还隐藏可视化分析的一个重要组件——可视化数据科学家(VDS)。

该组件可快速生成机器学习模型,用于对数据集的预测工作。使用 VDS,用户可以使模型根据任务进行定制化,从而对数据进行预测性分析,这些任务包括数据预测、图像分类或者分析复杂的图结构。

医疗数据分析

上图示例展示了,医疗研究者想要基于数据集的所有特征预测哪些病人可能患有血液疾病。他们从算法列表中拖拽出「AutoML」。它首先生成一个具备「target」tab 的空白文本框,研究人员将「blood」特征拖拽到「target」下面。VDS 系统可以自动找到性能最好的机器学习 pipeline,呈现为准确率经常更新的 tab。用户可以在任何时候停止该过程,改进搜索结果,并检测每个模型的误差率、结构、计算等。

AI 加持,北极星大显身手

正如上面动图所示,VDS 通过简单的拖拽就完成机器学习建模。最近,关于 VDS 的研究将发表在 ACM SIGMOD 上,它详细地描述了这一灵魂性的模块。

VDS 主要基于一种非常流行的人工智能技术,即自动机器学习(AutoML)算法。通过 AutoML,即使是数据科学小白也能快速构建机器学习模型,并基于它们自己的数据集完成训练与预测。

在 VDS 采用的 AutoML 中,研究者展示了一种交互式的自动机器学习工具。这令整个 VDS 不仅关注交互式,同时还能集成系统设计与算法设计方法。研究者表示该 AutoML 系统主要利用了 Query Optimization 的核心思想,同时还设计了一种新型选择与剪枝策略,从而结合了基于成本的多臂老虎机与贝叶斯优化方法。

这篇 AutoML 论文主要来自 VDS 的研究者,一作尚泽远是 MIT CSAIL 实验室的博士研究生,他本科毕业于清华大学。希望了解更多模型细节的读者可查阅原论文。

论文地址:https://dl.acm.org/citation.cfm?id=3319863

整个北极星系统都是 MIT 和布朗大学的研究者花了数年完成的。在过去的 4 年中,除了上面介绍的 AutoML 论文,研究者还发表了一系列相关论文,从而具体描述该系统的每一个模块。包括交互式界面、多平台操作系统、加快推断速度和建模用户行为等等。

虽然北极星系统看上去很容易使用,但这种大系统有很多复杂的组件,很多都不仅仅只是机器学习算法。但不管怎么说,如果想要北极星能自己学习数据相关的「知识」,AutoML 还是处于核心地位。

更快更优的核心:AutoML

VDS 创造者认为,VDS 是目前最快的交互式 AutoML 工具,部分原因在于其具备定制化的「估计引擎」(estimation engine)。该引擎位于界面和云存储之间,它自动创建数据集的多个代表性样本(这些样本可被渐进式地处理),从而在几秒钟内生成高质量的结果。

尚泽远表示,他用了两年时间和其他合著者一道设计可以模拟数据科学家思维的 VDS,这意味着 VDS 能够基于多种编码规则,针对特定任务立刻识别需要运行的模型和处理步骤。VDS 首先从大量可能的机器学习 pipeline 中做出选择,然后在样本集上运行模拟,从而记住结果并改进 pipeline 选择。在提供快速逼近的结果后,VDS 系统在后端改进结果。

如下所示为从输入数据到输出预测的一个物理 Pipeline,其中每一个物理 Pipeline 都是通过贝叶斯优化从逻辑 Pipeline 生成的。

Pipeline 示例:其中左边红色框为固定的超参数,它们将通过该有向无环图组成物理 Pipeline;右边绿色框为超参的分布,它们将通过该有向无环图组成逻辑 Pipeline。

研究者在 300 个真实数据集上评估了该工具。与其他当前最优 AutoML 系统相比,VDS 近似结果具备同样的准确率,但是它仅需数秒即可完成,速度远超其他工具。

研究者目前正在试图添加一个功能,提醒用户存在潜在数据偏差或误差。例如,为了保护病人隐私,研究者有时会将病人数据集中的样本年龄标注为 0(如果年龄未知的话)和 200(如果年龄超过 95 岁)。但是新手可能无法识别此类误差,而这有可能导致其数据分析完全无效。

Kraska 表示:「如果你是新用户,你可能获得一些你认为很棒的结果。但是我们会提醒用户,事实上数据集中的异常值可能会导致问题。」

最后,尚泽远等研究者的导师,MIT 的副教授 Tim Kraska 还单独写了一篇论文,从而概述整个北极星系统的设计理念、构成和面临的挑战等。

整体概述论文:Northstar: An Interactive Data Science System

论文地址:http://www.vldb.org/pvldb/vol11/p2150-kraska.pdf

参考链接:

http://news.mit.edu/2019/drag-drop-data-analytics-0627
http://northstar.mit.edu/

入门数据科学MITAutoML
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

有向无环图技术

在图论中,如果一个有向图从任意顶点出发无法经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。 因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

推荐文章
暂无评论
暂无评论~