沈恩亚作者林亦霖校对于腾凯 编辑

AutoVis大数据可视化设计框架:让大数据可视化容易点

本文从大数据应用出发,讨论数据可视化在大数据时代所面临的一系列挑战,并重点介绍AutoVis针对这些挑战所做尝试及其体系架构、关键技术和功能特点。

简介:AutoVis是清华大学“大数据系统软件国家工程实验室”自主研发的大数据可视化设计框架面向大数据应用,特别是工业场景,此框架提供了一种新的数据生成图表和看板的方式,具有表达能力丰富、简单易用、高可扩展、高效率等特点,已应用于中车四方车辆有限公司、石家庄天远科技集团有限公司等工业企业。 

前言

“看见”是人类的基本需求,也是人类探索未知的重要途径。2019年,多个机构通过捕捉射电波,收集大量数据,帮助人类第一次“看见”黑洞。数据可视化使得人们透过数据“见所不见”,成为人与数据之间的“桥梁”。作为第四范式“数据密集型科学发现”的组成部分,数据可视化已广泛应用于不同的科学研究领域。伴随着计算机通用化、信息时代、互联网时代的发展,数据可视化逐渐应用于人们生活的各个领域。在大数据时代,数据可视化应用更加广泛,并面临诸多新的挑战。

挑战

大数据时代,数据应用需求多种多样,数据特点亦发生本质上的变化。智能硬件的丰富与普及,互联网、物联网、移动化、智能化的浪潮,给数据可视化带来新的机遇与挑战。如下图所示,我们简要梳理了数据可视化(系统)在大数据应用中所面临的一些关键问题,例如数据规模增加,屏幕像素空间有限,数据可视化系统的数据采样能力与绘制效率问题突出。数据多样的特点要求数据可视化系统不仅需要支持更多的可视化方法,也要具有良好的系统可扩展性以适应不断出现的新数据、新需求。数据快速变化的特点要求数据可视化系统能够快速构建新的图表,及时捕捉数据变化。由于不同使用者所关注数据特征的差异及数据探索的需求,可视化图表的交互性在大数据时代将更加重要。

大数据时代数据可视化(系统)所面临的一些挑战为了探究数据可视化是否满足大数据应用场景,我们梳理了相关编程工具及系统的研究与应用现状,如下图所示,数据可视化生成方式可以分为编程、交互与自动生成三种。面向不同的应用领域,出现了众多可视化编程工具,例如常用的OpenGL、VTK、D3.js。编程方式的优点在于丰富的表达能力,缺点在于需要使用者具有编程经验。交互方式提供了一种不需要编程的可视化生成方式,例如PowerBI、Tableau、Qlik,推动了数据可视化工具的普及,其在表达能力方面有所欠缺。近些年,一些学者提出了根据数据自动生成图表的方法,其优点是不需要用户具备数据可视化背景,缺点是自动生成的图表类型有限,未能体现使用者的个性化需求。

数据可视化编程工具与系统梳理大数据可视化所面临的挑战与相关进展,可见其中有许多问题亟待解决,例如系统数据采样能力、表达能力、可扩展性、图表快速构建能力以及交互能力。下面介绍我们的相关工作。

AutoVis

AutoVis是清华大学 “大数据系统软件国家工程实验室”针对大数据场景自主研发的数据可视化设计框架。如下图所示,围绕大数据所带来的挑战,采用可视化设计的技术路线,基于平台化架构思想,我们尝试设计新的大数据可视化工具,其定位是成为一个开放平台,目标是支持数据驱动的交互和设计过程,构建人与数、人与人沟通的桥梁。

AutoVis基本思想针对上述大数据可视化面临的挑战,我们尝试从12个方面探索应对的方法,如下图所示。针对系统所需的采样能力,提出了一种新的流式时序数据高效采样方法;实现了一种数据特征提取框架,支持扩展不同的特征提取方法。针对系统绘制效率,我们一方面采用了数据压缩传输,将数据通信量降低到非压缩通信的三分之一,另一方面,结合图表LAZY更新策略,着力降低图表非必要更新。针对图表表达能力要求,提出了一种新的图表模板化与交互式编辑方法,目前提供267种图表模板,覆盖常用数据可视化方法。针对系统可扩展性要求,提出一种平衡易用性与表达能力的图表模板扩展方法;设计实现了图表扩展实时反馈技术。针对图表构建能力的要求,设计实现了图表参数自动化填充技术,实现图表的秒级构建与响应,分钟级构建一个看板。针对图表交互能力的要求,实现了常用的图表交互方法;提出一种新的多图表联动关系自动发现技术,自动化支持多图表钻取。

AutoVis在应对大数据可视化挑战中的探索

动态数据采样与可视化:针对大数据场景中数据更新频繁和数据规模较大的挑战,我们提出了一种动态分桶与层级采样相结合的流式数据采样框架,实现了百万点的毫秒级查询,满足高频数据的可视分析与监控需求。如下图所示,其中数据写入与图表刷新速度均达到了100次/秒。

高频时序数据可视化

多源数据聚合查询技术:针对数据检索与处理耗时长的挑战,我们设计实现了一种数据聚合查询技术,通过将常用数据查询与过滤操作映射成数据的SQL语句,将更多的数据过滤操作在数据库层完成。有助于显著提升数据处理速度,提高数据可视化的效率与交互性。

图表模板编辑与管理技术:针对已有可视化软件中图表模板有限,可扩展性弱,以及通过编码方式定义新的图表模板需要大量的人力资源和时间成本,复用性弱等挑战,我们设计了一种新的可扩展图表模板分类与管理技术以及交互式编辑工具。我们选择使用可视化编程语言Vega和Vega-Lite,并在其示例的基础上进行扩展,目前形成了267种图表模板。另外,提供了选项配置、参数扩展与自由配置三种自由度从低到高的图表目标交互式编辑方式,着力同时满足图表易用性、表达能力与可扩展性的需求。

图表参数自动填充技术:AutoVis提供了一种自动填充图表参数快速生成图表的技术。使用者在打开数据后,拖选图表模板,系统将根据数据信息及模板配置自动填充模板参数,实现可视化图表的一键生成。同时,AutoVis提供了即时响应的图表参数编辑技术,如果自动填充的结果不满足个性化需求,使用者可以很方便地修改图表参数,如下图所示。值得强调的是,AutoVis系统实现了参数推荐与自动补全,努力减少使用者修改参数所需的交互次数。

AutoVis快速生成图表看板模板描述语言与编辑工具:看板是可视化设计工具生成的主要内容,为了在达到图表模板化、看板配置通用化目标的同时,满足跨平台和跨终端等常用需求,我们设计实现了一种面向可视化看板的描述语言,实现看板的轻量灵活定义。同时,AutoVis提供了一种所见即所得的看板编辑工具,使用者可以采用类Visio画图的交互方式,直观调整看板图表大小与布局。另外,AutoVis还支持面向不同终端的针对性看板设计,方便使用者设置适用于特定终端的可视化看板。

AutoVis设计看板运行时看板交互技术:大数据时代,使用者对于数据的关注多种多样,不再满足于单向呈现数据的图表,希望通过交互发掘所关注数据特征,满足特定需求,这时需要提供合理的交互方式。AutoVis对于单个图表提供了常用的交互手段,特别地,我们设计实现了一种多图表联动关系自动发现技术,使用者在定义看板时,不需要手工定义图表之间的联动关系,即可实现图表之间的联动与数据钻取。

图数据布局与可视化探索:现实生活中不同的关联关系越来越普遍,例如人与人、人与商品,知识图谱的应用亦越来越普遍。如何有效地与图数据进行交互,AutoVis实现了一种新的图布局算法MGLA以及可视化探索方法。MGLA算法实现了多子图情况下关键节点与边突出的保结构布局,使用者可以通过鼠标标记关注节点,系统亦能够根据不同的搜索条件自动解析所关注节点。

图数据布局与可视化探索大数据时代数据“无处不在”,这要求我们实现数据“随处可见”。为此,AutoVis支持跨平台与跨终端,如下图所示,兼容常用操作系统、主流浏览器以及不同屏幕分辨率的终端设备。此外,为了满足企业使用者的需求,AutoVis还实现了钉钉企业软件小程序,帮助企业实现数据驱动的共享、会商与决策。

AutoVis移动端看板示例

结束语

大数据时代数据可视化作为人与数据的桥梁,将发挥越来越重要的作用,经过数十年发展的数据可视化如何迎接新的机遇与挑战,值得大家的共同探索。本文简介了我们在这方面的尝试,以希抛砖引玉。

作者简介

沈恩亚,国防科技大学计算机科学博士,清华大学博士后,主持研发“清华数为”大数据可视化平台,长期从事数据可视化、可视分析和人机交互等方面的研究。曾经主持或参与多项863、973、科技重大专项、国家重点研发计划等项目,其中作为骨干完成的“极大规模并行可视计算系统”获得全军科技进步奖。在TVCG、VC等期刊和会议上发表论文10余篇,申请专利10余项。曾获得中国虚拟现实大会最佳论文,全国高性能计算学术年会最佳论文提名等。

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

产业AutoVis
相关数据
清华大学 机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

相关技术
第四范式机构

第四范式成立于2014年,是国际领先的人工智能平台提供商,利用机器学习技术,帮助企业提升效率、降低风险,获得更大的商业价值。第四范式坚持以“Empower AI Transformation and Inspire AI For Everyone”为企业愿景,依托于AutoML、迁移学习等技术与企业级人工智能PaaS平台,不断推动人工智能快速、规模化的产业落地。目前,第四范式已在银行、保险、政务、能源、智能制造、零售、医疗、证券等领域积累超过上万个AI落地案例,助力各行各业AI创新变革。

https://www.4paradigm.com/
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

数据压缩技术

数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩包括有损压缩和无损压缩。在计算机科学和信息论中,数据压缩或者源编码是按照特定的编码机制用比未经编码少的数据位元(或者其它信息相关的单位)表示信息的过程。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

分桶技术

将一个特征(通常是连续特征)转换成多个二元特征(称为桶或箱),通常是根据值区间进行转换。例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。假设温度数据可精确到小数点后一位,则可以将介于 0.0 到 15.0 度之间的所有温度都归入一个分箱,将介于 15.1 到 30.0 度之间的所有温度归入第二个分箱,并将介于 30.1 到 50.0 度之间的所有温度归入第三个分箱。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

数据可视化技术

数据可视化被许多学科视为现代视觉传达的等价物。为了清晰有效地传递信息,数据可视化使用统计图形、图表、信息图和其他工具。数字数据可以使用点、线或条编码,以视觉传达定量消息。有效的可视化帮助用户对数据进行分析和推理。它使复杂的数据更容易理解和使用。用户可以根据特定的分析任务进行数据可视化,例如进行比较或理解因果关系,并且图形的设计原则(即,显示比较或显示因果关系)来进行可视化。表通常用于用户查找特定测量的地方,而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。

推荐文章
暂无评论
暂无评论~