多变量数据协同可视探索框架

物理仿真模型可以模拟不同的物理现象生成大量的多变量数据集。不同变量在模拟过程中协同工作,因此它们之间通常有隐含的相关性。通常情况下,变量集在局部区域往往会表现出较强的相关性,因此,提取变量在不同区域的局部相关性比基于所有体素度量的全局相关性更为必要。

局部相关性分析框架


A co-analysis framework for exploring multivariate scientific data

Xiangyang He, Yubo Tao, Qirui Wang, Hai Lin

Link:https://www.sciencedirect.com/science/article/pii/S2468502X18300597

为了探索多变量之间的局部相关性,本文提出了一种基于双聚类的多变量数据协同探索框架自动提取有意义的局部特征(由变量子集和体素子集构成且对应体素在对应的变量上具有相似的数值模式的集合,即Bicluster),并设计多个视图探索多变量数据的局部相关性。

  • Bicluster生成

利用双聚类算法将变量和体素联合聚类,自动生成所有局部特征。

  • Bicluster分析

局部特征的数量通常比较大,本文对生成的局部特征进行聚类以降低冗余。首先将具有相同变量集合的局部特征组织到同一类,并提供多种相关性度量方法,推荐用户探索感兴趣的变量集。当确定变量集后,通过基于空间重叠的相似性,对其局部特征进层次聚类,获得多样化的局部特征集合,方便用户探索不同的局部特征。

  • 可视探索

设计了关联矩阵图、局部特征投影视图、平行坐标及空间视图等多个协同视图,揭示多变量数据在变量、局部特征以及标量值之间的相关性,引导用户探索多变量数据中大量的、未知的局部关系。

图1 多变量数据的协同分析框架,包括局部特征的生成、分析和可视探索

系统界面

图2 原型系统界面。用户在关联矩阵图(A)中选择感兴趣的变量集后,其局部特征展示在投影视图(B),用户再次选择感兴趣的局部特征或集合,平行坐标(C)和空间视图(D)呈现对应局部特征的数值分布和空间分布。

案例分析

本例中,我们将水分子含量(v02)作为初始变量,根据局部特征数量排序,探索与之最为相关的变量集合。如图3(b)所示,在关联矩阵图中找到与之局部相关性最高的变量为温度(tev)和声速(snd),因此,我们将{snd,tev,v02}变量集作为可视探索的基础,图3(c)展示了该变量集合的局部特征投影图。我们选择3个距离较远的集合A、B和C。图3(e)展示了这三个特征对应的空间视图。高温区(A)主要分布在行星轨迹周围,是由于行星撞击海平面时空气摩擦生热导致轨迹周围空气温度上升(图3(e)黄色区域)。海平面上的高水蒸气含量(B)主要分布在撞击海平面的四周及行星轨迹水蒸气回流轨迹(图3(e)深蓝色区域),撞击发生后,水蒸气沿行星轨迹不断回流,水滴与颗粒物不断汇聚到一起,进而形成降雨。由于水的比热容比较大,海平面以下(C)的温度并未有大幅度波动,但声速较高,与物理规律相符(图3(e)浅蓝色区域)。

图3 小行星撞击海平面模拟数据集的可视探索

图4 燃烧数据集的可视探索。从左至右分别是关联矩阵图、局部特征投影视图,以及局部特征A(外焰), B(火焰主体), C(内焰), D(非燃烧区)的空间分布和数值分布。

全文信息

A co-analysis framework for exploring multivariate scientific data

BY Xiangyang He, Yubo Tao, Qirui Wang, Hai Lin

Abstract: In a complex multivariate data set, different features usually have diverse associations with different variables, and different variables are also associated within different regions. Thus, it is necessary to explore these associations between variables and voxels locally to better understand the underlying phenomena. In this paper, we propose a co-analysis framework based on biclusters, i.e., two subsets of variables and voxels with close scalar-value relationships, to guide the visual exploration process of multivariate data. We first extract all meaningful biclusters automatically, each of which only contains voxels with a similar scalar-value pattern over a subset of variables. These biclusters are organized according to their variable sets, and biclusters in each variable set are further grouped by a similarity metric to reduce redundancy and encourage diversity during visual exploration. Biclusters are visually represented in coordinated views to facilitate interactive exploration of multivariate data from the similarity between biclusters and the correlation of scalar values with different variables. Experiments with several representative multivariate scientific data sets demonstrate the effectiveness of our framework in exploring local relationships among variables, biclusters and scalar values in the data.

Key Words: Multivariate data, Bicluster, Local association

Link: https://www.sciencedirect.com/science/article/pii/S2468502X18300597

工程数据可视化
相关数据
层次聚类技术

层次聚类通过对数据集在不同层次进行划分,从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合(agglomerative)策略,也可采用“自顶向下”的分拆(divisive)策略。“自底而上”的算法开始时把每一个原始数据看作一个单一的聚类簇,然后不断聚合小的聚类簇成为大的聚类。“自顶向下”的算法开始把所有数据看作一个聚类,通过不断分割大的聚类直到每一个单一的数据都被划分。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

暂无评论
暂无评论~