可视化推理

从字面上理解,以及在很多深度学习的论文中,visual inference可以指从图像、视频中预测或者推断出所需的信息。与训练(training)相对应,visual inferece可以指各类的计算机视觉任务,比如图像分割,物体识别等。然而在统计学中,visual inference一词有着完全不同的意思,它代表了一系列在统计学中进行假设检验的方法。

来源:论文
简介

从字面上理解,以及在很多深度学习的论文中,visual inference可以指从图像、视频中预测或者推断出所需的信息。与训练(training)相对应,visual inferece可以指各类的计算机视觉任务,比如图像分割,物体识别等。然而在统计学中,visual inference一词有着完全不同的意思,它代表了一系列在统计学中进行假设检验的方法。在本文中,我们从统计学的角度介绍 visual inference,统计视觉推理 (图像推理)。

不同于统计学中利用特征进行定量的测试,图像推理是与之平行的,定性的测试方法。在数据可视化中,我们希望尽可能地发现一些模式或者特征,但在另一方面,人类的视觉感知有强烈的“误关联” (Apophenia)。比如,即使在噪声中,我们也可以轻易看出一些“有意义”的模式。在统计学中,这些“误关联”是对数据的过度理解,会引起第一型误差(false positive)。图像推理就是为了调和这两者的矛盾,在不误解读图像的情况下尽可能发现数据中隐藏的模式。

在图像推理中,从数据产生的图像不仅仅被用来可视化,而是被看作是测试的【统计变量】,利用人对图像的认知(cognition)来进行测试。例如:在图像推理的一种常见的协议 lineup中:真实的数据图会与一系列从零分布(null distribution)中抽样得到的数据图进行并列比较。如果观察者可以推断出真实数据图与其他所有抽样得到的数据图不同,那么我们将拒绝零假设,接受对立假设(备择假设)。

图像推理与其他传统的假设检验方法的不同之处在于:用于假设的统计变量不是一个值,而是将数据以图形或图像的形式呈现,然后对比图像。另一个有趣的地方是,人类数据分析者被当成一个“黑箱”,输入为图像,输出为发现的模式。而一系列从零分布中抽样得到的参考图则被用来校准数据分析者的感知,避免其产生“误关联”。

例子:

1.下列五张标签云图来自于达尔文第一版(红色字体)和第六版(蓝色字体)《物种起源》。其中只有一张图是来源于真实数据,其余四张是从零假设中产生的。零假设为:两个版本没有区别。你可以找到真实数据对应的图像吗?(答案见文末)

visual_Inference_test.jpg 2.下图显示的是美国得克萨斯州癌症死亡数在地图上的分布,深颜色代表数量更大。其中只有一张图是真实数据,其余五张是在“空间独立性”的零假设下,模拟产生的数据图。你能发现哪张是真实图像吗?(答案见文末)

texas.jpg

描述来源:

  1. Buja, A., Cook, D., Hofmann, H., Lawrence, M., Lee, E. K., Swayne, D. F., & Wickham, H. (2009). Statistical inference for exploratory data analysis and model diagnostics. Philosophical Transactions of the Royal Society of London A: Mathematical, Physical and Engineering Sciences, 367(1906), 4361-4383.
  2. Wickham, H., Cook, D., Hofmann, H., & Buja, A. (2010). Graphical inference for infovis. IEEE Transactions on Visualization and Computer Graphics, 16(6), 973-979.

发展历史

描述

从视觉上进行推断的方法,可以追溯到半个世纪之前。 Scott等人在1954年通过比较天文观测图来评估其提出的星系空间模型。他们提出了一个问题:“如果完全按照提出的模型来定义星系团中的星系,然后把他们放在“太空”中,这样得到的图片会与实际星系的图片一样吗?” 1965年,John W. Tukey提出了探索性数据分析(Exploratory Data Analysis)的思想。2009年, Andreas Buja等人首次提出了图像推理中的两个协议:用于校准分析员认知的Rorschach协议,和用于推理过程的lineup协议。2010年Wickham等人进一步介绍了两个协议并提供了R语言的实现。2013年至今,图像推理领域受到更多关注,出现了很多工作对其进行验证,从认知科学的角度分析人类认知偏差对图像推理的影响。图像推理被应用于政治科学、社会科学等领域。数据可视化只能作为“非正式”的工具这一科学界的偏见,正在逐渐被打破。

主要事件

年份事件相关论文/Reference
1954通过比较图像来评估星系空间模型E. L. Scott, C. D. Shane, and M. D. Swanson. Comparison of the synthetic and actual distribution of galaxies on a photographic plate. Astrophysical Journal, 119:91–112, Jan. 1954.
1965EDA和MD思想的开始Tukey, J. W. The technical tools of statistics. Am. Stat. 19, 23–28.
2009Andreas Buja等人提出了图像推理中的两个协议:Rorschach和lineupBuja, Andreas, et al. "Statistical inference for exploratory data analysis and model diagnostics." Philosophical Transactions of the Royal Society of London A: Mathematical, Physical and Engineering Sciences 367.1906 (2009): 4361-4383.
2010Wickham等人进一步论证两个协议,并用R语言实现了nullabor包
 
Wickham, Hadley et al. 2010. ‘Graphical Inference for Infovis’. IEEE Transactions on Visualization and Computer Graphics, 16(6): 4361 –4383.
2013将lineup协议与传统统计测试方法进行对比,在数据被污染的情况下,lineup协议优于传统方法Majumder, M., Hofmann, H., & Cook, D. (2013). Validation of visual statistical inference, applied to linear models. Journal of the American Statistical Association, 108(503), 942-956.
2014利用从亚马逊Mechanical Turk招募的分析者进行分析,对数据分析者的视觉技能、经验、人口分布,从零分布中抽样得到的参考图,参考图摆放的位置,数据的信号强度等等因素进行分析,是否会影响图像推理的准确度。Majumder, M., Hofmann, H., & Cook, D. (2014). Human factors influencing visual statistical inference. arXiv preprint arXiv:1408.1974.
2014Dianne Cook的博士生,Chowdhury在其统计学博士论文中综述了图像推理在不同数据中的应用Roy Chowdhury, N. (2014). Explorations of the lineup protocol for visual inference: application to high dimension, low sample size problems and metrics to assess the quality.
2015 图像推理在高维度,低数据量问题  (HDLSS) 中的应用
 
Chowdhury, N. R., Cook, D., Hofmann, H., Majumder, M., Lee, E. K., & Toth, A. L. (2015). Using visual statistical inference to better understand random class separations in high dimension, low sample size data. Computational Statistics, 30(2), 293-316.
2016Loy等人将lineup协议应用于quantile-quantile (Q-Q)图,发现其相比传统统计测试的优势Loy, A., Follett, L., & Hofmann, H. (2016). Variations of Q-Q Plots: The Power of Our Eyes! The American Statistician, 70(2), 202–214. doi:10.1080/00031305.2015.1077728
2018图像推理被应用于政治科学Traunmüller, R. Visual Statistical Inference for Political Research.



发展分析

瓶颈

  • 目前图像推理依赖于提出合理的零假设和零分布,且推理的过程由数据分析员或者通过亚马逊MTurk完成。这种依赖于人工判断的过程,仍旧受人类认知偏差的影响。

未来发展方向

  • 从数据中自动产生合理的零假设,和零分布。
  • 对图像推理的准确性进行更加严谨的定义。
  • 从视觉认知心理学的角度,考察人们在观察时,是依据什么模式或特征得出结论的?除了视觉(图像),人们的结论是否依赖于别的信号。
  • 将图像推理与可视化软件比如pandas,matplotlib更加紧密结合,帮助更多的数据分析者理解数据。
  • 能否利用深度学习以及先进的计算机视觉算法,来自动产生零假设分布的参考图,并且自动分类到底哪张图片是真实数据呢?

Contributor: Chenge Li

简介