《疫情舆论可视化》项目详细介绍

指导老师:汪云海   

团队信息:苏柏瑞  、杨明 、张开翼  

创作初心

COVID-19 是人类历史上第一次在高度发达的自媒体、全媒体时代遇到的高传染性病毒,对于应付病毒,我们不能只从患者入手,更要面对的是因此引发群众的恐慌心理。

在武汉初期,我们遇到过因为恐慌导致大量常规感冒、发烧患者挤兑医院,在医院造成大规模传染。冠状病毒为呼吸道传染病,在拥挤、封闭的环境内很容易造成大范围交叉传染。在来自武汉大学中南医院的新冠病毒肺炎患者的回顾性临床数据,发现 41% 为院内感染[1]。

并且因为恐慌效应在自媒体时代各种社交软件上的二次传播,加剧了人们对病毒的恐惧,促使大量疫情严重地区的人开始向其他地区逃离,进一步加大了阻击疫情的难度。

而在社会学中恐惧会随着民众内部的传播进一步扩大其影响,从而导致股市崩盘、消费骤降、公司裁员等现象。 就目前这个节点来看,全球股市都开始崩盘,美国股市史诗三连跌停,对世界经济造成重大的影响。而理性的看,很多恐慌造成的结果是无意义的,如果大家保持克制,可以很大程度上减少疫情对经济的影响。

北京市习近平新时代中国特色社会主义思想研究中心在 2 月 17 号发表社论[2],提出在目前这个时代,需要我们加强舆论监管、加强舆论引导水平。

提出在目前的局势下,我们需要做到:把握舆论生态变化、建立全媒体传播体系、强化制度意识等多个方面。 

故我们想探究的就是在新闻对舆论的引导和舆论之间的关系,亦或者我们的舆论引导是否起到了作用,起到了什么样的作用。 在本可视化中,我们通过文本可视化的方式,结合实时数据,将数据、舆论、新闻集中在一起,可以非常快速的分析舆论导向、新闻信息、疫情数据。

VisLab was founded 2016 at Shandong University, Qingdao, China by Prof. Yunhai Wang. Its mission is to enhance people's ability to understand and communicate data through the design of automated visualization and visual analytics systems.

We study the perceptual and mathematical foundations of visualization in order to improve the efficiency of interactive data analysis, while developing interactive systems for data visualization and analysis.

腾讯视频地址: https://v.qq.com/x/page/n0944tpp2ij.html


作品简介

NCOVIS 舆论新闻可视化

在疫情期间,我们爬取了知乎热搜数据以及中国新闻网的新闻数据。旨在探索:随着疫情确诊、治愈和死亡人数的变化:

人们在网络上讨论什么?

各地区新闻在报道什么?

上面两者的关系以及对控制疫情有什么指导意义?

知乎热搜数据可视化

我们系统有两部分构成,第一部分就是知乎热搜数据可视化,用来探索在疫情的扩散的不同阶段,人们的舆论以及关注点是如何变化的。

该部分由三个图表构成:动态条形图、动态词云和堆叠面积图。

我们希望用户从疫情数据出发,也就是堆叠面积图中发现一些感兴趣的时间范围,然后去动态条形图和词云查看相应时间,人们讨论的话题是如何变化的。

从堆叠面积图出发

 该堆叠条形图反映的是各个地区,确诊、治愈、死亡人数之和随着时间的变化。

不同于普通的堆叠面积图,我们提供了丰富的交互手段,让用户可以从不同层次去探索数据、筛选数据,从而更加容易的发现感兴趣的时间范围。

可以通过下拉框从全国、地理分区(华中、西南地区等)、省份和直辖市(湖北、北京等)三个不同级别分别探索数据,点击地区的名字只查看该地区的数据。


动态条形图和词云

动态条形图展现的是知乎热搜的热度变化,而动态词云展示的是热搜对应回答的关键词的变化。

条形图的高度和位置会随着热度和排名的变化而变化,词语的大小会随着权重的变化而变化,我们也对变化过程进行了一定程度的优化,使其更易于用户观察变化。

通过这样的动画处理,我们赋予了用户在时序维度上对舆论进行分析的能力,用户可以从时序上对舆论的变化进行思考。

我们认为阻击疫情不只是一个医学问题,而是对社会各个方面的一次考验,来自中国军网一篇报道,在火神山医院配有专业的心理医生团队,保证医生、战士、  患者的心理健康[3]。


新闻数据可视化

这是我们系统的第二部分,中国新闻网数据可视化。用于随着疫情的扩散,各个地区在报道什么。

该部分主要有三张图表构成:树形时间热图、形状感知词云和饼状图。

我们也希望用户从疫情数据出发,也就是树状时间热图中发现感兴趣的时间和地区,然后去形状感知词云和饼状图探索该地区和时间的新闻报道情况。

树形时间热图、日历时间热图

树形时间热图主要用于展现各个地区的每天新增的确诊、死亡和治愈人数。

不同于普通的时间热图,我们将其与中国地区所构成的树结构进行结合,使得用户可以通过操作树结构来影响右侧热力图的展示的层次和对数据进行筛选。

例如图中用户对西北地区和东北地区进行折叠操作,可以方便的对比不同地区的总人数在随时间的变化。同时也以双击地图名进入日历该地图的日历时间热图查看细节。

通过两种常见的可视化方式相结合,在一个可视化中实现了对确诊人数分地区的趋势变化并向用户提供了粒度控制,可以有效的辅助用户对趋势的准确感知。

 形状感知词云可视化和饼状图

形状感知词云是用于展现中国新闻网上各个地图新闻数据中的关键字。之所没有用普通词云,是因为新闻很难做到像前面舆论可视化使用动态词云的方式来吸引关注。

所以我们以各个地图的地理轮廓作为生成词云的轮廓,在保证信息传递质量的前提下,美化输出结果,吸引用户关注,并提高二次传播的可能性。

而饼状图则是对各个地区每一天新闻数据的总的概括,展示不同类别的新闻占比,用于分析疫情期间新闻的报道倾向。


作品价值及影响力

对于这次影响我们生活方方面面的疫情,我们希望提供一个不同的角度来观察这次疫情,除了常见的数据、趋势的洞悉,我们更多的把注意力放在了人本身。数据是冷冰冰的,但我们可以通过冷冰冰的数据去分析数据背后的人是在这次疫情中心理、行为的变化。

我们希望通过可视化舆论的方式,来辅助政府对舆论引导的决策,帮助制定合理的政策来疏导舆论,避免恐慌情绪的蔓延对社会造成更大的伤害。 对于个人用户,可以通过可视化迅速获取疫情数据、分地区数据的同时,进一步了解目前舆论关注点,对疫情有更加深刻的认识。

 对于研究学者来说,本次疫情是医学、社会学、心理学一个很好的研究范本,我们希望通过可视化的方式将舆论随着疫情发展而产生变化的过程以清晰直观的方式呈现出来。从中可以获得人类第一次在自媒体时代面对如此高传染性的病毒时,群众心理情况、恐慌心理的扩散和自我疏导、关注点,从而对此类事件有更深的了解,对未来可能的类似情况有更充足的准备。


举例

对于社会价值,我们可以举一个简单的数据洞察,通过动态词云和疫情数据河流图相结合,我们可以发现,当疫情这个突发问题突然摆到所有人的面前时,几乎与疫情相关的问题蔓延式的冲击知乎热榜,预示着舆论对疫情开始极度恐慌,而相对的新闻报道开始集中报道疫情相关的问题。 这显示了疫情初期,普通群众与新闻媒体面对未知恐慌整体心态。

从初期到现在,舆论与新闻心态发生了多次波动与变化,可以有很多有趣的变化和细节去分析。为了形成鲜明的对比,我这里以中国疫情逐渐接近拐点而国外疫情未爆发,舆论逐步放缓时举例。此时可以发现,疫情相关话题基本不再占据话题热榜,人们对于疫情趋于常态化,从而分出精力去讨论生活中的琐事(例如占据热搜第三的“有没有微信的头像和背景是一套的”)。

而随着时间的推进,国外疫情爆发,再度引爆了已经放缓的舆论,群众开始密集讨论国外疫情。中期心态放多缓,近期焦虑就多严重,从国际主义来看,疫情对全世界造成巨大灾害,我们也牵挂着国际友人。同时,此时各种疫情常态化的言论逐渐出现,导致人们无论是对国外疫情的担忧还是对外源疫情输入、疫情常态化的焦虑重新占领热搜。

 这个例子我们仅仅是从非专业的角度去揣测群众心理、社会学专业人士可能得出的结论,过于粗浅,相信专业人士可以借助我们的系统分析出更多对研究疫情心理的结论与有价值的信息。

作品技术说明

数据处理

文本处理方面,我们使用 TextRank[5] 算法,对输入新闻、短信息文本、热搜等数据进行权重分析,获得文本中关键词及关键词权重。 为了进一步清洗文本,我们使用结巴分词对输入文本的分词结果进行词性判断,去除不适合出现在最终词云结果中的单词。

可视化算法

在时序词云方面,考虑到时序词云需要快速的生成多帧词云,所以我们使用了 IEEE VIS 2009 的 Wordle 算法[6],其生成算法为简单的阿基米德螺旋线,在后端可以快速生成多帧词云,传输给前端以供生成动态时序词云。

形状感知词云部分,我们实现了来自 IEEE VIS 2019 的 ShapeWordle[4]算法,并且对中文进行了适配的处理,最后在中文环境下也可以产生很美观的生成结果。

其生成算法是基于形状感知的阿基米德螺旋线,能够使词云填充进给定的形状,并使关键词尽可能的贴合给定轮廓。

前端

我们的分析系统是一个跨三端(手机、平板、电脑)的交互式网站,使用的技术是 React + D3 + Ant Desgin。部署在: https://pearmini.gitee.io/ncovis-2020

后端架构

引用

[1] Clinical Characteristics of 138 Hospitalized Patients With 2019 Novel Coronavirus-Infected Pneumonia in Wuhan, China. https://www.ncbi.nlm.nih.gov/pubmed/32031570

[2] 新知新觉:有效提升舆论引导水平 http://theory.people.com.cn/n1/2020/0217/c40531-31589573.html

[3] 专访强军网应对疫情心理服务热线咨询师李光耀  http://www.mod.gov.cn/education/2020-03/15/content_4861978.htm

[4] ShapeWordle: Tailoring Wordles using Shape-aware Archimedean Spirals http://www.yunhaiwang.net/infoVis2019/shapewordle/index.html

[5] TextRank: Bringing Order into Texts  https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

[6] Participatory Visualization with Wordle https://ieeexplore.ieee.org/document/5290722

疫情数据可视化公益行动
疫情数据可视化公益行动

中国计算机学会CAD&CG专委会、阿里云天池、机器之心、阿里云DataV联合发起的以“万众’疫’心 天池众智”为主题的疫情数据可视化公益行动。专栏将对每周提交的优秀作品进行相关公示,优秀作品详细介绍可在专栏页面进行查看。

产业
暂无评论
暂无评论~