《基于NLP的新冠新闻舆情可视化项目》项目详细介绍

团队信息:杨镭、郭凌峰、王天宇、黄北辰、齐婧含

作品简介

政企机构的舆情管理存在数据难、分析难、发现迟的痛点。本项目通过抓取新闻、微博等公开信息,对全球疫情及舆情对应变化进行可视化分析,提供端到端舆情管理方案。

  • “远邻帮”3D交互大屏,对全球疫情发展及物资互动进行展现
  • NLP自然语言搜索驱动的“望风台”可视化平台,分析人们在疫情期间的关注重心及情绪变化。
  • 微博文本解析过程则通过“舆查查”工具可视化呈现。

本方案可复用至日常或特殊时期舆情监测,帮助政企机构有效进行舆情管理。

整体架构

创作初心

疫情期间的网络信息传播让人们及时了解动态的同时,也增加了谣言等负面信息或情绪的传播风险。舆情信息难采集、难分析,希望用数据可视化应用的形式助力舆情分析管理。

作品演示视频

1、远邻帮(3D交互大屏):

Demo体验:http://45.32.44.25:9090/ (PC端,chrome浏览器)

演示视频:http://dwz.win/7Ms


2.望风台(NLP可视分析平台):

演示视频:https://v.qq.com/x/page/c0944p8rxjo.html


3.舆查查(微博文本分析工具)

演示视频:https://v.qq.com/x/page/m09446k8pto.html

Demo体验(PC端):http://47.103.76.34:8000/ (chrome浏览器)

Demo体验(移动端):

作品详细解读

  • 远邻帮:整体展示全球疫情态势及物资互动流向,具体分为三个子环节。

1.3D Globe: 国际物资互助可视化

体现疫情期间各国的物资捐赠和受赠情况(数据来源新闻信息),可随时间轴进行趋势展现。图中蓝色粒子路径为“受赠”, 橙色粒子为“捐出”。粒子的运动方向即为捐赠方向。国家可点击切换,默认主视角为中国。

2.全球物资新闻动态

展现物资数据来源,网络新闻的原文信息与标签轮播。新闻信息要素:标题、图标、     捐赠国家与方向、物资类型标签、概要、原文链接。

3.全球疫情确诊数可视化

远邻帮同时支持展示疫情态势变化。用户可切换地球的可视化模式,展示每天的各         国疫情确诊病例变化。与物资流向可交叉判断,如国内疫情严重时,物资通过华侨     等人的捐助,从国外流入国内;近期国内态势缓和,物资则进行反方向流出。

  • 望风台

热点分析

疫情期间,群众的关心焦点是什么?随着疫情发展,群众情绪曲线如何变化?热词看板通过观测讨论热词与亲故曲线,设置负面情绪阈值预警。

主要发现:

1.高频热词分布:了解当前讨论热词,明确当前群众关注重心

“肺炎”、“疫情”、“武汉”等词是关心重点,“出院”、“加油”等正面词汇比重靠前,“科比”是热词中唯一的疫情无关词

2.每天热搜类别分布:了解讨论热搜类别,关注每日讨论倾向

随疫情态势逐渐得到控制,从2/10日起,人们开始有序复工,娱乐话题占比逐渐恢复,疫情相关热搜下降;18日起,随着国外疫情状况恶化,对国外疫情热搜讨论缓步上升

3.每天主导情绪变化:观察情绪曲线变化,监控群众,负面情绪过高时及时进行预警

疫情发展期间,负面情绪热搜占据主导地位;2月10日-20日复工期间,情绪较平稳。后期因国外疫情,负面情绪又开始攀升。


  • 发声者分析

群众关心的热点,是由谁来传递表达的?信息过剩时,又会选择听取谁的话?特殊时刻,自媒体是否依旧被人们所信赖?发声者看板关注在疫情期间的活跃博主,并重点比较官媒、市场化媒体、自媒体及明星四类博主,观察他们发声内容倾向;并通过转评赞数量,观察普通用户对不同类型博主发声的倾向性。

主要发现:

1.主要发声媒体:帮助定位活跃博主,并分析发声者影响力

疫情期间,人民日报等官媒非常活跃;以全部发博数做为参考,可看出虽然正常时期市场化媒体最活跃,但疫情期间官媒主动承担起宣传责任,主动积极传导相关信息;

2.疫情期间各媒体类别发博类型占比:

官媒和市场化媒体着重宣传疫情相关信息,对负面信息的传递较谨慎;自媒体与明星仍主要集中于娱乐话题;

3.各媒体类别疫情期间微博转发数占比:观察群众对不同发声者的倾向性,有效利用活跃博主进行宣导;

疫情相关信息,官媒的转评赞数量最高,说明关键时期,人们还是选择相信官媒;自媒体在娱乐方面占比较高,但疫情相关信息转评赞数量都相对靠后;明星作为特殊的用户,发博频次较低,但转评赞数量惊人。因其粉丝量巨大,且粉丝年龄层普遍较低,明星在舆论层面起到重要引导作用。

  • 舆查查

微博舆情分析工具

社会价值

本方案通过分析疫情时期,全网舆论及情绪的变化,对信息传达的及时性、可靠性、有效性进行了监测,并找到有效发声者,分析判断其舆论引导能力。本方案可帮助有关机构进行实时观测,及时进行公众情绪疏导及有效信息传达。本方案可复用至日常或其他特殊时期,帮助政府从心理健康层面抗灾。

同时,可落地性方面,望风台部分所使用的可视化方案,使用了金融壹账通自主开发的可视化AI分析工具“加马远望”分析平台,具有丰富的落地项目经验,已支持多家政府机构搭建数字化看板;支持多种数据库对接,同时支持云端及本地化部署,可快速支持项目上线。

可操作性层面,本方案提供端到端流程,加马远望产品基于自然语言驱动,自动适配可视化图表,随搜随答,使用门槛低,并支持数据下钻、层级分析、拖拉拽编辑、预警配置等功能,可有效帮助使用人员在最短时间内熟悉操作,快速开始数据探索分析。

作品技术说明

本方案在技术层面涉及数据采集与处理方法、基于NLP的数据可视化分析方法,及前段适配的可视化技术方案。

1.数据采集与处理方法

数据分为微博舆情数据处理与新闻数据处理两步。

微博舆情

  • 数据来源:通过API接口,每隔一小时获取微博热搜榜抓取话题相关的热门微博,
  • 数据处理:采用文本预处理、转发图数据处理方法,通过繁简转换、分词、数据清洗、词性标注等步骤进行文本预处理与转发图数据处理;
  • 特征提取:采用TFIDF进行关键词抽取,并基于60万标注数据训练fasttext模型,进行文本主题分类与正负情绪判断;
  • 行为分析:采用特征+bilstm模型,进一步进行情绪细分,并结构化转评赞数量,方便望风台进行后续查询;
  • 可视化分析:采用NLG智能洞察框架,对传播路径进行可视化分析,并采用NLG生成描述语言。

新闻数据

  • 数据获取:基于不同网站的页面结构,设计不同的爬虫,爬取与关键词相关的新闻内容
  • 实体识别:基于Bi-LSTM+CRF,对爬取的新闻内容数据进行命名实体识别,包括国家(捐助和受赠国家)和捐助物品(医疗物资、防护物资、食品、钱款);
  • 关系抽取:实体识别后,采用hand-written patterns的方法进行关系抽取,基于依存句法以及触发词和字符串,进行捐赠国家和受赠国家的识别,从而建立捐赠关系;
  • 可视化:对全部捐赠关系的数据按捐赠日期、国家名称进行统计处理,为3D展示做处理。并使用Bootstrap+jQuery实现新闻卡片,对有关新闻内容进行持续滚动展示。

2.基于NLP的数据可视化分析方法

望风台NLP可视化分析采用了金融壹账通自主研究的Text-to-SQL算法。用户在前端以自然语言提问,系统进行分词、词性解析、意图提取等步骤,将自然语言转换为SQL Query,从数据库中匹配相应字段,提取数据。通过内置可视化引擎,为抽取的数据选择最合适的展示方法。

3.前段适配可视化技术

远邻帮3D球体部分采用Three.js + WebGL技术框架,球面数据展现采用D3.js库。主要Mesh类采用了GlobeMesh, GeoLineMesh, PSystem等。

望风台提供可自由配置的数据可视化能力。提供18类图形、10种配色方案与页面风格模板,通过搜索+拖拉拽的交互,可快速完成看板设计与配置。

舆查查采用Bootstrap前端框架,进行网页整体排版和非结构化舆情数据的图表信息展现。包括词云,力导向关系图,热力图等。

开源说明

完整方案讲解视频:

作品体验链接:

微博分析移动端体验:

(b站搜索“加马远望”,可查看完整方案介绍和demo演示视频~)

(部分功能完善中,代码暂不开源)

疫情数据可视化公益行动
疫情数据可视化公益行动

中国计算机学会CAD&CG专委会、阿里云天池、机器之心、阿里云DataV联合发起的以“万众’疫’心 天池众智”为主题的疫情数据可视化公益行动。专栏将对每周提交的优秀作品进行相关公示,优秀作品详细介绍可在专栏页面进行查看。

产业NLP
24
好项目
不好,太差了
不好
啊,想学习一波,但是不开源。泪流满面