失去的象牙塔:停学潮之下大学生对新冠病毒是何反应?

疫情之下,学校纷纷停课。在学业压力下,大学生对于新冠病毒的反应与普通人有没有区别呢?美国罗切斯特大学的计算机科学家对此进行了研究。


前不久,美国罗切斯特大学的计算机科学家根据推特舆情分析了新型冠状病毒大流行带来的社会影响,探究了使用「中国病毒」、「武汉肺炎」这类歧视性词汇和使用「新冠病毒」这类中立词汇的两类人群在年龄、性别、政治倾向、地理位置以及更深层的心理层面上的差别。
 
疫情之下,学校纷纷停课,学术会议也纷纷转为线上举行。在此情况下,那些停课的大学生对于新冠病毒有何反应?与普通人的反应有何区别?该团队对此展开了调查。
 


 论文链接:https://arxiv.org/abs/2004.09968

截至 4 月 13 日,COVID-19 已经在全球范围内确诊 1,812,734 例,死亡 113,675 例。病毒不仅对老年人或者有健康问题的人群造成巨大影响,年轻健康的人群也受到了不同程度的波及。随着世界范围的强制社交隔离,那些将大部分时间花在工作场所或者教育机构的人们极易遭受此类设施关闭带来的负面作用,超过 192 个国家的 17 亿学生受到影响。
 
作为拥有最多确诊人数的美国(确诊病例达 579,005 例,死亡病例达 22,252 例),总统 Donald Trump 采取了社交隔离措施,这也是自 1918 年大流感以来第一次全国范围内的强制社交隔离。美国教育系统受到严重打击,自华盛顿大学 3 月 7 日宣布停课之后,上千所大学取消了线下授课和社交活动。截至 4 月 14 日,美国超过 124,000 所公立和私立学校宣布停课,至少 551 万名学生受到影响。
 
这种变化给学生带来了许多挑战,其中最受关注的是政府和教育系统如何帮助学生通过在家学习的方式应对病毒危机。之前的调查表明,在某些科目中实物材料交互的限制会对学生的学习情况产生严重的影响,并导致学生落后于预定的课程进度,从而增大辍学的风险 [1][2]。根据最近的研究,Sahu [3] 指出了关闭学校的其他负面影响,包括国际学生的旅行问题和学生的心理健康问题。
 
因此,该研究团队对学生的人口统计学特征进行更加全面的研究,并进一步了解他们关注的主题以及表达问题的方式。
 
这项研究旨在通过挖掘人们在社交媒体上的观点,来研究这次空前的危机对于普通群众和受过高等教育人群的不同影响。
 
研究团队通过抓取有关新冠病毒(COVID-19)的推特,分析人们对于病毒讨论的不同主题,最终发现就对新冠病毒的反应而言,大学生和普通群众之间存在着明显差异。这些发现对于教育者和政策制定者衡量他们与 COVID-19 的斗争和如何保护年轻人群有着至关重要的作用。
 
此外,该研究训练了分类模型来识别与 COVID-19 有关推文的用户信息,并提取他们在帖子里所表达的情感。这些模型可基于社交媒体平台使用以分析社会问题,进而吸引社区的关注,从而更好地解决学生的心理健康问题。
 
大学生人口统计调查结果
 
该研究认为年龄、性别和学校机构是检测用户是否为学生的主要依据。根据美国国家教育统计中心(NCES)的数据,截至 2017 年秋,56.2% 的大学生年龄在 19 岁至 29 岁,20.1% 的大学生年龄在 18 岁及以下,其中女生占比 56.6%。
 
该团队用 M3(Multilingual, Multimodal, Multi-attribute)深度学习模型挖取了推特用户名、显示名称、个人简介和用户头像 [4],最终收集到 12,776 个推特账号,并排除掉其中 1,111 个官方账号。
 
具体而言,该团队通过以下方式来辨别学生用户:
 
  1. 人工注释:随机筛选出 2,400 个账号,包括账号的姓名、头像、简介和 1 月 20 日至 3 月 20 日的发帖信息。然后通过人工方式判断这些账号是否为学生用户。

  2. 监督分类模型:首先使用 TF-IDF 算法将文本向量化,然后使用随机森林分类模型在 20% 分类完成的用户中测量准确率

  3. 启发式算法:Bergsma 和 Van Durme [5] 发现用户经常通过所有格语句,即「我的 X」,来透露他们的信息。事实上,该团队在没有分类的 1,156,947 条推特中发现了 306 条推特使用「我的课程」这一短语。然而,「我上过的 XX 课程」这类短语只出现了 16 次。所以,团队决定首先使用斯坦福 CoreNLP 标记器进行词性标注(part-of-speech tag),找出「我的X」类型的短语,并使用点互信息(PMI)[6] 来计算这类短语和大学生用户之间的关联性。


该团队使用了 1,920 条推特来训练随机森林分类模型,并在预测用户是否为大学生方面得到 78% 的准确率。此外,研究人员把 PMI 的阈值设为 0.5,在手动删去不相关信息之后,启发式算法在分类模型的基础上达到 83% 的准确率。因此,该团队有充足的理由结合使用分类模型和「我的 X」启发式算法,来分类剩余的 2,575 位用户。

如图 1 所示,该研究的分类结果与美国 NCES 的真实数据十分接近。图中女性占比为 53.8%,而 NCES 预测 2020 年女性占比为 56.7%。虽然使用 M3 模型来分类年龄是一件很有挑战性的事 [7],但该团队的结果仍在合理范围内。图中 19 岁至 29 岁年龄占比为 54.1%(NCES 的数据为 56.7%),18 岁及以下年龄占比为 28.6%(NCES 的数据为 21.2%)。 
 

图 1:3460 位大学生用户的性别年龄分布。
 
大学生对新冠病毒的反应
 
普通用户更多讨论世界新闻,学生用户更多讨论本地新闻
 
该研究通过 LDA 主题模型 [8] 提取出 6 种关于 COVID-19 讨论最多的主题。该团队通过 6 个主题里最流行的 20 个单词,将这些主题分别命名为世界新闻(Global News)、政治讨论(Political Discussion)、社交隔离(Social Distancing)、学校关闭(School Closing)、本地新闻(Local News)和中国争论(China Controversy),如图 2 所示。

图 2:各个主题中前 20 个流行单词的出现频率。
 
从上图我们可以看到,「世界新闻」(包括确诊人数和死亡人数)和「政治讨论」(包括正在进行的总统选举)是人群最关注的话题。然而对于学生而言,「本地新闻」(33.56%)和「学校关闭」(32.04%)讨论的次数最多,参见图 3。

 图 3:6 种主题中学生推文的占比。
  
消极态度占主导
 
图 4 是关于六种主题的情绪分析。总体来说,只有很小一部分有关 COVID-19 的推文中表达了积极的情绪,并且在研究所用数据群体中每五人就有至少一个展现出了消极态度。
 

图 4:6 个主题中的情绪分布(%)。从下往上依次为:消极情绪、中立情绪和积极情绪。
  
考虑到美国每一百万人中就有 2,281 例感染者,推特里显著的消极情绪也给我们拉响了警钟。显然,新冠病毒不仅威胁我们的健康,还让整个社会「忧郁缠身」。
 
值得注意的是,关于「中国争论」的推文中,消极情绪尤为严重。通过图 2 可以看到「种族主义者」(racist)排在了「中国争论」主题的第四位,这表明很多推特用户把「新冠病毒」(Coronavirus)称作「中国病毒」(Chinese virus)的现象和种族主义有关。
 
大学生群体对于新冠病毒具有更加消极的情绪
 
该研究发现,大学生群体对于 COVID-19 的讨论明显展现出更加消极的情绪,尤其是与病毒扩散和社交隔离的讨论中。这个结果也与该团队对于 COVID-19 对年轻群体影响的猜测一致。
 
大学生更加倾向于讨论社交隔离和学校关闭对他们自身的消极影响,并且他们对于病毒爆发也表现出更加消极的态度。
 
特定主题下大学生的消极态度
 
该团队在研究「学校关闭」、「社交隔离」和「中国争论」主题后,发现大学生和普通人群对后两个主题的消极推文展现出最大的比例差别,分别为 14.5% 和 13.8%。如表 1、2、3所示,「社交隔离」和「学校关闭」主题下的非中立推文均表达了担忧情绪,并且所有表明对学校关闭担忧的推文都是负面的。
 
此外,很多学生对外来人口展现出负面情绪,并指责社交隔离是他们带来的结果。有 81.3% 的学生表露出对线上学习的不满。
 

表 1:「社交隔离」主题下的子主题。
 

表 2:「学校关闭」主题下的子主题。
 

表 3:「中国争论」主题下的子主题。
 
这些研究发现,在原本对非裔美国人、华裔美国人和穆斯林 [9-11] 的种族主义与歧视之上,疫情期间美国有关东亚社区的种族主义正在蔓延。
 
为了更好地保护学生的发展与健康,在解决学生学习方面困难的同时,预防种族主义的仇恨言论也是教育机构应该重视的问题。
 
参考文献
 
[1] L. V. Fedynich, “Teaching beyond the classroom walls: The pros and cons of cyber learning.” Journal of Instructional Pedagogies, vol. 13, 2013.
[2] G. R. Morrison, S. J. Ross, J. R. Morrison, and H. K. Kalman, Designing effective instruction. John Wiley & Sons, 2019.
[3] P. Sahu, “Closure of universities due to coronavirus disease 2019 (covid19): Impact on education and mental health of students and academic staff,” Cureus, vol. 12, no. 4, 2020.
[4]  Z. Wang, S. A. Hale, D. Adelani, P. A. Grabowicz, T. Hartmann, F. Flo ̈”ck, and D. Jurgens, “Demographic inference and representative population estimates from multilingual social media data,” in Proceed- ings of the 2019 World Wide Web Conference. ACM, 2019.
[5]  S. Bergsma and B. Van Durme, “Using conceptual class attributes to characterize social media users,” in Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2013, pp. 710–720.
[6] K. W. Church and P. Hanks, “Word association norms, mutual informa- tion, and lexicography,” Computational linguistics, vol. 16, no. 1, pp. 22–29, 1990.
[7]  Z. Wang, S. A. Hale, D. Adelani, P. A. Grabowicz, T. Hartmann, F. Flo ̈”ck, and D. Jurgens, “Demographic inference and representative population estimates from multilingual social media data,” in Proceed- ings of the 2019 World Wide Web Conference. ACM, 2019.
[8] M. Hoffman, F. R. Bach, and D. M. Blei, “Online learning for latent dirichlet allocation,” in Advances in Neural Information Processing Systems 23, J. D. Lafferty, C. K. I. Williams, J. Shawe-Taylor, R. S. Zemel, and A. Culotta, Eds. Curran Associates, Inc., 2010, pp. 856–864. [Online]. Available: http://papers.nips.cc/paper/ 3902-online-learning-for-latent-dirichlet-allocation.pdf
[9] J. K. Swim, L. L. Hyers, L. L. Cohen, D. C. Fitzgerald, and W. H. Bylsma, “African american college students experiences with everyday racism: Characteristics of and responses to these incidents,” Journal of Black psychology, vol. 29, no. 1, pp. 38–67, 2003.
[10] S. D. Museus and J. J. Park, “The continuing significance of racism in the lives of asian american college students,” Journal of College Student Development, vol. 56, no. 6, pp. 551–569, 2015.
[11] J. Guhin, “Colorblind islam: the racial hinges of immigrant muslims in the united states,” Social Inclusion, vol. 6, no. 2, pp. 87–97, 2018.
入门随机森林罗切斯特大学罗杰波新冠疫情
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

主题模型技术

主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~