张倩、蛋酱、Jamin参与

暗中观察,没有「头环」:AI摄像头就可以看出你上课是否走神

在AI摄像头走进课堂后,伪装认真听课也是越来越难了。近日,港科大、哈工程的研究者开发了一种用AI摄像头记录、分析学生情感变化的系统,不仅能知道学生什么时候开始走神,还能具体看到每个学生一整节课的「心路历程」。

关于 AI 在课堂上所能完成的监控工作,很多人已经习以为常。

「一位教授在授课结束后查看他的电脑。借助一款软件,他能看到这一整堂课中学生的情绪变化。在上课 30 分钟之后,大部分学生已经失去兴趣并开始走神,这也大概是他讲跑题的那个时间点。所以教授做了个记录,提醒自己以后不要跑题。」

现实中的课堂大多还不是这个样子,但随着技术的发展,这样的情景会越来越普遍。

近日,一篇有关课堂监控技术的论文刊登在《IEEE Transactions on Visualization and Computer Graphics》上。在论文中,来自香港科技大学、哈尔滨工程大学等机构的研究者提出了一种名为 EmotionCues 的系统。该系统主要关注如何记录学生面部表情,并据此来分析学生在课堂上的情绪变化、注意力集中程度。

作者之一、香港科技大学计算机教授屈华民介绍说,这个系统「为教师提供了一种更快速、更方便去衡量学生在课堂上参与度的方法。」

这项研究的初衷是「善意」的:依靠该系统去监控学生在课堂上的情绪反馈,判断学生在什么时候开始感到无聊,什么时候注意力更加集中,以此来提醒老师该如何改善课堂内容、提高授课质量。

研究团队在两间教室里对提出的系统进行了测试,一间教室是香港科技大学的学生,代表高校学生群体;另一间教室是日本某所幼儿园,代表低龄学生群体。

测试发现,这套视觉分析系统在检测那些「明显情绪」方面效果比较好,比如学习兴趣较为强烈时的愉悦感。但系统对于「愤怒」或者「悲伤」等表情的解读能力还是有所欠缺。学生们可能只是单纯地专注于课堂内容本身,仅仅因为深入思考而皱了一下眉头,却容易被系统解读为「愤怒」。

系统的工作流程

下图 2 展示了整个系统的工作流程,包括数据处理和视觉探索两大阶段。

图2。

数据处理过程

第一阶段是处理一系列原始数据并利用计算机视觉算法提取出情感信息,包括面部检测、面部识别、情感识别、特征抽取等步骤。

在面部检测步骤中,研究者采用 MTCNN(多任务级联卷积网络,一种用于预测面部和 Landmark 位置的深度卷积网络)去检测每个样本帧中的人脸。

在面部识别阶段,面部对比的通常方法是对图像进行矢量化操作。研究者采用了 facenet(一种在面部识别中较为完善的深度学习模型),它可以直接学习从面部图像到紧致欧式空间的映射

在情感识别阶段,研究者出于直观和可理解方面的考虑,选择使用了分类模型。他们微调了一个 CNN 模型(ResNet-50),采用了 FER 2013 数据集。这一数据集一直广泛用于面部表情识别

考虑到情绪识别可能没那么准确,研究者挑出了一些影响因素(如人脸大小、遮挡情况、图像分辨率、照明情况等),并在系统中对它们进行了视觉编码,以此判断学生们的情感状况。

这些影响因素可能在系统情绪分析中起到了比较关键的作用。比如离摄像头比较远的人,他的脸部在视频中占据的面积比较小,就更容易被错误识别。除此之外,一个人的脸如果经常被他人遮挡,也会有更高的系统误判风险。研究者将这些因素整合到了系统分析流程之中,提供了更加丰富的交互功能来改进系统性能。

交互式的视觉系统

第二阶段是根据五大要求(细节见论文)设计一个交互式的视觉系统,该系统可以支持两种粒度的课堂视频视觉分析,包括学生的总体情感演变和某个学生单独的情感演变过程。

研究者基于 Vue.js 前端框架和 Flask 后端框架实现了一个基于 web 的系统,如下图 3 所示。该系统包括三大视图:摘要视图(summary view,图 3a-b);人物视图(character view,图 3c)和视频视图(video view,Fig. 3d)。

图3。

为老师提供学生情感变化的总体情况非常重要,因此研究者设计了一个摘要视图,让老师看到学生情感的静态和动态演变数据。图 3(a)显示的是学生的情感档案,用于展示学生的情感分布(静态摘要);图 3(b)显示的是学生的情感变化曲线(动态摘要)。

人物视图通过肖像类标志符号,将所选定目标人物的情绪状态可视化地表现出来。不同情感肖像之间的差异使得用户能够识别和比较不同人物的特征。如下图 5 所示,研究者在设计中采用了定制化的饼状图:

图 5:情感变化的可视化图示。

通过这种定制化的饼状图设计,用户可以很容易地观察到详细的情感信息以及对其感兴趣的影响因素。同时,屏幕快照功能使得不同人之间的情感信息比较变得更加容易。如果用户希望查看详细信息,可以单击感兴趣的快照进行查看。快照的示例位于人物视图(图 3c)的左侧。

在系统中,研究者提供了原始视频以供用户在视频视图(图 3d)中浏览。同时,用户可以用不同速度播放视频,当用户将视频暂停时,每一帧中对应的面部都会被高亮显示。用户还可以根据自己对情感流的观察挑选出感兴趣的部分进行进一步的探索和挖掘。

「改善」教学,还是「监控」教学?

这项研究的初衷是帮助授课者收集学生反馈、提升教学质量。但事实真能如其所愿吗?

相比于依据视频记录去分析情绪,在国内的课堂中,还有更夸张的「智能头环」。

在浙江金华某小学的课堂之上,每一个座位上的学生都戴着一个状如「金箍」的黑色头环,专注时亮红灯,走神时亮蓝灯,这个注意力分数每 10 分钟发送一次到授课教师的电脑,并同步到家长微信群中,让身在校外的家长随时掌握孩子的上课状态。

但这种头环,或者此类课堂监控技术,面对着非常多的质疑。比如伦理问题:它暴露了学生在课堂中的个人情绪,让教师能够知道谁在课堂上专注或不专注。这涉及到学生的隐私问题。

另外,在一节 40 分钟的课程中,学生的注意力本就不可能保持全程专注,持续性监控学生的注意力并对任何注意力不专注的行为进行校正没有意义。

还有一方面,这种监控系统可能会分散教师和学生的注意力,因为身在其中的人会觉得有一双眼睛「无时无刻不在盯着自己」。如果是头戴金箍,这种情绪会变得更加明显。这种被实时监控的感觉会在一定程度上会影响课堂参与者自由发表意见。

参考链接:

https://spectrum.ieee.org/the-human-os/biomedical/devices/ai-tracks-emotions-in-the-classroom

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8948010

入门ResNet50CNNIEEE哈尔滨工程大学香港科技大学情绪识别
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

特征抽取技术

香港科技大学机构

香港科技大学(The Hong Kong University of Science and Technology),简称港科大(HKUST),为东亚研究型大学协会、环太平洋大学联盟、亚洲大学联盟、中国大学校长联谊会、京港大学联盟、粤港澳高校联盟重要成员,并获AACSB和EQUIS双重认证,是一所亚洲顶尖、国际知名的研究型大学。该校以科技和商业管理为主、人文及社会科学并重,尤以商科和工科见长。

面部表情识别技术

面部表情识别的任务是将面部图像上的表情分类为各种类别,如愤怒,恐惧,惊讶,悲伤,快乐等。

推荐文章
暂无评论
暂无评论~