Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

周宇强专栏

SIGKDD2021 | 中科大利用神经网络和端到端训练框架,探究教育情境对学生能力的影响

来自中国科学技术大学的研究者提出了一种教育情境感知的认知诊断框架,使用神经网络以及端到端的训练框架,自适应学习不同教育情境信息的量化影响,并结合现有认知诊断工作的方法,增强了诊断的结果。

父母的受教育水平是否与学生的学习表现相关?家庭条件、学校资源到底对学生能力产生多大影响?上课氛围、老师态度与学生的学习效果有怎样的关系?类似的教育情境信息对学生能力到底有怎样的影响,一起跟随中国科学技术大学的刘淇教授智慧教育课题组来一探究竟吧!

  • 论文地址:https://doi.org/10.1145/3447548.3467264
  • 项目地址:github.com/bigdata-ustc/ECD
  • 研究组主页:base.ustc.edu.cn/

教育情境与认知诊断

学生学习过程相关情境信息(如学习习惯,父母受教育程度,家庭条件等),被称为教育情境信息;在教育领域中,这些情境信息对理解教育过程以及解决教育问题(如教学安排,教育公平等)都有很重要的意义。
图表 1:教育情境、学生能力与学生表现

在智慧教育中,认知诊断是一项基础而必要的任务;它通过收集学生的信息(通常是答题等行为记录)与试题信息(如试题文本),来推断学生当前的知识状态。如图,学生选择了一些题目进行练习,得到了对应的答题记录,每道试题包含特定的知识点;通过认知诊断可以得到该学生在不同知识点上的掌握程度。例如学生答对了试题e_1,而e_1包含「Bacteria」这个知识点,因此诊断得出该学生对于「Bacteria」知识点的掌握程度较高(例如 0.8 等),反映到诊断报告的雷达图中蓝线的靠近外侧。认知诊断的结果可以用作教育资源推荐、学生表现预测、学习小组分组等后续智慧教育应用的支撑。

背景

情境信息或者说上下文信息目前在信息检索相关领域(如推荐系统,web 搜索,广告等)有着非常广泛的应用,它们反映着一个心理学的通识:情境信息往往通过影响人的内在特质来影响人的外在表现。如推荐系统中,情境信息通过影响用户的内在偏好,从而引导用户的消费行为。而在教育领域,教育情境信息则影响着学生的知识状态,进而反映在学生的练习作答结果中。

教育情境信息在传统教育学中讨论已久,它们主要延续着实证研究的思路(提出假设 - 收集数据 - 实验分析 - 得出结论),先获取学生的得分或者能力作为衡量标准,再使用主成分分析线性回归等方法对教育情境信息的作用进行分析。其中学生得分可比要求学生所做练习相同,因此在大规模的情境信息分析中,往往采用基于传统认知诊断理论得到的学生能力作为衡量的方式。

认知诊断研究可以追溯到教育心理学领域,代表性的工作有项目反映理论(Item Response Theory,IRT)。近年来,随着人工智能以及智慧教育的兴起,作为智慧教育应用的基础任务之一,基于机器学习深度学习的认知诊断方法被广泛研究,其中经典的工作有将项目反映理论拓展的多维项目反映理论(Multidimensional Item Response Theory,MIRT),使用神经网络学习认知函数的神经认知诊断框架(Neural Cognitive Diagnosis,NeuralCD)。然而,目前认知诊断的工作往往只关注于试题相关信息(如试题知识点矩阵、知识点的关系、试题文本等)的挖掘,对于学生学习过程相关的教育情境信息则关注很少。

此外,虽然使用认知诊断结果一定程度上能解决教育情境信息分析中的可比性问题,但传统教育领域的研究方式依然存在误差传递、影响难以量化等问题。在这一背景下,该研究提出教育情境感知的认知诊断框架,期望使用神经网络以及端到端的训练框架,自适应学习不同教育情境信息的量化影响,并结合现有认知诊断工作的方法,增强诊断的结果。

教育情境感知的认知诊断

1、问题定义

设学习系统中有 N 个学生,T 个情境信息问题以及 M 个练习。学生集合,情境问题集合,练习问题集合。学生的情境信息记录表示为三元组集合R_q;答题记录表示为的集合R_e,其中r_q与r_e分别是学生s对情境问题q的回答与在练习e上的得分。

给定学生s的记录,该研究的目标是通过学生表现预测的过程,获取学生s的知识点掌握程度。

2、情境感知的认知诊断框架

几乎所有传统认知诊断方法都包括学生参数、试题参数、学生与试题交互函数这三个部分,其合理性已被大量工作验证。总体上,学生作答过程可以形式化为,其中分别代表学生知识状态、练习相关参数(如难度,知识点),F为认知函数,r为学生表现。学生知识状态则可以进一步表示为:
其中C为情境信息输入,H为情境影响函数,分别代表情境影响的外显特质与历史学习情况影响的学生内在特质,G代表学生特质对知识状态的映射函数。
该研究提出一个两阶段的框架:教育情境建模阶段与诊断强化阶段。

  • 首先,在教育情境建模阶段中,该研究提出使用一个分层注意力网络建模情境输入对学生知识状态的外在影响表示 ,即建模情境影响函数H。具体网络结构在下小节介绍。
  • 其次,在诊断强化阶段,该研究通过将学生参数(学生知识状态)形式化为情境信息影响的外显特质与历史学习情况影响的内在特质两部分的调和(映射函数G)。
其中,d_t为学生 id 映射权重参数,由网络学习。这样,情境信息表示能够对现有的认知诊断方法(认知函数F)进行拓展。该研究对认知诊断领域经典的 IRT、MIRT 以及 NeuralCD 方法进行了拓展实现。
图表 3:ECD 模型框架

3、情境信息建模

教育情境信息主要包括以下特点:内容复杂性,个体差异性,内在相关性。其中内容复杂性指教育情境信息输入包含丰富来源的内容。个体差异性则是指同一情境信息对学生的影响也会因人而异。例如情境信息「接受辅导」对于学生的影响虽然总体上是积极的,但是对于勤奋的学生的影响往往要比贪玩的学生更明显(因为贪玩的学生很可能不会认真学习,从而无法充分利用这一积极条件)。内在相关性则是指不同情境信息之间也可能存在相互影响。比如「家庭条件」也可能影响「接受辅导」的效果。

针对上述特性,该研究首先根据内容将情境信息输入分成不同的分组,分别建模其影响。其次,该研究使用注意力机制计算学生特性与情境信息之间的相性,从而自适应学习不同情境信息对学生的影响权重。接着,该研究使用自注意力机制模块来模拟不同输入之间的相互影响情况。
图表 4:Embedding 层与 Context filtering 层

具体来说,情境建模网络包含四层网络结构:嵌入(embedding)层、过滤(context filtering)层、交互(context interaction)层、聚合(context aggregation)层。该研究在嵌入层将每个情境信息输入r_q映射为情境影响向量c^v与情境特性向量c^k,将学生 id 输入t映射为个性向量x_t。在过滤层中,对于某一组情境信息的不同输入,该研究将学生个性表示x_t作为注意力机制中的查询 query,将情境特性表示c^k与情境影响表示c^v分别作为注意力机制中的键 key 与值 value。通过计算学生个性表示x_t与情境特性表示c^k的余弦相似度作为学生与特定情境输入的相性,进而分配组内不同情境输入影响c^v,以及该组情境特性c^k的权重,这样就能得到各组情境输入的影响表示v与特性表示k。
图表 5:Context interaction 层与 Context aggregation 层

在交互层中,类似的,该研究使用各组情境的影响表示v与特性k表示分别作为自注意力机制中的值 value 与键 key,从而得到交互后的各组情境输入的影响表示v'与特性表示k'。最后,在聚合层中,该研究依然使用个性表示x_t作为注意力机制中的查询 query,将各组情境输入的影响表示v'与特性表示k'分别作为自注意力机制中的值 value 与键 key,从而聚合各组情境输入,得到情境输入对学生的最终的影响表示
实验

实验使用的数据来自国际学生评估项目(Programme for International Student Assessment,PISA)2015 年的公开数据集(以下简称 PISA2015),包含来自 79 个国家与地区的学生的问卷数据与答题数据。PISA 项目是由世界经合组织(OECD)组织的国际学生评估项目,包含专家设计的与教育情境信息相关的学生问卷数据与学生在数学、科学、阅读等学科的测试作答数据,PISA 2015 的主要测试科目是科学,因此实验中使用学生在科学测试中的作答数据。该研究根据区域,将 PISA2015 的科学作答数据中抽取了三个数据集,分别是 Asia、Europe 与 America,具体的数据预处理可以参考论文内容,下表是数据集统计情况。
表格 1:数据集统计

1. 学生表现预测

学生真实的知识点熟练度标签是无法获取的,因此该研究采用间接衡量诊断结果准确性的方法,即使用学生的诊断结果来预测学生的在非训练数据中试题的得分,这也是传统认知诊断模型的常规做法。该研究实验的 baseline 包括两类,一类是没有情境信息强化的传统认知针对模型(如 NeuralCD,IRT 以及 MIRT),一类是基于该研究的二阶段框架,使用传统的上下文建模网络(如 Deep FM 与 NeuralFM 网络)对情境信息影响进行建模的模型。实验的结果如下表,该研究的 ECD-NeuralCD、ECD-IRT、ECD-MIRT 模型在不同区域的数据集中相较两类 baseline 取得了较大的提升。此外,随机模型(random)在不同数据集上 AUC 都在 0.5 左右,验证了数据集的样本分布情况是合理的。
表格 2:学生表现预测

2. 消融实验

为了证明情境建模网络结构的合理性,该研究通过使用求和层代替情境建模网络中的各个网络层进行了消融实验,结果如下表。任何一层网络的取代都会降低最终的实验效果,并且聚合层的影响最为明显。
表格 3:消融实验

3. 参数解释性实验

为了进一步说明模型的可解释性,该研究还做了以下参数解释性实验:个性向量的可视化实验,过滤层的注意力模块可视化实验,情境信息影响的外显特质的权重的统计实验。

1)个性向量的可视化实验

该研究首先将学生个性向量使用 t-SNE 进行降维,并可视化为散点;接着对于每个散点,根据该学生在练习上的平均得分率(0~1)进行染色,可视化如图。可以看到,学习的个性向量的分布与学生的平均得分率之间是存在相关性的,这也与研究者的直觉一致。
图表 6:学生个性向量可视化分析

2)过滤层注意力模块可视化

该研究选取了部分学生的情境输入的注意力权重进行可视化,其中 NO.0~4 的学生是平均得分率低的学生,NO.5~9 的学生有较高的得分率。研究者将其对应的情境输入编码(同一情境信息,编码越大的输入代表它对于学生的知识状态影响越积极)也可视化在图中。从 “Books” 信息的横向对比,可以看到低得分率的学生关注于较为消极的输入,而高得分率的学生则关注较为积极的输入;从 4、8、9 号学生的纵向对比,也可以得到类似的结论。这说明注意力模块的确模拟了情境信息与学生个性之间的相性。
图表 7:注意力可视化

3)情境影响的权重

该研究统计了不同 ECD 模型实现中,以及 ECD-MIRT 中部分地区的各个学生参数的分布情况,结果绝大多数d_t都在 0.5 左右(0.4~0.6),说明情境信息影响的外显特质与学生历史学习情况的内在特质对学生最终的知识状态都有重要的影响。
图表 8:情境权重分析

4. 地区对比实验

最后,该研究也基于聚合(context aggregation)层中不同内容的情境影响的注意力权重,统计了各个学生 top-3 中要的情境信息,并分地区进行统计,结果如下表。其中有一些有意思的发现,教育资源相关情境信息在所有区域都很重要,例如家庭条件(Home ESCS)以及信息通信技术(ICT)相关的情境(PS:United States 区域缺少该部分的情境信息)。中韩地区会关注父母的受教育程度,研究者推测这可能与中韩相似的高考制度与氛围有关。而欧美地区对于在校学习相关的“School learning“与”Teacher Attitude“会比较关注,而亚洲地区对它们则不那么关注,研究者推测这可能与教学模式与教学目标之间的差异有关。
表格 4:不同地区关注的情境信息

随着智慧教育的兴起,认知诊断理论受到广泛的研究与发展。认知诊断结果能够为教育情境信息分析提供灵活的衡量指标,然而传统教育学实证研究的思路由于难以量化、误差传递的缺点,不适应当前的多学科、大数据量的场景。基于端到端的网络框架,用教育情境信息辅助认知诊断,进而分析教育情境信息作用是一个值得探索的方向。
理论教育情境端到端训练框架神经网络中科大
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

自适应学习技术

自适应学习也称为适应性教学(Adaptive Learning),是一种以计算机作为交互式教学手段的教学方法,根据每个学习者的特别需求,以协调人力资源和调解资源的分配。计算机根据学生的学习需求(如根据学生对问题、任务和经验的反馈)调整教育材料的表达方式。自适应学习技术已经涵盖了来自各个研究领域,包括计算机科学,教育,心理学和脑科学等等。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

主成分分析技术

在多元统计分析中,主成分分析(Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~