参与GeekAI 李泽南

下学期的选课,我打算用AI来帮助决定了

除了搜索社交网络、聆听学长和老师的教诲,我们在选课时还能参考些什么呢?清华大学和 UC Berkeley 的研究者们最近提交的研究已经用上了人工智能中的循环神经网络,并取得了不错的结果。

在该研究中,人们使用了美国 2008 年秋-2017 年春季学期各个专业本科和研究生阶段 16 万学生,共计 480 万次课程的注册信息训练了一个 AI 模型,其课程推荐的成绩通过率很高,甚至能让生物学课程拿 A 的几率达到 75%。再也不用担心选错课了?让我们看看这是怎么做到的。

想要顺利获得大学文凭并非一件易事。你需要做出很多具有挑战性的决定,例如应该报考哪个专业、选修哪些课程以及应该选择哪种难度级别的课程。做出这些决定需要对风险和回报进行权衡,从而加大了学生们想要最大限度完成多目标的难度,也增加了他们想要规避的风险(例如,在保持高 GPA 的同时,选择有利于日后找工作的挑战性课程)。

当我们拥有了充足的关于学生注册信息、成绩以及专业方面的历史数据后,自然而然地就会想到:机器学习的分析方法能否从这些记录中提取出一些有助于学生实现他们目标的东西呢?在清华大学和 UC Berkeley 最新的论文中,研究人员基于高等教育中关于预测和推荐的发现和方法,提出了一种基于目标的课程推荐方法。

随着学生们对数据科学等多种学科的兴趣日益浓厚,为提升学生选课的公平性和包容性而提供适当的「智能化倾斜」的重要性也随之增加。这意味着为来自不同学科背景的学生提供通往成功的途径。研究人员着眼于这个特定的目标:即根据一个人已有的课程经历,为感兴趣的目标课程找到合适的先导课程。

由于种种原因,大学目前提供的先导课程的信息可能未必十分理想:(1)先到课程信息可能不是最新更新的。(2)这些信息可能不全面,忽视了将来自不同系的课程组合在一起后可以覆盖要求的先导课程的可能性。(3)他们不考虑每个学生已经学会了哪些知识,因此如果不强制执行,会经常被学生所忽视。(4)这些信息可能包括经常超过选课容纳人数上限的课程,学生可能是因为别无选择才选了这些课程作为替代方案。

看起来的确是人们在大学选课的时候会遇到的问题,基于此,研究人员提出的方法解决了这四个潜在的问题,特别是通过根据学生已经学会的知识的模型对先导课程提出了一些修改的建议。

针对一个学生已学课程的历史和任意目标课程,向他/她推荐一套合适的课程,无疑是一个棘手的问题。授课教师往往是在他们的学科领域具有深厚知识的专家。非教职的学术顾问对课程有很广泛的了解,但却并没有那么深入,而且与在校生的数量相比,这两种资源在高等教育中都是稀缺的。机器学习模型可以根据从大数据中学习到的表征的广度和深度进行扩展并获益,但缺乏轻松地根据观测结果梳理出相关和因果关系之间差异的能力。

在论文中,作者试图探究:「如果给定足够的约束条件,人工智能模型中提取出合理的建议」。对此,研究人员选择了三种预测验证方法(成绩预测、先导课程预测以及课程选择预测),目的是综合这三种验证信息观察这种方法是否能在公开环境下进行测试。

由于循环神经网络(RNN)具有鲁棒的表示能力和时序建模能力,研究者们选择它作为扩展到这一基于目标的推荐任务的框架。尽管 RNN 以前被应用于基于协同过滤原则的推荐系统,但它们并没有在任何领域被重新用于做出更有针对性的基于个性化目标的推荐。因此,对基于目标任务的 RNN 在分类上的的验证和应用是这项工作的一个新贡献。

基于目标的推荐方法

首先,研究人员提出了几个假设:学生对于课程内容有一个「最近发展区」,我们向学生推荐的课程范围应该限于他们预期能够成功完成的课程。这就需要训练一个预测课程成绩的模型,类似于应用于教辅系统的深度知识追踪神经框架。第二个假设是,这种课程表现模型能够推断出必要的信息,这些信息可以被用来推荐预期的目标课程的先导课程。为了验证这个假设,研究使用了大学现有的先导课程列表,并测试成绩预测模型推断这些现有依赖的能力。最后,我们假设,那些在目标课程中取得成功的学生应该更多地遵循我们的模型所产生的推荐结果,而不是那些成绩不佳的学生。而这个假设还要在满足第三个验证的情况下才成立:在下学期开设一门历史上难度较大的课程之前,需要先预测前一学期的课程注册人数。

举例而言,相关关系与因果关系不同的一个例子是:选修了一门难度较大课程的学生可能会在随后的学期中取得优秀的表现,这可能不是因为这些难度较大的课程本身具有为后续课程打下基础的预备价值,而是因为这些自行选择课程的学生往往本身就成绩优异。我们承认数据中存在这种容易混淆的现象,但相信通过这种验证,再加上第一个假设,即不向不太可能通过考试的学生推荐课程,应该可以缓解这种担忧。

此外,我们根据课程编号所示的三个划分级别(即低年级、高年级和研究生),将推荐结果限制在不高于目标课程级别的课程。我们还将推荐结果限制在包含先导课程的院系,而非目标课程所在部门的其他课程。我们假设,这些约束可以减少由于数据中的混淆现象而导致做出严重错误推荐的可能性。

传统的循环神经网络(RNN)已经被一些研究人员用于预测序列中的下一个动作。这相当于一种「大多数像你一样的人跟着你也做了 X」的协同推荐。然而,当我们考虑到学生选择课程的不同意图时,学生的目标又往往可能与大多数人的目标不一致。一个简单的解决办法是只使用实现了预定目标的学生的数据进行训练;然而,这种方法却并不理想,因为它会消除可以学习到更健壮的领域表征的数据点。这也是不可取的,因为它将需要训练数以千计的独立模型,以满足我们寻找任意目标课程的先导课程的任务需求。

图 1:模型 1——朴素的课程成绩预测模型

图 2:模型 2——将前一学期的课程成绩和本学期课程注册情况相结合作为隐含层的输入的课程成绩预测模型

图 3:模型 3—将上学期课程成绩、上学期报考的专业、本学期课程注册情况相结合作为输出层的直接输入的课程成绩预测模型

数据集

该研究使用了从加州大学伯克利分校收集到的数据集,其中包含了 2008 年秋季至 2017 年春季的匿名处理后的学生课程注册人数。数据集包含 164,196 名学生(包括本科生和研究生)每学期、总计 480 万人次的课程注册信息。课程注册意味着该学生在学期结束时仍在处于该课程的在读状态。学生们在活跃学期的课程负荷中位数为 4。数据集中共包含 10,430 门特色课程,其中 9,714 门特色初级讲座课程,这些课程来自 124 个系的 197 门学科,分布于 6 所学院的 17 个不同的学部。在本文的所有分析中,作者们只考虑了初级课程(讲座)和在 10 年期间内至少有 20 人注册的课程。

表 1:数据集中学生注册信息的示例

表 2:学生课程成绩预测模型的评价结果

图 7:基于目标的推荐系统的模型评价结果(成绩阈值:A)

图 8:基于目标的推荐系统的模型评价结果(成绩阈值:B)

由于这是一个因果推理问题,而且我们只能通过观测数据来训练模型,所以我们使用这三个来源来验证一个根据预测成绩训练的模型,以帮助评估模型在现实世界中的表现是否合理。等级为 B 的目标阈值模型在成绩预测任务中的得分略高于对比基线,在二分类任务中的准确率达到了 88%,而阈值为 A 的模型的准确率得分较低,为 75%,但明显优于表现较差的准确率为 50% 的多数类别的对比基线。

论文:Goal-based Course Recommendation

论文地址:https://arxiv.org/abs/1812.10078

摘要:随着学生们对跨学科学术兴趣的增加和学术咨询资源的不足,探索数据辅助的方法从而指导学生做出决策的重要性达到了前所未有的高度。我们的工作建立在快速发展的高等教育中的预测和推荐问题的前人的研究成果和方法的基础上,开发出了一种新型的基于循环神经网络的推荐系统,针对我们对学生的先验知识背景和最近发展区的估计,为他们感兴趣的目标课程提供选择先导课程的建议。我们使用成绩预测和恢复大学给出的先导关系的能力的测试来验证模型。在第三个验证中,我们在选修一门具有史无前例的难度的课程前一学期,为学生提供了完全个性化的推荐,并观察了与我们可能的建议之间的微分重叠。虽然不能证明因果上的有效性,但这三个对基于目标的推荐模型性能的评价结果为本工作建立了信心,使我们更接近于在公开环境下部署这种个性化的课程预备功能。

当然,对于大学生来说,一个人的奋斗还要考虑不同的目标尺度。研究人员表示,未来他们可能会在 RNN 模型中加入对于职业规划等「长远目标」的评估,并考虑其他可能的数据来帮助学生进行选课决策。

理论RNN
2
相关数据
机器之心机构

机器之心Synced创立于 2014 年,是国内首家系统性关注人工智能的科技媒体。

因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

大数据技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

加州大学伯克利分校机构

加利福尼亚大学伯克利分校,简称加州大学伯克利分校,又常被译为加利福尼亚大学伯克莱分校,位于美国加利福尼亚州旧金山湾区伯克利市,是一所世界著名的公立研究型大学。其许多科系位于全球大学排行前十名,是世界上最负盛名的大学之一,常被誉为美国乃至世界最顶尖的公立大学。

推荐文章