小七、笪洁琼、halcyon、闫雨莹编译

为应对评分机器人,美国的大学生也开始背作文模版了

“(某一年)(写你最喜欢的大学)的(添加一个有声望的名字)教授做了关于(此处摘要辩论的关键)的研究,研究人员发现(在这里添加令人信服的数据),并且(这里提供更多虚构的、有说服力的证据),这表明(此处就是你论文得分的关键所在!)。”

有没有回忆起你当年背的高考英语高分模版?

近日,美国几个州在标准化考试中上线自动评分系统。美国教育测试服务公司ETS也开始测评,是否可以在GRE(Graduate Record Examinations美国研究生入学考试)作文中引入自动评分项目。

这一事件也引起了大量争议——计算机真的可以代替人类阅卷吗?

尽管争议还在进行,聪明的学生和应试老师们为了获得更高的分数,已经开始寻找各种“高分攻略”了。

比如,开头的那段模版,就是旧金山的一家教育培训机构Stellar GRE的资深老师Orion Taraban,给他的学生们总结的作文模版。

他的学生一直都是这样做的,使用他们室友的名字,并引用假专家的假研究来支持论点。他们往往都能获得很高的分数。

Taraban老师还总结了哪些加分项呢?

“例如,写上第一次世界大战开始于1945年,计算机也不会觉得你写的不对,反而会因为你细节处理的不错而给你加分。”

“例如,你只要在写作中使用了短语‘in conclusion’,就能得到更高的分数”。

Taraban称,学生需要意识到他们正在为一台机器写作。而当他们在苦恼怎么能写出美丽完美、逻辑连贯且经得起考验的段落时,他们就像是在对牛弹琴。

计算机根本无法体会到这个人究竟做了多少努力,学生也不会得到他们这些额外的知识获得应得的分数。”

引火上身的机器评分

目前,包括犹他州和俄亥俄州在内的美国几个州已经在标准化考试中使用自动评分。

培生集团的研究自动评分系统(Robo-Grader)已经25年了,去年,该系统对大约3400万份涉及了州和国家的高风险测试的学生论文进行了评分。

该集团总裁、科罗拉多大学博尔德分校的研究教授Peter Foltz说,计算机通过分析人类打分的论文来“学习”如何判断作品的好坏,然后通过自动化程序扫描这些相同的特征,自己为文章打分。

“我们的人工智能技术可以判断50到100个特征,”Foltz说。这其中不仅包括拼写和语法等基础知识,还包括逻辑的连贯性和流畅性,单词的运用程度和句子结构的复杂性。

“我们已经做了大量的研究来证明机器评分是非常准确的。”

为了证明这一点,Foltz拿了一篇不那么出色的、充斥着拼写错误和句子的片段样本文章在机器评分系统中运行,并得到了不那么优秀的分数。

犹他州教育委员会的评估发展协调员Cyndee Carter说,开始的时候他们非常谨慎,每一篇机器评分的文章同时也由老师审阅过。

但电脑评分被证明了是“准确的”,所以犹他州现在让机器成为绝大多数文章的唯一裁判。

在大约20%的情况下,当电脑检测到一些不寻常的文章,或者文章的分数在两个分数之间时,它会将这篇文章标记出来让老师审阅。但总的来说,自动评分系统不仅让犹他州节省了成本,也使教师能够在几分钟而不是几个月的时间内得到测试结果,Carter说。

小学和中学教育委员会委员Jeffrey C.Riley在最近的一次小学和中学教育会议上称这一前景“令人兴奋”。“我简直不敢相信这是可能的,”他说。

教育部副局长Jeff Wulfson也提到了“过去几年人工智能的巨大进步”,并表示:“我问Alexa,我们是否可以用电脑来可靠地评分,她说这绝对是有可能的。”

但许多老师并不同意。

“就我而言,这个想法是不成立的,”在波士顿郊外的牛顿南高中的英语老师Kelly Henderson说,“写作是一种艺术,而用算法来评估这种表达形式显然是荒谬的。”

另一位英语老师Robyn Marder也表示:“原创的想法呢?创造力表达的空间在哪里呢?计算机评分将会错过所有这些。”

Marder和Henderson也担心机器评分只会鼓励学生使用最糟糕的公式写作。“计算机程序会奖励什么?”Henderson问道,“它是否会奖励那些碰巧在结构上听起来不错但是实际上都是些乏味的胡言乱语的文章?”

事实证明,Henderson的问题很容易回答。

自动评分的常年批判者Les Perelman设计了一种堪称机器评分克星的生成器来揭露他所认为的自动评分的弱点和荒谬。这个“Babel”生成器("Basic Automatic B.S. Essay Language")的工作原理就像电脑上的文字游戏--米德比里斯(Mad Libs)一样,能够创造出毫无意义却可以从机器评分那儿获得高分的文章。

为了证明这一点,他拿出了GRE考试的一个练习题并输入了与文章提示相关的三个词到他的Babel生成器中。Babel生成器立即输出了一份500字的文章,充满了大量不知名的多音节的同义词:

"History by mimic has not, and presumably never will be precipitously but blithely ensconced. Society will always encompass imaginativeness; many of scrutinizations but a few for an amanuensis. The perjured imaginativeness lies in the area of theory of knowledge but also the field of literature. Instead of enthralling the analysis, grounds constitutes both a disparaging quip and a diligent explanation."(“模仿的历史并没有,也可能永远不会是陡然的,但却无忧无虑地安顿在一起。社会总是会包含很多的审视,但对于一个人来说,却是少数。摘要知识论是知识论的领域,也是文学的领域。与其说这是对分析的着迷,不如说是一种贬低的讽刺和一种勤奋的解释。”)

“这完全没有意义,”Perelman摇着头说。“这不是真正的写作。”

但这对机器评分来说并不重要。

当Perelman把这篇文章提交给GRE自动评分系统时,它得到了一个完美的分数:6/6。

根据GRE成绩,这意味着它“对这个问题进行了有力的、清晰的分析,并巧妙地传达了意义。”

Perelman叹息道:“这太可怕了,机器在某些方面非常出色,在其他方面也很愚蠢。这个就是机器非常非常愚蠢的一种情况。”

Perelman说,由于计算机只能计算,无法理解文章的实际意义,因此论文的好坏其实是与算法无关的。

他还说,他的Babel生成器也证明了系统是很容易被糊弄的。虽然学生们不打算继续使用Babel生成器进行标准化测试,但他们很快就会知道通过使用大量华丽的辞藻、复杂的句型和一些关键短语,就能瞒天过海糊弄过算法。

愚弄系统?

教育测试服务(ETS)的高级研究科学家Nitin Madnani表示,该公司只是研究了GRE自动评分项目。

Madnani说:“如果有人很聪明,研究透了自动评分系统所关注的所有细节,并在写作时考虑到这些,那就不仅仅是愚弄了,它将成为优秀的作品。到那时,你都会忍不住给他高分。”

而目前,GRE论文仍然由人和计算机来综合评分,纯粹的“技术”不能通过真正的考验。

但是在像犹他州这样只有机器进行评分的地方,学生们就会和算法斗智斗勇了。来自犹他州的测评官Carter说:

“学生们都是天才,他们能够愚弄系统。”

Carter说,有一年有个学生写了整整一页的字母“b”,但是他的得分很高。

有些学生也已经发现,他们可以先写一个非常好的段落,然后复制四次,就完成了一篇得分很高的五段式文章。还有一些学生发现,在回答中长篇引用他们要分析的文本,或者摘抄题目本身,都能满足计算机评高分的要求。

但是Carter也承认,每次都能通过优化计算机代码发现这些投机取巧的手段。

休斯顿大学教育学院院长兼教授Mark Shermis和自动评分专家Clear Lake说:“在这场猫和老鼠的游戏中,供应商已经洞悉了这些策略。”

所以作为一种保障措施,所有论文不仅会有得分,还会有一个置信度:“那些投机取巧的文章将获得‘较低置信度’的得分,并且机器会给出‘请人工核验’的建议。”

机器评分的反对者也担心它会改变老师的教学方式。Perelman说:“如果老师的评级是由他们的学生在‘机器评分的标准化测试’上的表现决定的,学校的评级也是由学生的考试成绩决定的,那么为了取得较好的成绩,老师们就会帮助学生去作弊。”

“事实是次要的”

开头提到的旧金山的培训公司Stellar GRE的 Taraban说,事实上,一名优秀的作家并不一定是一个“能写出GRE高分作文的作家”。

Taraban用模版指导学生如何写出令计算机满意的论文。“我训练他们如何制作证据和虚假研究,”他说,“当然我也会告诉他们,在现实生活中不要这样做。”

在GRE自动评分项目中为ETS工作的Madnani承认道:“是的,我们看到过很多次这种情况。即使是每篇文章都会花两分钟去阅读的人工评分员,也不会花太多时间去检查这些细节。毕竟如果评估的目的是测试你是否是一位优秀的英国作家,那么事实就没那么重要了。”

但如果在测试的目的在于事实,比如看学生对历史的掌握程度,那么事实就很重要了。人工智能系统可以根据数据库检索事实,尽管这只适用于极少数的问题。“如果你有数以百万计的事实,那么任何自动化系统都无法验证所有的这些事实,”Madnani说,“所以这就是我们让人类参与进去的原因。”

最后,Madnani说,你把计算机程序设计成什么样子,它就怎么工作:例如在评估一个学生是否知道如何用优美的语言组织一篇包含论点、论据和论证的论文时,有像“in conclusion”这样过渡性的短语,算法会自动给你加分;“firstly”,“secondly”和“thirdly”则表明学生正在进行一个多方面的论证。

纯粹主义者可能会对那种公式化写作嗤之以鼻,但正如开发人员所说,计算机会从老师那里学习什么是好的写作,然后模仿。来自Pearson的Foltz说:“只有当教师认为‘in conclusion’在写作中是一个很好的结构过渡词时,学生才会因此而获得奖励。”

总而言之,机器评分技术可能确实“表现出很高的熟练程度”,并且“能不断学习新技能”。

但不可否认,它仍然有很大的改进空间。

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业评分机器人
相关数据
逻辑技术
Logic

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。