美国正尝试用AI改GRE作文!背模版不好使了,性别肤色都影响评分?

马上就是大学入学季了,六月的一场高考让昔日的同窗走向了不同的城市。考试是每一个人都绕不开的一道坎,虽然未必都是“一考定终身”,但是人生轨迹总不免被各种考试改变。

来源 / VICE 编译 / 张睿毅、邢畅 出品 / 公众号“大数据文摘”(ID:BigDataDigest) 理论派经授权发布

在美国,每年都有数百万学生进行标准化测试。在美国,研究生入学考试(GRE)这样的国家考试是高等教育的守门人,从学生是否毕业到学校的联邦资助、教师薪酬等各方面,标准化考试都有重要意义。

传统的纸笔测试已经让位于计算机。而且越来越多的评分过程,甚至是书面论文,也被转交给了算法。

根据Motherboard进行的一项调查显示,自然语言处理(NLP)人工智能系统(通常被称为自动化论文评分引擎),现在是至少21个州的标准化测试的初级或中级分级员。

在这21个州中,有3个洲表示每篇文章也会被人类评分。但是在剩下的18个州中,只有一小部分学生的论文将被随机选择供人类分级员仔细检查机器的工作。

但心理测量学家——研究测试和AI专家的专家以及Motherboard获得的文件的研究表明,这些工具容易受到AI世界中反复出现的缺陷的影响:对某些人口群体的偏见。正如一项Motherboard实验所证明的那样,一些系统可能会被含有复杂词汇的无意义论文所愚弄。

论文评分引擎并不分析写作质量

论文评分引擎实际上并不分析写作质量。他们接受了数百篇示例论文的培训,以识别人类划分的较高或较低等级的评分模式。然后,他们根据这些模式预测人类所分配论文的分数。

华盛顿大学计算语言学教授Emily M. Bender说:“问题在于偏见是另一种模式,所以这些机器学习系统也会逐渐学会。这些机器学习项目不仅会在训练集中产生偏差,而且还会放大它们。”

长期以来,教育行业一直在努力克服来自某些语言背景的学生的意识和潜意识偏见,正如在几个州禁止教授黑人英语俚语一样。

专家说,人工智能有可能加剧歧视。在人类得分答案的数据集上训练论文评分引擎可以弥补算法中存在的偏差。但引擎也非常关注句子长度、词汇、拼写和主语——动词协议等指标——英语学习者和其他群体更有可能做出不同的写作部分。这些系统也无法判断写作的细微差别,比如创造力。

尽管如此,测试管理员和一些州教育官员已经接受了这项技术。传统上,论文是由两名人工检查员联合评分的,但是将机器评级作为论文或作为人类的替补评分员要便宜得多。

机器评分几乎不受监督

关于机器评分偏差的研究很少,部分原因是创建这些系统的公司对自己的算法保密。考试评分供应商严密地保护他们的算法,各州也小心翼翼地不让人们注意到是算法而不是人在给学生打分。只有少数发表的研究调查了这些引擎是否对来自不同语言背景的学生一视同仁,但它们的研究证实了一些批评人士的担忧。

非营利性教育考试服务中心是少数发布机器评分偏差研究的供应商之一。它的“E-rater”引擎用于评估一系列全州评估,GRE和英语TOEFL,外国学生在进入美国某些大学之前必须参加这些考试。

“这是一个普遍关注的问题,这是我在这个领域与所有人交谈的普遍问题,”ETS新产品开发副总裁David Williamson告诉Motherboard,“我们一直在公开它。”

在1999年、2004年、2007年、2008年、2012年和2018年的研究中,ETS发现它的引擎给一些学生,特别是来自中国大陆的学生更高的分数。与此同时,它倾向于强调非洲裔美国人,即使是在在尝试重新配置系统以解决问题之后。

“如果我们进行调整,可能可以帮助一个国家的某个群体,也可能会伤害另一个国家的另一个群体。”ETS高级研究员布伦特布里奇曼说。

2018年12月的一项研究深入研究了ETS的算法,以确定差异产生的原因。与其他参加GRE考试的人群相比,E-rater倾向于给中国大陆的学生更低的的语法成绩,但是对于中国学生的论文篇幅和复杂单词给出了高于平均水平的分数,这导致他们的论文总得分高于专业人类评分者给出的分数。

威廉姆森和其他研究人员写道,综合结果表明,许多来自中国大陆的学生在使用大量预先记忆的文本。

与此同时,非洲裔美国人的语法、写作风格和组织更容易从电子评估者那里获得低分——这一指标与论文长度密切相关——因此他们的得分低于平均水平。但是,当专家对他们的论文进行评分时,他们的表现往往要好得多。

这种偏见会严重影响学生在高风险测试中的表现。GRE论文按六分制进行评分,其中0仅分配给不完整或极其偏离主题的论文。当ETS研究人员比较专家人类评分和E-rater之间的平均差异时,他们发现该机器在中国学生的平均分为1.3分,而非洲裔美国人的得分低于0.81分。而这些都只是平均结果,对于一些学生来说,差异会更大。

所有E-rater评完分的文章也会由一个人再次评分,评分存在差异的文章会被发给另一个人以最终评分。由于这项机制,ETS并不认为有任何学生受到了E-rater检测系统的偏见带来的不利影响。

根据联邦法律,在没有学生书面同意的情况下,公布其GRE以及其他考试成绩是违法的,所以像E-rater这样的系统几乎不可能被外部审查。

2012年,新泽西理工学院(New Jersey Institute of Technology)发表了一项罕见的关于机器评分偏见的研究,研究旨在分析哪些测试最能预测一年级学生应该被安排在什么水平的写作班。

Norbert Elliot是《写作分析杂志》的编辑,曾在GRE技术咨询委员会任职,他在新泽西理工学院担任教授期间领导了这项研究。该研究发现,美国大学理事会的机器评分测试ACCUPLACER不能可靠地预测女性、亚裔、西班牙裔和非裔美国学生的最终写作成绩。因此新泽西理工学院认为,根据《民权法案》第六或第七章的规定,美国大学理事将无法为自己使用该测试进行法律辩护。

ACCUPLACER已经升级了,但是很多关于机器评分的重大问题仍然存在,尤其是在没有人参与其中的情况下。

你的文章可以完全不连贯,但仍然能从算法中获得高分。

几年前,麻省理工学院前写作课主任Les Perelman和一群学生开发了Basic Automatic B.S. Essay Language Generator,这个程序可以把一连串复杂的单词和句子拼凑成毫无意义的胡言乱语。使用多个不同的评分引擎,这些毫无意义的文章总是能获得很高的分数,有时甚至是完美的分数。

Motherboard重现了这个实验。他们用BABEL生成了两篇文章,一篇作为Issue、一篇作为Argument,提交给GRE的在线练习工具ScoreItNow!该工具使用E-rater进行评分。两篇文章的得分都是4分(满分为6分),评价说,“对论点进行有力论述,表意清晰”。

Perelman在接受Motherboard采访时说:“BABEL生成器证明你的文章可以完全不连贯,但仍然可以从算法中获得高分。

曾任新泽西理工学院教授的Eliot说:“自动写作评估只是一种给学生作品进行标记的方式。如果我们过分强调书面惯例,即标准书面英语,你就会发现,自动评分系统只会重视某些类型的写作。对书面惯例的了解只是学生写作能力的一部分。有些学生可能特别敏锐和富有洞察力,人类评分者会重视这一点,而机器并不会。”

尽管如此,只要每篇文章都有人工评分进行质量控制,Elliot仍然支持用机器给文章打分,以及使用NLP为作者提供即时反馈。

他表示,“我对某所大学发生的事情持批评态度,但我仍然希望开放地接受新技术来促进学生的成功。我当然不是说取代整个写作分析行业,因为在某些情况下,它会把学生分到pi的组。”

算法的偏见使其带来的好处得到质疑

但算法中存在的偏见,让自动评分的好处(如对学生和教师的即时反馈)也遭到了质疑。

AI Now Institute的博士后研究员Sarah Myers West表示,“如果你给学生的即时反馈是有偏见的,那这还是有用的反馈吗?还是说这种反馈会使得对某些群体的歧视持续下去?”

大多数的机器评分系统,对于任何一篇随机选择的文章,如果人与机器的评分存在较大差异,都会被提交给另一个人进行评审。

多年来,犹他州一直将AI作为其标准化考试的主要评分工具。

“我们州的评分工作需要大量的人力和物力,并且十分耗时”该州考试发展评估员Cydnee Carter表示,这一自动化过程使得州政府能够向学生和教师提供即时反馈。

AIR在2017-2018年的一份技术报告中向犹他州教育委员会提供了一个书面回答问题的例子,该问题将由人工智能评分。

非营利性的美国研究协会(American Institutes for Research,AIR)是犹他州服务时间最长的测试供应商,通过公开记录请求, Motherboard获得了AIR为犹他州准备的年度技术报告。这些报告让我们得以一窥,为了公平起见,供应商是如何监控他们的文章评分系统的。

每年,AIR都会在全州评估中测试新的问题。它监测的问题之一是——与总分相似的白人或男性学生相比,女生或某些少数族裔学生在特定问题上的表现如何。这种方式被称为项目功能差异(DIF)。

在犹他州2017-2018学年的测试中,AIR标记了348个对于少数族裔或女性学生的轻微DIF英语语言艺术(ELA)问题,而对白人或男性学生这一数字为40。它还指出了3个对少数族裔或女性学生表现出严重DIF问题。

被标记为严重DIF的问题将提交给AIR的公平和敏感性委员会进行审查。

在某些情况下,很难确定偏见产生的原因。AIR的自动评分高级主管Susan Lottridge说,可能是提示词的措辞、有偏见的评分员或者是算法存在偏见导致的结果。

她说:“当涉及到这些开放式项目时,我们并不知道DIF的来源,我认为这是一个亟待研究的领域。”

Lottridge表示,总的来说,AIR的评分系统在不同群体中的表现基本一致。

但是对一些教育工作者来说,这并不够。2018年,由于教师们和Perelman等写作专家的强烈抗议,澳大利亚搁置了在其全国标准化考试中实施机器评分的计划。在尚未成熟的AI行业,偏见问题正促使企业重新考虑这些工具的价值。

West说:“指出这个领域的歧视问题是一项持续挑战,这也是AI这个更广泛领域中的大问题。一个困难的问题并不意味着不需要解决,尤其是当这些测试被用于决定人们能否获得心仪工作。”

相关报道:https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

参与评论

请输入你的评论!
请在这里输入你的名字