边策 萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI
上学的时候,老师一定教导过你:遇到不会的问答题,就算是瞎写,也要随便写两句。也许阅卷老师心情好,可能会酌情给分呢。
老师会不会给分,不知道。但是,AI真的会给分,甚至可能是满分,即使你什么也不知道。
最近,一个号称服务于美国2万所学校的AI教学平台翻车了,利用它的漏洞去“裸考”就能轻松及格,简直就是“学渣福音”。
翻车过程
事情的起因是这样的:
一位美国家长Dana有一天发现,她正在读七年级的儿子突然哭了。因为有道历史题,孩子只拿了50%的分数。
这意味着他必须把剩下题目全部答对,否则就会不及格。
这道题问的是:君士坦丁堡的地理位置是如何帮助拜占庭帝国变得富有强大的?
而孩子的回答是基本没有问题的。(请忽略最后一句话,这句话不是孩子写的,原因后面自见分晓。)
一开始,Dana觉得,改卷子的老师是不是太苛刻?她这样安慰儿子。
但是孩子说,他把答案提交1秒后就得到了分数。所以Dana意识到,批阅试卷的应该不是人,而是AI。
Dana对技术有一定的了解,她觉得,AI系统很可能是根据关键词来评分。为了验证自己的想法,他把儿子的作业做了一遍。
她尝试在答案里加入“财富、商队、中国、印度”,也就是上图中的最后一句,反正能想到的关键词都一股脑儿填进去。
奇迹出现了,这道题她拿了满分。即使这些关键词之间没有任何串联。
单词沙拉——Dana找到了一种获得高分的好办法,就是把所有可能的关键词组合起来,总有能蒙对的。这种方法对短问答题尤其有效。
当然,这只是Dana本人的猜测。实际上这家公司在官方的帮助中心里已经承认了:我们就是按照关键词的百分比来评分的。
没有关键词0分,有一个就拿一点分,全部命中拿100分。
绕过AI的作弊“妙招”
提供这项AI评分技术的公司叫做Edgenuity。
新冠疫情让美国的不少学校无法开学,学生只能在家学习,所以很多学校就用上了Edgenuity的远程教学和考试方案。
而Edgenuity的AI评分问题早已有之,只是最近才被外媒发现。
一周前,有网友抱怨自己只拿了0分,很多人就指出了Edgenuity是靠关键词评分的事实。
一位多年前使用过该系统的高中生说,他当年就发现了这个作弊方法。当他完全不知道怎么答题的时候,就在回答框里填入各种单词,而且“经常会奏效”。
还有学生发现,把问题粘贴到答案里也可以得分,因为问题里常常包含了关键词。
想当年老师说过,遇到不会的问答题,把问题抄一遍。诚不欺我也!AI真的比阅卷老师还好说话。
有些学生告诉记者,他们在上学期都使用了这个技巧,并每次都考到了不错的分数。
如果你去Google搜索Edgenuity,那么就会发现,“如何在Edgenuity里作弊”一直处在热搜的位置。
在Reddit论坛的Edgenuity板块里,学生们公然讨论着如何作弊。这款号称防作弊、自动判卷子的Edgenuity其实漏洞百出。
进入这个链接后,真是打开了新世界的大门,原来美国中学生对如何在AI系统中作弊有着颇深的研究。
Edgenuity不是可以防止学生开网页找答案吗?没问题。
设置浏览器在关闭时删除缓存和Cookie,打开另一个浏览器窗口作为搜索答案使用,满分so easy。
其实也不必这么麻烦,现在智能手机这么发达,去Brainly(类似于国内的作业帮)找一下答案就好。反正手机和电脑是分开的嘛。
也就是说,Edgenuity必须和人类教师结合,需要人类帮忙在线监考、审核阅卷结果,这样才能发挥其功效。
显然,美国的一些教师偷懒了。
超过2万所美国学校在用
那么,这家生产“人工智障”的公司Edgenuity,究竟是什么来头?
事实上,1998年就成立的Edgenuity,是美国K-12市场的在线课程和教学服务的领先供应商。
2011年,Edgenuity以5000万美元被Weld North收购后,目前已经有超过2万所学校使用这个教学平台,包括全美排名前25的学区中的20个。
也就是说,全美国教育资源最顶尖的地区,80%都能见到Edgenuity的身影。
不过,原先的Edgenuity,主要是一家教育内容提供商,但它于2016年收购了一家名为Compass Learning的教育软件提供商。
Compass Learning成立于1964年,主要负责做小学和中学阶段的学习评测软件,被收购时,已经有超过200万个美国学生、1万多所美国学校在使用。
前段时间有网友回忆起曾经被Compass Learning相关软件支配的恐惧,在社交媒体上获得了网友的激烈响应。
现在由于疫情原因,大部分美国学校将目光转向了在线教育课程,其中一些学校更是直接将教学和测验都外包给了像Edgenuity这样的在线教育公司。
针对此事,Edgenuity做出了回应,称AI打分永远只会提供“算法上的指导”,不能决定学生的课程成绩。
Edgenuity不会使用算法去代替教师评分,只会提供一个打分参考。老师们有能力接受或否定推荐的分数。AI不会为测试打分,也不会决定学生的测试成绩。
但即便如此,Edgenuity的影响却还在美国扩大。
据美通社消息,Edgenuity近日获得了2020年的卓越教学奖(Tech & Learning Awards of Excellence),全球教育最具代表性之一的EdTech奖项(the EdTech Cool Tool Awards),美国“软件与信息产业协会”(SIIA)唯一核心大奖(the CODiE Awards),以及技术教育奖(the Tech Edvocate Awards)。
这些“经过专家评估的”专业技术奖项,使得Edgenuity成为在线以及K-12教育更具影响力的公司。
AI阅卷老师,国内也有
事实上,AI改卷老师,并非只有国外才有。
早在2017年,阿里就推出了AI批阅中文试卷的系统,产出了“全球第一份机器人批改的作文”。
据搜狐报道,在浙江外国语学院国际学院,阿里AI为来自俄罗斯、韩国等11位留学生批阅了中文试卷,“批阅一篇试卷的时间通常只需要40秒”。
简直比批阅高考作文的老师看得还快。
不过看起来,AI改作文的主要标准,是集中在“纠正语法”上。
例如,在“请写一写你的爱好”的命题作文下,一位学生提到自己的爱好是中文,并在作文中写道:“中文的难点并非是字,而是像女朋友一样善变。我是不会放弃的,除非中国人也放弃我才会放弃。”
△ 图片源自搜狐
对于这两句话,一位汉语系教授表示:“我教了14年的中文,不认真看还真没看出问题。但事实证明,这两句话都是病句,存在杂糅和重复的错误。”
据悉,阿里开发这套阅卷系统的主要目的,是教外国人学中文,所以在语法方面会有严苛的要求。
如果说阿里的阅卷系统还是个小范围的尝试,科大讯飞已经将之应用到实际考试中了。
据了解,早在2016年,我国教育考试中心就和科大讯飞成立了联合实验室,共同开展人工智能技术在阅卷、命题、考试评价分析等方面的研究。
而在2017年,湖北襄阳就已经正式在中考评卷工作中引入了该机器评分系统作为评分辅助手段。
据了解,这个系统基于科大讯飞自主知识产权的手写识别、自然语言理解、智能评测等人工智能核心技术设计研发,能够实现对除选择题以外的所有题型的空白题检测。
不仅如此,还能改主观题,对语文作文、英语作文、英语翻译、文综类简答题、英语填空题题型进行计算机智能评卷。
同时,也能针对语文作文与英语作文,有效地检测出考生抄袭范文的异常答卷,有效降低主观题人工评卷的工作量。
然而,却有微博网友发现了国内AI阅卷系统翻车的情况。
从图中来看,这个名为奇点学院的APP,在批改数学题的时候,要求答案只能与它的公式“完全一致”,其他步骤即使是对的,也不给满分。
△ 图片源自微博 @安托利娅
哪怕是推导过程无误,答案正确的情况下,10分的题目也只给了7.5分。
那么,你相信AI改试卷比人民教师靠谱吗?