20171207153034.jpg大学入学考试AI考得比人还好

不知听到“机器人能否考上东京大学”这个项目名称时,大家会做何感想?或许你会觉得它的目的就是让机器人能够考上东大。不过该项目负责人、国立资讯学研究所的新井纪子宣称,他们的目标并不是让机器人考上东大,而是想要探究与人类相比,AI的潜力和局限究竟在哪里。
6年左右的研究结果表明,虽然AI考不上东大,但学力标准化值超过了57,相当于高三学生排名前20%的成绩,已经可以考上部分有名私立大学了。然而,AI并不是通过理解语言含义来解答试题的。据说,为这个研究项目而开发的AI“东机君”,在写小论文时,只是搜索教材和维基百科,找出一些相关字句并将它们进行排列组合,但却比大多数学生写出的水准都要高。为什么不会阅读和理解文章的AI反而把人类比下去了?对此新井产生了这样的疑问:“中学生们就能读懂文章吗?”

把握孩子们的实际状态

于是为了测试阅读能力,新井团队开发了阅读能力测试(以下简称“RST”)。从2016年4月到17年7月末,全日本有2.5万人接受了测试(截至目前接受测试者已超4万人)。新井宣称,很少有非强制性的调查能得到这么多人的支持。“学校和老师们在百忙之中做出了进行测试的决定。我想这是由于在日常授课中老师们担心的正是学生们阅读理解能力的缘故,他们很想通过这个RST测试来把握孩子们的实际阅读理解能力。接受测试人数之多,我认为是反映了对RST的支持。”
题目有6种,分别是“对应”,判断“それ(那个)”“ これ(这个)”等指示词指代的是什么、或判断省略的主语或宾语是什么;“主谓关系”,判断哪个是主语,哪个是谓语;“推论”,根据语句里的逻辑和常识进行推论;“确定具体例子类别”,理解定义并判断具体哪件事或哪种东西可能符合定义;“同义句判断”,判断两句话意思是否相同;“确定图表类别”,判断与文章对应的图表。题目都是从国高中教材和词典、报纸上摘取的语句。换而言之,如果看不懂这些句子,就说明你也看不懂教材、词典和报纸。
“从开始写数学入门书的时候起,我经常会实地去中学教书,利用和孩子们一起在学校吃午饭的时间跟他们聊天,因为我想知道他们哪里跟不上。有两年时间,我每周去简易旅店集中的山谷地区(东京的贫民街区——译注),为那里的人们发放救济餐,也从中看到了人们会在哪里碰壁。这些经历都为后来做RST打下了基础。”

为测试阅读理解能力而分析题目

测试题由电脑向受试者随机显示。由于每个受试者的题目都不同,所以不能单纯以正确量和正确率来评估。为此在评估中使用了项目反应理论(item response theory, IRT,又称潜在特质理论)。该理论也应用在托福等考试上。根据IRT可推算出“能力值”,它是一种相对的值,表示不同题目类型下某一受试人在所有受试者中所处的位置。比如有两道选择题,每道题有四个选项(题A和题B),两道题的正确答案都是“2”。我们以这些题目的能力值为横轴,以答案选项的选择比例为纵轴画图,得到以下图表。

题A是能力值越高的受试者选对答案的比例越高,因此可以说这道题目适合用来测试能力的高低。与此相对,题B是能力值越高的人选对答案的比例越低,假如无论能力值高低受试者的正确率相差无几,我们就很难说这道题目出得好。
RST会在做最终分析之前,筛除这些题目。RST还会分析在电脑上的答题速度以及正确率的关系,对疑似不读题就随便做答的受试者的结果也予以筛选排除。不过,这只是RST题目分析和评估方法中的很小的一部分。
正确率只根据各受试者回答的题目来计算。即如果规定时间内只解答了三道题,则只计算三道题的正确率。测试前会让受试者做例题,公布正确答案后,会确认受试者对接下来要做的测试题是否已经理解,再正式进入测试。

多数国中生阅读能力堪忧

▽ “对应关系”的考题举例Alex是男女通用的名字,它是女性名字Alexandra的暱称,也是男性名字Alexander的暱称。
根据上文,从选项中请选择最适合的一项填空。
Alexandra的暱称是( )。
①Alex ②Alexander ③男性 ④女性
答案是①。37.9%的国中生、64.6%的高中生答对。
▽ “同义句判断”的考题举例幕府于1639年驱逐葡萄牙人,并向大名下达警戒沿岸的命令。
上文和下文的意思是否相同?请从“相同”“不同”中选择答案。
1639年葡萄牙人被驱逐,大名命令幕府警戒沿岸。

答案是“不同”。57.4%的国中生和72.3%的高中生答对。这道题目只有两个选项,就算是扔骰子也有50%的正确率,而国中生的成绩也只是略高几分而已。
RST得出了“不比扔骰子(随机)乱选好多少的受试者的比例”。从结果可知,在推论、确定具体例子类别、同义句判断方面有大约半数国中生,在可以说是基础阅读理解能力的对应、主谓关系方面有15%的国中生,其正确率很难说比随意乱选的正确率高。此外,我们也知道了RST测试的基础阅读能力和高中入学考试的学力标准化值之间有很强的关联性。
高中学力标准化值和RST能力值的相关系数高达0.8,可媲美身高体重的相关程度了。也就是说阅读能力高的孩子能去好学校。阅读能力是提高学习能力的前提。

 

人是可以改变的,所以永不放弃

新井的目标是“让所有国一学生免费接受RST测试”,并“让他们在国中毕业前能够充分读懂教材”。她表示今后如果教育委员会在教师培训时有偿使用RST,则可以免费为国一学生做测试。
“面对学生连课本都看不大明白的现实时,我们有两个选择。一个是‘教材的文笔都很糟,看不懂也罢’;另一个是‘总得指点一下才行’。哪个选择对学生将来更好呢?我没法说服所有认为‘看不懂也罢’的人。所以我们想姑且让国一学生来做一下测试,帮助老师们根据具体数据来想办法去提高孩子们的阅读理解能力。”
也有数据显示,RST中测试的基础阅读能力在国中生中会有缓慢提升,但在高中生中却不见长进。对此新井表示:“说没有长进,绝对是错的”。 新井是数学专家,但竟然不相信数据,这又是怎么一回事呢?她解释说:“我最早是法律系的,在刑法课上听过一名曾经的著名冤案中的女性被告的演讲。因为她讲得实在是思路清晰,有条有理,所以我想不通为什么警察抓错了人。不过后来我明白了,可能是在这个这个只能靠语言和逻辑说明来洗脱冤屈的地方,她慢慢发生了改变。人是会变的。所以不能轻言放弃。”

希望有一天不再需要RST

新井在2010年的著作《电脑抢走我们的工作》中,预测2030年白领一半的工作都会被AI取代。现在的孩子们想要长大以后不失业,就不能输给那些无法理解语言含义的AI。
“RST成绩好的孩子们说:‘答案就在题里,太简单了,都不知道到底想考什么’。而完全不会做的孩子们则表示‘跟以前做过的题都不一样,所以不知道该怎么做’,或是‘考试时间不够用’,而成绩不好不坏的孩子们则觉得:‘题里都是陷阱。想太多了,就做错了’。可我真的没挖陷阱呀。不过,那些想反驳说‘都是陷阱’的孩子们,大概也是因为不甘心吧。我觉得有不甘心的想法,其实就是迈出了改变的第一步。如果国三学生RST有80%的正确率,那么日本应该就可以放心地迎接2030年的到来了。我的愿望就是像这样以后不再需要RST。现在小孩越来越少,我希望宝贵的下一代都能够无障碍地进行阅读,并去实现自己的梦想。”
Source: Nippon.com