大學入學考試AI考得比人還好
不知聽到「機器人能否考上東京大學」這個項目名稱時,大家會做何感想?或許你會覺得它的目的就是讓機器人能夠考上東大。不過該項目負責人、國立資訊學研究所的新井紀子宣稱,他們的目標並不是讓機器人考上東大,而是想要探究與人類相比,AI的潛力和局限究竟在哪裡。
6年左右的研究結果表明,雖然AI考不上東大,但學力標準化值超過了57,相當於高三學生排名前20%的成績,已經可以考上部分有名私立大學了。然而,AI並不是通過理解語言含義來解答試題的。據說,為這個研究項目而開發的AI「東機君」,在寫小論文時,只是搜索教材和維基百科,找出一些相關字句並將它們進行排列組合,但卻比大多數學生寫出的水準都要高。為什麼不會閱讀和理解文章的AI反而把人類比下去了?對此新井產生了這樣的疑問:「中學生們就能讀懂文章嗎?」
把握孩子們的實際狀態
於是為了測試閱讀能力,新井團隊開發了閱讀能力測試(以下簡稱「RST」)。從2016年4月到17年7月末,全日本有2.5萬人接受了測試(截至目前接受測試者已超4萬人)。新井宣稱,很少有非強制性的調查能得到這麼多人的支持。「學校和老師們在百忙之中做出了進行測試的決定。我想這是由於在日常授課中老師們擔心的正是學生們閱讀理解能力的緣故,他們很想通過這個RST測試來把握孩子們的實際閱讀理解能力。接受測試人數之多,我認為是反映了對RST的支持。」
題目有6種,分別是「對應」,判斷「それ(那個)」「 これ(這個)」等指示詞指代的是什麼、或判斷省略的主語或賓語是什麼;「主謂關係」,判斷哪個是主語,哪個是謂語;「推論」,根據語句裡的邏輯和常識進行推論;「確定具體例子類別」,理解定義並判斷具體哪件事或哪種東西可能符合定義;「同義句判斷」,判斷兩句話意思是否相同;「確定圖表類別」,判斷與文章對應的圖表。題目都是從國高中教材和詞典、報紙上摘取的語句。換而言之,如果看不懂這些句子,就說明你也看不懂教材、詞典和報紙。
「從開始寫數學入門書的時候起,我經常會實地去中學教書,利用和孩子們一起在學校吃午飯的時間跟他們聊天,因為我想知道他們哪裡跟不上。有兩年時間,我每週去簡易旅店集中的山谷地區(東京的貧民街區——譯注),為那裡的人們發放救濟餐,也從中看到了人們會在哪裡碰壁。這些經歷都為後來做RST打下了基礎。」
為測試閱讀理解能力而分析題目
測試題由電腦向受試者隨機顯示。由於每個受試者的題目都不同,所以不能單純以正確量和正確率來評估。為此在評估中使用了項目反應理論(item response theory, IRT,又稱潛在特質理論)。該理論也應用在托福等考試上。根據IRT可推算出「能力值」,它是一種相對的值,表示不同題目類型下某一受試人在所有受試者中所處的位置。比如有兩道選擇題,每道題有四個選項(題A和題B),兩道題的正確答案都是「2」。我們以這些題目的能力值為橫軸,以答案選項的選擇比例為縱軸畫圖,得到以下圖表。
題A是能力值越高的受試者選對答案的比例越高,因此可以說這道題目適合用來測試能力的高低。與此相對,題B是能力值越高的人選對答案的比例越低,假如無論能力值高低受試者的正確率相差無幾,我們就很難說這道題目出得好。
RST會在做最終分析之前,篩除這些題目。RST還會分析在電腦上的答題速度以及正確率的關係,對疑似不讀題就隨便做答的受試者的結果也予以篩選排除。不過,這只是RST題目分析和評估方法中的很小的一部分。
正確率只根據各受試者回答的題目來計算。即如果規定時間內只解答了三道題,則只計算三道題的正確率。測試前會讓受試者做例題,公佈正確答案後,會確認受試者對接下來要做的測試題是否已經理解,再正式進入測試。
多數國中生閱讀能力堪憂
根據上文,從選項中請選擇最適合的一項填空。
Alexandra的暱稱是( )。
①Alex ②Alexander ③男性 ④女性
答案是①。37.9%的國中生、64.6%的高中生答對。
上文和下文的意思是否相同?請從「相同」「不同」中選擇答案。
1639年葡萄牙人被驅逐,大名命令幕府警戒沿岸。
答案是「不同」。57.4%的國中生和72.3%的高中生答對。這道題目只有兩個選項,就算是扔骰子也有50%的正確率,而國中生的成績也只是略高幾分而已。
RST得出了「不比扔骰子(隨機)亂選好多少的受試者的比例」。從結果可知,在推論、確定具體例子類別、同義句判斷方面有大約半數國中生,在可以說是基礎閱讀理解能力的對應、主謂關係方面有15%的國中生,其正確率很難說比隨意亂選的正確率高。此外,我們也知道了RST測試的基礎閱讀能力和高中入學考試的學力標準化值之間有很強的關聯性。
高中學力標準化值和RST能力值的相關係數高達0.8,可媲美身高體重的相關程度了。也就是說閱讀能力高的孩子能去好學校。閱讀能力是提高學習能力的前提。
人是可以改變的,所以永不放棄
新井的目標是「讓所有國一學生免費接受RST測試」,並「讓他們在國中畢業前能夠充分讀懂教材」。她表示今後如果教育委員會在教師培訓時有償使用RST,則可以免費為國一學生做測試。
「面對學生連課本都看不大明白的現實時,我們有兩個選擇。一個是『教材的文筆都很糟,看不懂也罷』;另一個是『總得指點一下才行』。哪個選擇對學生將來更好呢?我沒法說服所有認為『看不懂也罷』的人。所以我們想姑且讓國一學生來做一下測試,幫助老師們根據具體數據來想辦法去提高孩子們的閱讀理解能力。」
也有數據顯示,RST中測試的基礎閱讀能力在國中生中會有緩慢提升,但在高中生中卻不見長進。對此新井表示:「說沒有長進,絕對是錯的」。 新井是數學專家,但竟然不相信數據,這又是怎麼一回事呢?她解釋說:「我最早是法律系的,在刑法課上聽過一名曾經的著名冤案中的女性被告的演講。因為她講得實在是思路清晰,有條有理,所以我想不通為什麼警察抓錯了人。不過後來我明白了,可能是在這個這個只能靠語言和邏輯說明來洗脫冤屈的地方,她慢慢發生了改變。人是會變的。所以不能輕言放棄。」
希望有一天不再需要RST
新井在2010年的著作《電腦搶走我們的工作》中,預測2030年白領一半的工作都會被AI取代。現在的孩子們想要長大以後不失業,就不能輸給那些無法理解語言含義的AI。
「RST成績好的孩子們說:『答案就在題裡,太簡單了,都不知道到底想考什麼』。而完全不會做的孩子們則表示『跟以前做過的題都不一樣,所以不知道該怎麼做』,或是『考試時間不夠用』,而成績不好不壞的孩子們則覺得:『題裡都是陷阱。想太多了,就做錯了』。可我真的沒挖陷阱呀。不過,那些想反駁說『都是陷阱』的孩子們,大概也是因為不甘心吧。我覺得有不甘心的想法,其實就是邁出了改變的第一步。如果國三學生RST有80%的正確率,那麼日本應該就可以放心地迎接2030年的到來了。我的願望就是像這樣以後不再需要RST。現在小孩越來越少,我希望寶貴的下一代都能夠無障礙地進行閱讀,並去實現自己的夢想。」
Source: Nippon.com