AI閱卷“翻車” 其實是“翻”在了自然語言處理

  本報記者 陳 曦

  開學季,美國一款號稱服務兩萬所學校的AI閱卷系統遭到質疑,學生們只要借助系統漏洞,輸入相應關鍵詞,即使關鍵詞之間并無關聯">

亚洲第一页色_久久亚洲精品成人_99精品在线免费观看_好男人在线精品视频www

首頁  ?  新聞頻道  ?  國內新聞

AI閱卷“翻車” 其實是“翻”在了自然語言處理

2020-10-14 03:45:11

來源:科技日報

  AI閱卷“翻車” 其實是“翻”在了自然語言處理

  本報記者 陳 曦

  開學季,美國一款號稱服務兩萬所學校的AI閱卷系統遭到質疑,學生們只要借助系統漏洞,輸入相應關鍵詞,即使關鍵詞之間并無關聯,也能輕易獲得高分。

  隨著人工智能的發展,不少教育App都應用了智能評分系統,評分系統閱卷迅速,及時出分,受到不少師生的歡迎。但同時,也有不少家長吐槽智能評分系統,像英語跟讀App的評分系統,有時候即使擁有英語專業八級水平的人,測試得分也只有80分。

  除了應用于英語口語的智能評分系統,人工智能還被應用于判卷上。不過這種智能閱卷系統也時有“翻車”現象。據報道,在開學季,一款號稱服務于美國兩萬所學校的AI閱卷系統就受到了質疑,學生們借助它的漏洞,“裸考”就能輕松及格。之所以被學生們鉆了空子,是由于該系統只是通過關鍵詞進行評分,學生們只要輸入相應關鍵詞,即使幾個關鍵詞之間沒有關系,也能順利過關甚至獲得高分。

  閱卷前需先設定評判標準

  “自動測評打分系統一般需要先設定評測的標準,而后根據設定的標準去設計合適的評測算法與模型。”天津大學智能與計算學部教授、博士生導師熊德意介紹,比如像口語測評打分,就需要機器去評判人的發音是否標準,所讀句子的重音是否正確,讀出的語句是否連貫流暢,連讀部分是否準確等。

  AI閱卷系統則涉及到對語言文字的評判,涵蓋很多方面,如語法、語義等,會大量運用到自然語言處理技術。

  “自然語言處理技術是人工智能的一個重要分支,研究利用計算機對自然語言進行智能化處理,基礎的自然語言處理技術主要圍繞語言的不同層級展開,包括音位(語言的發音模式)、形態(字、字母如何構成單詞、單詞的形態變化)、詞匯(單詞之間的關系)、句法(單詞如何形成句子)、語義(語言表述對應的意思)、語用(不同語境中的語義解釋)、篇章(句子如何組合成段落)7個層級。”熊德意強調,這些基本的自然語言處理技術經常被運用到下游的多種自然語言處理任務(如機器翻譯、對話、問答、文檔摘要等)中,自動閱卷中的語言文字評測通常涉及這7個層級的若干層。

  設計自動評測指標的方法有多種,通常會根據不同的評判類型去選擇適合的方法。“比如閱卷系統若要進行翻譯題的自動評判,可以讓老師事先寫好多個參考譯文答案,然后把學生的答案和參考答案進行類比,計算它們的相似度作為學生答案好壞的評測指標。”熊德意舉例說,機器翻譯常用的評測指標BLEU,就是基于參考譯文和機器譯文之間的N-grams(N元)匹配度計算相似度的。

  一個單詞是一元,兩個相連的單詞是二元,還有三元、四元,如果答案中有一個單詞與參考答案中的單詞一致,那么就會給出一個一元評分,類似的可以計算二元、三元、四元的評分。研究人員為不同元設置不同權重,然后把得分統籌起來變成一個客觀值,得分越高就說明兩者之間的相似性越高。

  不同AI評分系統結果相差甚遠

  此次AI閱卷系統“翻車”的導火索是一位美國歷史系教授的兒子在進行歷史考試的時候只得到了50%的分數,而她對兒子的答案進行評測后,覺得孩子的回答基本沒有問題。

  同樣的答案,人工評價和機器評價為何有如此大的出入?

  “這就是基于AI算法的自動評測面臨的最大挑戰:如何與人工評價保持一致。應對這個挑戰需要解決的問題很多。比如如何制定合適的評測標準,主觀題進行自動評測必須要有合適的評測標準和規范;比如如何應對語言的千變萬化,語言的多樣性是自然語言處理技術的主要挑戰之一,語言的自動測評和自動處理都要面對多樣性的挑戰;比如如何設計一個綜合性的評測指標,雖然目前有各種各樣的指標,但是很少有指標綜合考慮語言文字的方方面面,例如作文自動閱卷,可能要考慮用詞是否合理(詞匯)、句子是否流暢(句法)、段落組織是否有條理(篇章)、內容是否扣題(語義、語用)等。”熊德意說,上面提到的BLEU就是只考慮了單詞形式的嚴格匹配,沒有考慮單詞的形態變化、語義相似性、譯文的句法合理性等因素。

  “遵循的評測規則、評判的出發點不同,相應的算法模型都不一樣,因此最后的結果也會相差甚遠。”熊德意說。

  因此僅僅利用一種評測方法顯然是不全面的,這也就解釋了當孩子的母親嘗試在答案里加入“財富、商隊、中國、印度”等題目中的關鍵詞時,即使這些關鍵詞之間沒有任何串聯,她也得了滿分。“可能這個AI閱卷系統只使用了簡單的關鍵詞匹配,因此會出現‘關鍵詞沙拉’也能蒙混過關的情況。”熊德意解釋。

  此外,口語的人工測評與機器測評也存在較大出入。“近年來,語音識別性能雖然在深度學習技術的推動下取得了顯著的提升,但是在開放環境、噪音環境下,這種識別率就會下降很多。”熊德意解釋,如果機器“聽”錯了一個單詞,而后機器進行測評,就會形成一個錯誤傳播,也就是上游系統的錯誤會導致下一系統錯誤,錯上加錯,越錯越離譜,測評結果也會大相徑庭。

  “目前有很多設計評測指標的方法,還有很多改進的方法,如在計算準確率的同時也計算召回率等。另外,還有對評測指標進行評測的,即評測的評測,看看哪個評測指標更完善,更和人的評價一致。”熊德意感嘆,很多時候,自動評測的難度和對應的自然語言處理任務的難度,從技術層面來說是一樣的,比如用機器評價一個譯文的好壞與用機器生成一個譯文的難度類似,用機器評判一個文檔摘要的好壞與用機器生成一個摘要的難度也差不多。

  可結合人工評測讓系統更智能

  “傳統的自動評測指標通常是基于符號進行計算的,現在深度學習等AI技術也越來越多地應用于測評工具中。”熊德意介紹,使用深度學習,可以把語言符號映射到實數稠密向量的語義空間,利用語義向量計算相似度。哪怕說的詞語和計算機原本學習的不一樣,但只要語義是一致的,機器就可以進行精準的評價。因此,基于深度學習的自動評測某種程度上可以應對語言的多樣性挑戰。不過深度學習也有一個問題,就是需要大量的數據讓機器進行學習。

  基于自監督學習的預訓練語言模型,近幾年,在語言表示學習中,取得了突破性的進展。“OpenAI的預訓練語言模型GPT-3,在5000億單詞的海量語料上訓練了一個帶有1750億個參數的神經網絡,通過大量學習網絡上各種語言的文本,GPT-3形成了強大的語言表示能力,可以進行多種任務,比如自動翻譯、故事生成、常識推理、問答等,甚至可以進行加減法運算,比如其兩位數加減法正確率達到100%,五位數加減法正確率接近10%。”熊德意介紹,不過,這么龐大的神經網絡,如果用單精度浮點數存儲,需要700G的存儲空間,另外模型訓練一次就花費了460萬美元。因此,即使GPT-3具有較好的零樣本、小樣本學習能力,其高昂的成本使其離普遍可用還有很遠的距離。

  但是AI作為閱卷評測“老師”,其又有人工不可比擬的優勢。比如AI自動批閱卷系統相比人工批閱速度更快,老師不可能一次記住所有的多項選擇題答案,需要不斷檢查標準答案,這是很費時的,自動批閱系統幫助老師大大提高了效率;另外,自動批閱系統更加理性,不受外界條件干擾,不會因疲勞等原因導致誤判。即使在復雜的干擾環境中,仍然可以得到正確的結果;AI閱卷系統還可以在評分后直接做好學情分析,統計出考試數據、錯題數據等教學材料,幫助老師減負增效,幫助學生提高學習效率。

  “將主觀題合理地客觀化,可以降低自動閱卷的難度。”熊德意表示,對無法客觀化的主觀題,雖然設定全面的評測標準比較難,但是設定某一方面的評測標準還是可行的,比如針對單詞詞法、句子語法的評判,目前準確率還是挺高的,這類技術可以從實驗室走向產品應用。

  也可以引入人工評測,對AI閱卷系統打分進行復核與修正,通過這種反復的修正,累積大量的評測訓練數據,讓機器評分變得更加智能。

  “利用自然語言處理等人工智能技術,進一步完善主觀智能評分系統,將是未來教育領域的一個非常重要的課題。”熊德意說,以后的AI自動批閱系統肯定會越來越“聰明”,人工智能與教育的結合也會越來越緊密。

  • 相關閱讀
  • 中國殘聯推出專著聚焦殘疾人扶貧工作

      新華社北京10月14日電(記者 孫少龍)在第七個全國扶貧日來臨之際,中國殘聯14日在京發布新書《破解因殘致貧的中國方案——殘疾人扶貧典型案例》,旨在通過深入分析41個殘疾人扶貧案例,為各地做好助殘扶貧...

    時間:10-14
  • 孫春蘭向中美大學校長論壇開幕式發表視頻致辭

      新華社北京10月14日電 中美大學校長論壇13日晚舉行,國務院副總理孫春蘭發表視頻致辭。  孫春蘭指出,高等教育是中美交流合作的重要領域,為促進兩國人民相互了解和友誼、推動中美關系發展發揮了積極作...

    時間:10-14
  • 中國醫保扶貧政策已累計惠及貧困人口4.6億人次

      中國醫保扶貧政策已累計惠及貧困人口4.6億人次 助貧困人口減負近3000億元   中新社北京10月14日電 (記者 阮煜琳)中國國家醫保局黨組成員、副局長陳金甫14日在2020年全國扶貧日系列活動之健康扶貧論壇...

    時間:10-14
  • 青島已采樣近829萬份開展核酸檢測 排查密接者532人

      中新網10月14日電 據青島衛健委網站消息,截至10月14日14:00時,青島已采樣8289666份開展新冠病毒核酸檢測。   截至10月14日14:00時,全市已排查到密切接觸者532人,全部實行集中隔離觀察并完成兩輪...

    時間:10-14
  • 全球會客廳:扶貧路上的中外志愿者

      全球會客廳:扶貧路上的中外志愿者  10月17日是聯合國設立的“國際消除貧困日”,以引起全世界人民對貧困問題的重視,推動各國采取具體的行動消除貧困。從2014年開始,這一天也被國務院設立為中國的“...

    時間:10-14
  • 基層治理的湖南株洲“清水塘樣本”

      大國小鮮@基層之治 | 基層治理的湖南株洲“清水塘樣本”  還百姓碧水藍天,讓產業轉型升級,湖南株洲舉全市之力完成清水塘老工業基地搬遷改造,以“傷筋動骨”換來了產業“脫胎換骨”。  但,很快又...

    時間:10-14
  • 北京:對入境進京人員要實行3次核酸檢測

      中新網北京10月14日電(記者 杜燕)北京市政府新聞辦今日下午召開疫情防控第169場發布會,北京新冠肺炎疫情防控工作領導小組社區防控組辦公室成員、市委黨建工作領導小組辦公室專職副主任田濤透露,對入境...

    時間:10-14
  • 美官員就環境問題再攻擊中國 中方回應

      美官員就環境問題再攻擊中國 中方回應:美方拿著一份“謊言”清單,不怕被真相打臉嗎?   中新網北京10月14日電 (黃鈺欽)“美方拿著一份‘謊言’清單,頻頻在環境問題上無端惡意指責和攻擊中國,不怕...

    時間:10-14
  • 北京:青島人員進京須持7日內核酸檢測陰性證明

      中新網北京10月14日電(記者 杜燕) 北京市委宣傳部副部長、市政府新聞辦主任、新聞發言人徐和建今日指出,首都嚴格進京管理聯防聯控協調機制已啟動青島方向人員進京的必要管控措施,提示目前在青島人員近...

    時間:10-14
  • 深圳經濟特區建立40周年慶祝大會隆重舉行 習近平發表重要講話

    在深圳經濟特區建立40周年慶祝大會上的講話 (2020年10月14日) 習近平   女士們,先生們,同志們:   今天,我們在這里隆重集會,慶祝深圳等經濟特區建立40周年,總結經濟特區建設經驗,在更高起點上...

    時間:10-14
免責聲明:本網對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。 本網站轉載圖片、文字之類版權申明,本網站無法鑒別所上傳圖片或文字的知識版權,如果侵犯,請及時通知我們,本網站將在第一時間及時刪除。
亚洲第一页色_久久亚洲精品成人_99精品在线免费观看_好男人在线精品视频www
国产伦精品一区二区三区免费迷| 国产精品网站在线播放| 欧美成人午夜激情视频| 欧美日韩国产色综合一二三四 | 欧美另类变人与禽xxxxx| 国产精品女同互慰在线看| 伊人久久亚洲热| 久久精品国产77777蜜臀| 欧美日韩直播| 正在播放亚洲一区| 老司机精品视频网站| 国产精品日韩在线观看| 亚洲系列中文字幕| 欧美成熟视频| 黑人一区二区三区四区五区| 久久人人97超碰人人澡爱香蕉| 欧美色视频在线| 亚洲视频在线二区| 欧美成年人网站| 韩国亚洲精品| 久久综合九色综合久99| 国产精品影院在线观看| 欧美在线91| 国产精品成人v| 亚洲欧美成人一区二区在线电影| 欧美精品尤物在线| 在线观看成人av| 欧美大片在线影院| 黄色成人91| 欧美大色视频| 在线观看精品视频| 欧美精品免费在线| 亚洲一区二区在线看| 欧美日韩一区二区三区四区在线观看| 在线欧美日韩国产| 欧美精品一区二区三区视频| 影音先锋日韩有码| 欧美激情综合亚洲一二区| 一区视频在线播放| 欧美精品七区| 亚洲欧美电影院| 欧美色精品天天在线观看视频| 亚洲欧美国产精品专区久久| 欧美日韩视频免费播放| 亚洲一区二区久久| 欧美图区在线视频| 久久精品99国产精品日本| 国产伦精品一区二区三区四区免费| 久久九九久久九九| 国产自产v一区二区三区c| 欧美va亚洲va国产综合| 在线观看久久av| 欧美日韩一区成人| 久久精品国产亚洲高清剧情介绍| 国产性做久久久久久| 欧美+日本+国产+在线a∨观看| 在线观看日韩精品| 欧美午夜片在线免费观看| 久久黄金**| 国产日韩欧美一区二区| 久热精品视频在线观看| 黑丝一区二区| 欧美日韩亚洲视频| 久久久国产午夜精品| 激情久久久久| 欧美日韩午夜精品| 久久久999| 在线观看视频一区二区欧美日韩| 欧美日韩在线免费| 久久乐国产精品| 亚洲综合精品| 国产视频精品网| 欧美日韩国产999| 久久久久www| 亚洲色诱最新| 国产日韩欧美高清免费| 欧美日产一区二区三区在线观看| 久久gogo国模裸体人体| 一区视频在线看| 国产精品久久久亚洲一区| 美女脱光内衣内裤视频久久网站| 亚洲色图综合久久| 国产视频不卡| 欧美日韩一区二区三区在线| 久久蜜臀精品av| 午夜视黄欧洲亚洲| 激情婷婷亚洲| 国产精品亚洲综合色区韩国| 欧美国产1区2区| 久久精品人人| 亚洲欧美在线aaa| 黄色av成人| 国产精品一二三四| 欧美视频二区| 欧美va亚洲va国产综合| 久久国产成人| 亚洲永久免费av| 狠狠入ady亚洲精品| 国产精品视频一二三| 欧美日韩一本到| 欧美aⅴ一区二区三区视频| 性欧美xxxx视频在线观看| 一区二区在线观看视频在线观看| 国产精品视频观看| 欧美日韩大陆在线| 女生裸体视频一区二区三区| 久久精品国产免费看久久精品| 亚洲午夜精品国产| 一区二区在线观看视频| 国产亚洲高清视频| 国产伦理一区| 国产精品素人视频| 国产精品国内视频| 欧美日韩一区二区视频在线| 欧美国产精品专区| 欧美成人第一页| 久久综合久久综合久久| 久久精品免费看| 亚洲欧美综合| 亚洲欧美一区二区精品久久久| 在线看欧美视频| 在线观看视频一区二区| 精品福利免费观看| 国产综合欧美在线看| 国产欧美一区二区精品忘忧草| 国产精品免费一区豆花| 国产精品国色综合久久| 国产精品久久久久av| 国产精品免费观看视频| 国产精品对白刺激久久久| 国产精品久久7| 国产精品成人免费视频| 国产精品久久久久永久免费观看| 欧美日韩中文字幕在线视频| 欧美色区777第一页| 国产精品99一区| 国产精品无码永久免费888| 国产精品乱码久久久久久| 国产精品国产精品| 国产精品日韩欧美一区| 国产日韩欧美夫妻视频在线观看| 国产婷婷色一区二区三区在线| 国产日韩精品在线观看| 国产在线观看精品一区二区三区| 狠狠色综合日日| 国产精品99久久久久久久久| 亚洲综合导航| 欧美中在线观看| 久久亚洲免费| 欧美激情一区二区三区蜜桃视频| 欧美日韩成人在线| 国产精品久久精品日日| 国产日产欧美精品| 雨宫琴音一区二区在线| 亚洲深爱激情| 欧美一级视频免费在线观看| 久久国产精品久久国产精品| 久久蜜桃精品| 欧美精品在线一区二区三区| 欧美性淫爽ww久久久久无| 国产欧美精品国产国产专区| 国产一区二区在线免费观看 | 欧美国产91| 欧美午夜激情小视频| 国产精品久久久久久久久婷婷| 国产拍揄自揄精品视频麻豆| 一区二区视频免费在线观看| 亚洲欧美视频在线| 开元免费观看欧美电视剧网站| 欧美极品在线观看| 国产精品乱子久久久久| 黑人极品videos精品欧美裸| 尤物视频一区二区| 久久激情综合| 欧美成在线观看| 国产精品久久久久久久久| 国产亚洲欧美日韩精品| 亚洲视频视频在线| 久久精品亚洲精品| 欧美国产三级| 国产精品系列在线| 亚洲婷婷在线| 久久久久久夜| 欧美日韩亚洲一区二区三区在线| 国产欧美精品一区| 亚洲免费伊人电影在线观看av| 久久久青草青青国产亚洲免观| 欧美日韩精品| 国产在线国偷精品产拍免费yy| 先锋影音国产一区| 欧美经典一区二区| 国产一区二区精品久久| 亚洲欧美一区二区三区久久| 奶水喷射视频一区| 国产精品中文在线| 香蕉久久a毛片| 欧美日韩国产页| 一区在线观看视频| 久久亚洲视频| 国产精品一区二区你懂得|