中新網2月18日電(記者 張尼)“80后死亡率突破5.2%”“80后的死亡率已經超過70后”……近期,網絡上一連串駭人聽聞的數字引發關注,80后們更是提心吊膽。但隨后相關消息被辟謠。
這一誤導人的數據是如何算出來的?AI是否可能出現偏差?記者采訪了權威專家。
數據引用不實、死亡比例與死亡率混淆
中新健康發現,此次大多數相關文章都號稱其數據來自第七次人口普查的“權威數據”。根據80后的“現存人口”和“總出生人口”計算,得到存活率降至94.8%,死亡率達到5.2%。
但仔細推敲就會發現數據的漏洞。
首先是數據引用問題。網傳文章所謂80后“死亡人數1100萬”“現存2.12億”并沒有官方統計數據,所以在數據來源方面就引發質疑。
其次是死亡率的計算問題。
根據國家統計局關于死亡率的定義,死亡率(又稱粗死亡率)指在一定時期內(通常為一年)一定地區的死亡人數與同期內平均人數(或期中人數)之比,用千分率表示。
由此可見,網傳數據中出現了嚴重的概念混淆。
“死亡率是用千分率表示,而不是用1減去人口的存活率,不能將累計的死亡比例作為死亡率。”中國人民大學人口與健康學院教授李婷接受中新健康記者采訪時說。
她表示,死亡率的計算是一個復雜的過程,現實中會通過一系列的數學模型或者是專業模型生命表的方式對數據進行調整,還會和多個其他數據源交叉比對,才能去評估死亡狀況。
至于“80后死亡率超70后”的說法,李婷表示,我國的人均預期壽命在穩定上漲,在此背景下,除非發生特殊情況,否則不會出現這么大一個年齡組死亡率倒掛。
語料訓練不足或致AI出錯
中新健康記者發現,這條在網絡上廣為傳播的消息沒有任何權威信源。李婷在自己撰寫的文章中也曾分析,這次這條流傳頗廣的誤導性消息最初來源很可能是和AI的對話所得。
那么為何AI會產生這樣的偏差呢?
“我個人推測,一方面是因為很多學術期刊是閉源的,另一方面也是在這方面的語料不足。”李婷給出了個人看法。
她分析稱,目前AI依賴于語料的訓練,但是在實際的學術應用中,它對學術語料的獲取有一定的缺陷,這個缺陷可能很大程度在于大量的學術資源是閉源的,很難獲取到。現階段,如果想讓AI提供一個較專業的學術文獻,經常發現它會“編”出一些不存在的文獻,這樣也就容易產生誤導。
“另外,本身與‘死亡率’相關的人口研究,相對是比較冷門的,不在日常語料中高頻出現,即便出現,在大部分非專業人士的認知里,也分不清死亡率、死亡概率(死亡比例)這些詞之間的差異,所以有可能造成網上有些資料將術語進行混用,出現概念混淆。”李婷說。(完)