本報訊(記者邱晨輝)大數據來襲,究竟意味著什么?在中國科協近日舉辦的科學家與媒體面對面活動上,中國聯通網絡技術研究院首席專家唐雄燕給出一組直觀數據來描繪了大數據的未來圖景:到2030年,中國一個普通的家庭會有40~50個智能終端,一個家庭產生的數據是20TB,相當于半個國家圖書館的藏書容量,即2600萬冊,40TB。
“最近兩三年產生的數據可能比人類歷史上4萬年產生的數據還要多,實際就是由于互聯網的發展,互聯網是大數據來源的最重要的地方。”唐雄燕說,如果在一輛普通家用轎車上安裝傳感器,大約需要幾十到近百只,而豪華轎車的傳感器數量可達200余只。在傳感器的監測之下,汽車每小時能產生5~250GB的數據,而谷歌的無人駕駛汽車每秒產生約1GB數據。而據IDC預測,到2020年,全球將有300億個物聯網終端,遠超人類的數量。
大數據就是未來的新石油。唐雄燕說:“數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣,將形成數據材料、數據探礦、數據加工、數據服務等一系列新興產業。”正如《大數據時代》一書里所說的:知道“是什么”就夠了,沒必要知道“為什么”。在大數據時代,我們不必非得知道現象背后的原因,而是要讓數據自己“發聲”。
一個經典的營銷案例是:美國一家零售連鎖超市Target創建的一套女性購買行為在懷孕期間產生變化的模型。一次,一男子闖入了他家附近的Target店,向店鋪經理大吼:“你們竟然給我17歲的女兒發嬰兒尿片和童車優惠券,她才17歲啊!”店鋪經理向來者道歉,表明那肯定是個誤會。但一個月后,這個憤怒的父親打來電話道歉,他女兒的確懷孕了。
“谷歌流感趨勢”也曾震撼世人。2009年2月,谷歌在《自然》雜志上發文,解釋了谷歌僅僅通過研究人們上網的搜索記錄,就能夠預測季節性流感的爆發和傳播。谷歌的預測與美國疾控中心的預測數據存在很高的相關性。但美國疾控中心通告新流感往往會有一兩周的延遲,而谷歌的預測數據更有效、更及時。為此,谷歌公司處理了5000萬條詞條與將近5億數學模型。
“要在數據里面找出有價值的東西來,這是大數據技術的核心,迅速完成數據價值的提純。”唐雄燕說。以監控攝影為例,有的監控累計一整天,其中真正有價值的可能只有“發現你干壞事的那一兩秒鐘”,在這中間怎么找出來,就是數據挖掘技術的關鍵。
當然,在利用大數據價值的同時,也須警惕數據安全和隱私保護問題。工信部電信研究院互聯網中心主任何寶宏說,對于政策制定,原來對用戶的隱私保護更多側重于隱私本身,如個人姓名、電話號碼、銀行賬號等,而大數據時代除了保護這些信息,更需要一些新的思路和方法,如果只是保護用戶信息的采集環節,在大數據時代就是不完整的,因為總有一些其他信息能夠分析出有些涉及用戶隱私的信息。