1966年,美國交通事故死亡人數高達5萬人,達到了歷史的峰值。美國國會要求聯邦政府立即建立一套有效的交通事故記錄系統,分析確定交通事故及其造成死亡的原因,以期望找到最能夠避免事故的交通規劃方式。
這在當時看起來僅僅是一種前途未知的嘗試,因為一起交通事故的數據可能是完全獨立且無序的,一年的數據、一個地區的數據也看不出太多章法。然而隨著跨年度、跨地區的數據越來越多,群體的行為特點就會在數據上呈現一種“秩序、關聯、穩定”,更多規律就會浮出水面?,F在,美國的汽車保有量是中國的3倍,而交通事故死亡人數僅僅是中國的一半。
這種做法最符合現在的大數據含義,而且也是人類最早在大數據方面獲得的甜頭。
英特爾中國研究院首席工程師吳甘沙說,大數據并不僅僅是大量的數據,而是在看似無序和不關聯的數據之間找到某種關聯,發掘這些形態各異、快慢不一的數據流之間的相關性,是大數據做前人之未做、前人所不能的機會,也正是大數據最主要的特點。
“比如,你如果知道人們在晨洗之后多長時間會走出家門,再從供水系統的數據中找到用水的高峰時間,就能準確地預測到今天早晨哪個區域哪個時間路上的交通最擁擠,同樣可以從電網數據中統計出傍晚辦公樓集中關燈的時間,加上偏移量來估計出堵車時點。”他說。
“數”中自有黃金屋
締元信是一家網絡監測公司,其主要業務是為互聯網站的站長提供訪問量統計報告。自2008年開始,他們致力于開發一套數據分析系統,希望通過關鍵詞設置分析人們在互聯網上瀏覽的內容,以獲知他們的審美取向和使用偏好,進而知道他們正在成為哪種商品的潛在購買者。
“這項工作并不像它看起來那樣容易。”秦雯說,“因為你并非要刻意地監視某一個人,全中國有5億多網民,每天他們要在網頁上點擊上百億次鼠標,每一次鼠目標點擊對你的監測服務器來說都是一樣的,它并不知道這是坐在高檔寫字樓里的公司白領還是書房里的中學生操作了這一次點擊。”
這項服務現在正變得炙手可熱,無論是在淘寶、京東還是亞馬遜,你都會在打開網頁的的同時,看到那些你似乎很需要的廣告,而并非過去那樣毫無指向的信息。
“盡管如此,無論是締元信還是淘寶或者美國的亞馬遜,現在對于大數據的開發都非常初級,大數據的開發遠遠不是為了做廣告。”秦雯說:“大數據是人類剛剛獲得的一個富礦,而我們目前只開發了它表面的一小層。”
的確有更多的人在利用這一思路淘金。保羅?霍廷是英國的一名80后外匯交易員,他從三位信息學教授那里獲得靈感,認為Twitter上每天兩億多條信息能直接反映人們的情緒,而這種情緒將是宏觀經濟走向的晴雨表。
霍廷依據分析結果決定如何處理手中數以百萬美元計的股票。原則很簡單:如果所有人似乎都高興,買入;如果大家的焦慮情緒上升,拋售。隨后他推出了一款利用Twitter關鍵詞檢索來預測公眾情緒進而判斷股票走勢的對沖基金DerwentCapital,并大膽承諾,公司推出的交易策略可以獲得的年回報率高達15~20%。結果表明,人們在網上的情緒變化會在2~6天后影響到指數的變化,霍廷的公司今年第一季度獲得7%的收益率。
在國家層面,2012年,尚在經濟危機陰影下的英國政府就撥款10萬英鎊,并邀請英國股市排名前100的大企業共同出資,建立一個國家級的公開數據研究組織。英國內閣部長弗朗西斯?莫德證實說,其實英國政府早有意帶頭建立“英國數據銀行”,政府想算清楚究竟這個國家或政府創造了什么。他表示,英國不只是要成為世界首個完全公布政府數據的國家,英國還應該成為一個國際榜樣,去探索那些公開數據在商業創新和刺激經濟增長方面的潛力。