/數據熱有增無減,再看看發表在兩年前的文章,你的思考是什么呢?
什么是統計學?
“統計學是一門在不確定性方面為了做出正確的推斷而進行搜集、分析定量數據的科學和藝術。”
——美國百科全書
“統計學是一門搜集數據,分析數據,并根據數據進行推斷的藝術和科學,最初與政府搜集數據有關,現在包括了范圍廣泛的方法和理論。”
——大英百科全書
“一門研究怎樣有效地搜集、整理和分析帶有隨機性的數據,以對所考察的問題做出推斷或預測,直至為采取一定的決策和行動提供依據和建議的學科。”
——中國百科全書
統計學與數據科學息息相關。
大數據時代的到來,是統計學發展史上的里程碑,給統計學的發展帶來了前所未有的機遇,但同時,也對統計學提出了更多的挑戰。那么,大數據時代下,傳統統計學有哪些變革呢?
1. 樣本概念的深化
傳統統計學利用研究中實際觀測或調查的一部分個體(樣本),通過統計方法進行統計推斷,從而了解總體的情況。
大數據時代,數據大部分為網絡數據,可將其分為兩種類型:靜態數據和動態數據。
靜態數據
靜態數據是當客戶在查看數據的時候已經被生成好了,沒有和服務器數據庫進行交互的數據。
此類數據的最大特點是:樣本等同于總體,這樣無需去提取樣本并檢測樣本的可用性,減少了成本,并且總體本身對總體的反映更為準確,減少了誤差。
動態數據
動態數據是隨著時間的推移而變化的,比如網絡訪問量、在線人數等。此時,總體表現為歷史長河中所有數據的總和,而我們分析的對象為“樣本”。 這里的“樣本”與傳統樣本的概念不同,因其并非局限于隨機抽取的數據,更可以是選定的與分析目的相關的數據。
2. 數據類型的擴大
傳統統計學的數據為結構化數據,即可以用常規統計指標或圖表表現出來的定量數據或專門設計的定性數據,有固定的結構和標準。
大數據是指不僅包括結構化數據,還包含非結構化數據、半結構化數據或異構數據,即一切可以記錄和存儲的信號。
結構化數據,即行數據,存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據,如:學生姓名、學號等。
非結構化數據是不方便用數據庫二維邏輯表來表現的數據,如:圖像、音頻、視頻等。
半結構化數據或異構數據,它是結構化的數據,但是結構變化很大。既不能將數據簡單的組織成一個文件按照非結構化數據處理,也不能夠簡單的建立一個表與之對應。如:員工的簡歷。
3.收集概念的擴展
傳統統計中,數據的收集需要根據統計分析的目的進行,過程包括設計調查方案、嚴格控制調查流程,因此具有低效率、高成本的缺點。
大數據時代,對數據的收集分為三步:
(1) 數據預處理,包括識別與整理;
(2) 數據分析,提煉有價值的信息;
(3) 數據存儲。
大數據時代下,對于超大量可選擇的數據,需要有針對性的搜集,同時,在存儲能力,分析能力,甄別數據的真偽,選擇關聯物,提煉和利用數據,確定分析節點等方面,都需要斟酌。
4. 數據來源不同
傳統統計中是根據研究目的去收集數據,來源通常是已知的,很容易對數據提供者的身份進行識別或進行事后核對。
大數據的來源一般為信息網絡系統,收集的數據是一切被人為記錄的信號,不具有很強的目的性,數據的來源也很難追溯。在大數據時代,努力打造統計數據來源第二軌,就顯得尤為重要。
5. 量化方式的變化
傳統數據為結構化數據,對數據的量化方式已經相當成熟,并且比較容易得到可以直接進行分析的數據結果。
大數據時代主要面對的是非結構化數據,Franks說過:“幾乎沒有哪種分析過程能夠直接對非結構化數據進行分析,也無法直接從非結構化的數據中得出結論”。目前,計算機學界已著手研發處理非結構化數據的技術,從統計角度直接處理非結構化數據,或將其量化成結構化數據,這是一個重要的研究領域。
6. 分析思維的改變
我們從統計分析、實證分析、推斷分析三個方面論述大數據時代傳統統計學分析思維的改變。
統計分析
傳統的統計分析過程分三步:定性—定量—再定性。
首先通過經驗判斷找到統計方向,即目的;其次對數據進行量化、分析、處理等;最后根據結果得出結論。
大數據時代,統計分析過程:定量—定性。
基礎性的工作就是找到“定量的回應”,直接從各種“定量的回應”中找出有價值的、為我們所需要的數據,并通過分析找到數據的特征和數量關系,進而據此做出判斷與決策。
實證分析
傳統的統計實證分析思路:假設—驗證。
首先提出假設,接著按照統計方法進行數據的收集、分析、展示,最后通過所得到的結論對假設進行驗證,事實證明,這種實證分析存在很大誤差。
大數據時代實證分析思路:發現—總結。
對數據進行整合,從中尋找關系、發現規律,然后再加以總結、形成結論,這將有助于發現更多意外的“發現”。
推斷分析
傳統的統計推斷分析過程:以分布理論為基礎,在概率保證的前提下,對總體進行推斷,通常是根據樣本特征去推斷總體特征,推斷是否正確卻取決于樣本的好壞。
大數據時代統計推斷分析過程:以實際分布為基礎,根據總體的特征,進行概率的判斷,在靜態或者動態的某個時點,大數據所需處理的對象為總體數據,不需要根據分布理論推斷總體特征,而要根據計算方法進行。
7. 統計軟件的增多
傳統統計學以統計模型和軟件為基礎進行數據分析處理,統計模型的作用在于對數據間的數量關系進行構建,統計軟件是分析和處理數據的工具,需要研究者自主輸入經過處理的數據,以及統計模型的公式等。
常見的統計軟件有SAS,R,STATA,SPSS,MATLAB等。
大數據所依賴的數據分析技術為非關系型的,以數據中心為基礎。若將統計軟件與大數據結合起來,則統計分析的過程可以得到很大程度上的簡化。
綜上所述,大數據時代的來臨,對傳統統計學的變革從樣本的定義方法一直到數據分析的思維與技術均有所體現。可以看出,大數據使我們對數據的利用取得了更大的主動權,將促使傳統統計學迅速的發展。
本文來源于《大數據時代對傳統統計學變革的思考》;
《統計研究》2016年第2期;
作者:朱建平、張悅涵;