不知從何時開始，大數據這個詞從初次問世的新奇高逼格，變成了現在的爛大街。好像凡是家互聯網公司，就敢言必稱“大數據”。

那么，我們聽了這么久的大數據，到底什么是大數據？既然有大數據，那么是否就有小數據？一個新的概念的提出，必然是對原本概念的一個挑戰，那么大數據和小數據相比又有什么區別呢？

我想這兩者的本質區別并非只是數據量大小的差異，更是我們我們思維層面的變革。

今天，筆者就借舍恩伯格的《大數據時代》來和大家聊聊對于大數據的一些理解。舍恩伯格在書中提出來3個關于大數據時代思維變革的觀點。

一、更多：不是隨機樣本，而是全體數據

我們從中學時候，就開始接觸“抽樣”的概念。而抽樣其實就是小數據時代通用的一種方法。基于當初的數據收集和處理的困難，我們無法做到對所有的研究對象進行數據分析，因此就選擇抽樣的方法，隨機抽取部分樣本，希望通過對隨機樣本的研究來說明整體的情況。這種方法最重要的就是在樣本的選擇上，如果選擇樣本的時候不符合“隨機”性，那么其最終的研究結果便很有可能和事實相差甚遠。

而隨著互聯網時代的到來，技術的飛速發展，我們記錄收集信息的成本越來越低。從事互聯網這一行的基本都知道，只要我們在產品內進行埋點，便能知道所有我們想知道的用戶在產品上的行為，而具備強大的數據分析能力的計算機，更是使對所有數據進行分析成為了可能。解決了數據收集和分析的難題，使“樣本=全體”得以實現，而這也是大數據時代第一個特點，我們再進行相關研究的時候無需進行抽樣，對全量的研究是我們的結果更加全面。

二、更雜：不是精確性，而是混雜性

在以往的小數據時代，因為樣本容量的有限性，為了保證最終結果的可信性，分析人員務必需要保證所選擇樣本數據的準確度。因為基于小樣本的數據分析，如果其中不幸參雜了一個錯誤的數據，那很有可能導致最終的結果完全偏離現實。

而到了大數據時代，我們所收集到的數據越來越多，而其中必然會慘雜著為數不少的錯誤數據。但是在如此龐雜的數據庫中。只有5%的數據是結構化且能用于傳統數據庫的，這也就意味著，如果我們還是如以往一般執迷于精確性，那么剩下95%的的非結構化數據都無法被利用，這將是一個多大的損失，我們坐擁寶山而不自知，白白讓這么豐富的數據浪費。而如果要使用這些數據，我們就必須接受不精確性，接受數據的混雜，這樣才能打開一扇從未涉足的世界的窗戶。

當然，我們不再追求精確性，并不是意味著我們放棄準確。恰恰相反，接受數據的混雜，正是為了能夠通過對更多數據的使用，來獲取更有說服力、更加準確的結果。雖說混雜的數據中會參雜錯誤數據，但在龐大的全樣本下，個別錯誤的數據對最終結果的影響也將被無限地縮小。

三、更好：不是因果關系，而是相關關系

今日頭條根據用戶以往的閱讀數據來判定其感興趣的內容，并進行針對性的推薦，但從不去糾結用戶為什么喜歡這些內容；支付寶年度賬單會根據各個省市的消費情況制作相關的排行榜，但也并不深究是什么導致了各個省市消費情況的差異......

諸如此類，絕大部分的互聯網公司都是通過數據的分析，向我們傳遞著“是什么”的信息，而非“為什么”。而這也正是大數據時代所帶來的第三個思維的變革：我們更多的開始關注相關關系，而不是因果關系。我們不必非得知道現象背后的原因是什么，我們更多的是讓數據自己“發聲'。

當然，這并不意味著因果關系已經沒有作用。在大多數情況下。一旦我們完成了對大數據的相關關系分析，往往不會僅僅滿足于知道'是什么”，我們會繼續像更深層次進行探索，去研究因果關系，找出背后的“為什么”。

我們只是不會再把因果關系作為意義來源的基礎。在大數據時代，即使很多情況下，我們依然指望用因果關系來說明我們所發現的相互聯系，但是，因果關系實際上只是一種特殊的相關關系。相反，大數據推動了相關關系分析，相關關系往往能取代因果關系起作用，即使不可取代的情況下，它也能指導因果關系起作用。

大數據時代的來臨，是我們測量、記錄、分析世界的一個契機，他能幫助我們更好的認識社會，認識我們所生存的這個世界。而如果我們有意去抓住這個機遇，就務必需要從思維上去改變，去適應大數據時代的生存法則。

著作權歸作者所有

本站僅提供存儲服務，所有內容均由用戶發布，如發現有害或侵權內容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

一、 更多：不是隨機樣本，而是全體數據

二、更雜：不是精確性，而是混雜性

三、更好：不是因果關系，而是相關關系

一、更多：不是隨機樣本，而是全體數據