精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
你應該了解的大數據時代的10個新理念及10個新術語

大數據時代的10個新理念

大數據時代的到來改變了人們的生活方式、思維模式和研究范式,我們可以總結出10個重大變化,如圖1-10所示。

1)研究范式的新認識——第三范式第四范式2007年,圖靈獎獲得者Jim Gray提出了科學研究的第四范式——數據密集型科學發現(Data-intensive ScientificDiscovery)。在他看來,人類科學研究活動已經歷過三中不同范式的演變過程(原始社會的“實驗科學范式”、以模型和歸納為特征的“理論科學范式”和以模擬仿真為特征的“計算科學范式”),目前正在從“計算科學范式”轉向“數據密集型科學發現范式”。第四范式,即“數據密集型科學發現范式”的主要特點是科學研究人員只需要從大數據中查找和挖掘所需要的信息和知識,無須直接面對所研究的物理對象。例如,在大數據時代,天文學家的研究方式發生了新的變化——其主要研究任務變為從海量數據庫中發現所需的物體或現象的照片,而不再需要親自進行太空拍照。再如,本書作者在一次研究生科學研究方法的調研中發現,絕大部分同學的研究范式有待調整——他們往往習慣性地“采用問卷調查法等方法親自收集新數據”,而不是“首先想到有沒有現成的大數據以及如何再利用已有的數據(數據洞見)”,如圖1-11所示。

2)數據重要性的新認識——數據資源數據資產在大數據時代,數據不僅是一種“資源”,而更是一種重要的“資產”。因此,數據科學應把數據當做“一種資產來管理”,而不能僅僅當做“資源”來對待。也就是說,與其他類型的資產相似,數據也具有財務價值,且需要作為獨立實體進行組織與管理。

3)對方法論的新認識——基于知識解決問題基于數據解決問題。我們傳統的方法論往往是“基于知識”的,即從 “大量實踐(數據)”中總結和提煉出一般性知識(定理、模式、模型、函數等)之后,用知識去解決(或解釋)問題。因此,傳統的問題解決思路是“問題→知識→問題”,即根據問題找“知識”,并用“知識”解決“問題”。然而,數據科學中興起了另一種方法論——“問題→數據→問題”,即根據問題找“數據”,并直接用數據(不需要把“數據”轉換成“知識”的前提下)解決問題,如圖1-12所示。

4)對數據分析的新認識——從統計學到數據科學。在傳統科學中,數據分析主要以數學和統計學為直接理論工具。但是,云計算等計算模式的出現以及大數據時代的到來,提升了我們對數據的獲取、存儲、計算與管理能力,進而對統計學理論與方法產生了深遠影響,主要有:

l隨著數據獲取、存儲與計算能力的提升,我們可以很容易獲得統計學中所指的“總體”中的全部數據,且可以在總體上直接進行計算——不再需要進行“抽樣操作”;

l在海量、動態、異構數據環境中,人們更加關注的是數據計算的“效率”而不再盲目追求其“精準度”。例如,在數據科學中,廣泛應用“基于數據的”思維模式,重視對“相關性”的分析,而不是等到發現“真正的因果關系”之后才解決問題。在大數據時代,人們開始重視相關分析,而不僅僅是因果分析。

5)對計算智能的新認識——從復雜算法到簡單算法。“只要擁有足夠多的數據,我們可以變得更聰明”是大數據時代的一個新認識。因此,在大數據時代,原本復雜的“智能問題”變成簡單的“數據問題”——只要對大數據的進行簡單查詢就可以達到“基于復雜算法的智能計算的效果”。為此,很多學者曾討論過一個重要話題——“大數據時代需要的是更多數據還是更好的模型(moredata or better model)?”。機器翻譯是傳統自然語言技術領域的難點,雖曾提出過很多種“算法”,但應用效果并不理想。近年來,Google翻譯等工具改變了“實現策略”,不再僅靠復雜算法進行翻譯,而對他們之前收集的跨語言語料庫進行簡單查詢的方式,提升了機器翻譯的效果和效率。

6)對數據管理重點的新認識——從業務數據化到數據業務化。在大數據時代,企業需要重視一個新的課題——數據業務化,即如何“基于數據”動態地定義、優化和重組業務及其流程,進而提升業務的敏捷性,降低風險和成本。但是,在傳統數據管理中我們更加關注的是業務的數據化問題,即如何將業務活動以數據方式記錄下來,以便進行業務審計、分析與挖掘。可見,業務數據化是前提,而數據業務化是目標。

7)對決策方式的新認識——從目標驅動型決策到數據驅動型決策傳統科學思維中,決策制定往往是“目標”或“模型”驅動的——根據目標(或模型)進行決策。然而,大數據時代出現了另一種思維模式,即數據驅動型決策,數據成為決策制定的主要“觸發條件”和“重要依據”。例如,近年來,很多高新企業中的部門和崗位設置不再是“固化的”,而是根據所做項目與所處的數據環境,隨時動態調整其部門和崗位設置。然而,部門和崗位設置的敏捷性往往是基于數據驅動的,根據數據分析的結果靈活調整企業內部結構。

8)對產業競合關系的新認識——以戰略為中心競合關系以數據為中心競合關系。在大數據時代,企業之間的競合關系發生了變化,原本相互激烈競爭,甚至不愿合作的企業,不得不開始合作,形成新的業態和產業鏈。例如,近年來IBM公司和Apple公司“化敵

[1]為友”,并有報道稱他們正在從競爭對手轉向合作伙伴——IBM的100多名員工前往Apple的加州庫比蒂諾總部,與Apple一起為IBM的客戶(例如花旗、Sprint和日本郵政)聯合開發iPhone和iPad應用。

9)對數據復雜性的新認識——從不接受到接受數據的復雜性。在傳統科學看來,數據需要徹底“凈化”和“集成”,計算目的是需要找出“精確答案”,而其背后的哲學是“不接受數據的復雜性”。然而,大數據中更加強調的是數據的動態性、異構性和跨域等復雜性——彈性計算、魯棒性、虛擬化和快速響應,開始把“復雜性”當作數據的一個固有特征來對待,組織數據生態系統的管理目標轉向將組織處于混沌邊緣狀態。

(10)對數據處理模式的新認識——從“小眾參與”到“大眾協同”。傳統科學中,數據的分析和挖掘都是具有很高專業素養的“企業核心員工”的事情,企業管理的重要目的是如何激勵和績效考核這些“核心員工”。但是,在大數據時代,基于“核心員工”的創新工作成本和風險越來越大,而基于“專家余(Pro-Am)”的大規模協作日益受到重視,正成為解決數據規模與形式化之間矛盾的重要手段。

大數據時代的新術語

大數據時代的到來,為我們提出一些新的任務和挑戰。本節我們以近幾年在大數據管理領域新出現的術語為線索,討論大數據時代的主要活動和能力要求(圖1-13)。

1數據化(Datafication是指捕獲人們的生活與業務活動,并將其轉換為數據的過程。例如:

Google眼睛正在數據化人們視覺活動;

Twitter正在數據化人們的思想動態;

Linkedin正在數據化人們的社會關系。

目前,在個人信息的獲取中廣泛使用了數據化,非法收集,導致了個人隱私之間的矛盾。

2)數據柔術(DataJiu-Jitsu)是指數據科學家將“大數據”轉換具有立即產生商業價值的“數據產品(Data Product)”的能力,如圖1-14所示。數據產品是指在零次數據或一次數據的基礎上,通過數據加工活動形成的二次或三次數據,數據產品的特點包括:

高層次性:一般為二次數據或三次數據;

成品性:數據產品往往不需要(或不需要大量的)進一步處理即可直接應用;

商品性:數據產品可以直接用于銷售或交易;

易于定價:相對于原始數據,數據產品的定價更為容易。

3)數據改寫(DataMunging是指帶有一定的創造力和想象力的數據再加工行為,主要涉及數據的解析(parsing)、提煉(scraping)、格式化(formatting)和形式化(formalization)處理。與一般數據處理不同的是,數據再加工強調的是數據加工過程中的創造力和想象力。

4)數據打磨(DataWrangling是指采用全手工或半自動化的方式,通過多次反復調整與優化過程,即將“原始數據”轉換為“一次數據”(或“二次數據”)的過程。其特殊性表現在:

不是完全自動化方式實現,一般用手工或半自動化工具;

不是一次即可完成,需要多次反復調整與優化。

5)數據洞見(DataInsights是指采用機器學習、數據統計和數據可視化等方法從海量數據中找到“人們并未發現的且有價值的信息”的能力。數據科學強調的是“數據洞見”——發現數據背后的信息、知識和智慧以及找到“被淹沒在海量數據中的未知數據”。與數據挖掘不同的是,數據科學項目的成果可以直接用于決策支持。數據洞見力的高低主要取決于主體的數據意識、經驗積累和分析處理能力。

6)數據分析式思維模式(Data-AnalyticThinking是指一種從數據視角分析問題,并“基于數據”來解決問題的思維模式。例如,當某個具體業務的效率較低時,我們考慮是否可以利用數據提升業務效率,并進一步提出如何通過數據提升的方法。可見,數據分析思維模式與傳統思維模式不同。前者,主要從“數據”入手,最終改變“業務”;后者從“業務”或“決策”等要素入手,最終改變“數據”。因此,數據分析式思維模式改變了我們通常考慮問題的出發點和視角。從分析對象和目的看,數據分析可以分為3個不同層次,如圖1-15所示。

描述性分析( Descriptive Analysis) 是指采用數據統計中的描述統計量、數據可視化等方法描述數據的基本特征,如總和、均值、標準差等。描述性分析可以實現從“數據”到“信息”的轉化。

預測性分析(Predictive Analysis是指通過因果分析、相關分析等方法“基于過去/當前的數據”得出“潛在模式”、“共性規律”或“未來趨勢”。預測性分析可以實現從“信息”到“知識”的轉化。

規范性分析(Prescriptive Analytics不僅要利用“當前和過去的數據”,而且還會綜合考慮期望結果、所處環境、資源條件等更多影響因素,在對比分析所有可能方案的基礎上,提出“可以直接用于決策的建議或方案”。規范性分析可實現從“知識”到“智慧”的轉變。

7)數據驅動(Data-driven)是相對于“決策驅動”、“目標驅動”、“業務驅動”和“模型驅動”的一種提法。也就是說,數據驅動主要以數據為“觸發器(出發點)”、“視角”和“依據”,進行觀測、控制、調整和整合其它要素——決策、目標、業務和模型等,如圖1-16所示。數據驅動是大數據時代的一種重要思維模式,也是“業務數據化”之后實現“數據業務化”的關鍵所在。

8)數據密集型(Data-Intensive)應用是相對于“計算密集型應用”、“I/O密集型應用”的一種提法,如圖1-17所示。也就是說,數據密集型應用中數據成為應用系統研發的“主要焦點和挑戰”。通常,數據密集型應用的計算比較容易,但數據具有顯著的復雜性(異構、動態、跨域和海量等)和海量性。例如,當我們對PB級復雜性數據進行簡單查詢時,“計算”不再是最主要的挑戰,而最主要挑戰來自于數據本身的復雜性。

9)數據空間(DataSpace是指主體的數據空間——與主體相關的數據及其關系的集合。主體相關性和可控性是數據空間中數據項的基本屬性。

主體是指數據空間的所有者,可以是個人,也可以是一個組織;

主體相關性是指數據空間所管理的是與特定主體相關的信息,而這些信息可以出現在不同的時間,存放在不同的位置,也可以采用不同的格式表示;

主體可控性是指主體通過各種操作或服務來控制和管理數據空間中數據項。

可見,數據空間為我們解決來自跨域、異構、動態數據源的集成管理提供了一種新的思路和解決方案。相對于數據庫技術,數據空間技術具有現收現付(Pay-as-you-go)、數據在先,模式在后、不斷演化的數據模型、數據集成不改變數據的原有格式、數據內容以共存形式分布在不同數據源、自動處理數據源的動態變化、充分利用數據源的自我管理能力、主體對數據具有部分控制能力、建設過程信息丟失相對少、支持數據關聯的動態變化以及服務質量的不確定性等特點。

10)關聯數據(LindedData是一種數據發布和關聯的方法。其中,數據發布是指采用RDF(Resource DescriptionFramework,資源描述框架)和HTTP(Hypertext TransferProtocol,超文本傳輸協議) 技術在Web上發布結構化信息;數據關聯是指采用RDF鏈接技術在不同數據源中的數據之間建立計算機可理解的互連關系。2006年,Tim Berners Lee 首次提出了關聯數據的理念,目的在于不同資源之間建立計算機可理解的關聯信息,最終形成全球性大數據空間。Tim Berners Lee進一步明確提出了關聯數據技術中的數據發布和數據關聯的4項原則

采用URI(UniformResource Identifier,統一資源標識符)技術統一標識事物;

通過HTTPURI訪問URI標識;

當URI被訪問時,采用RDF(Resource Description Framework,資源描述框架)和SPARQL(SimpleProtocol and RDF Query Language)標準,提供有用信息;

提供信息時,也提供指向其他事物的URI,以便發現更多事物。

除了上述概念之外,還有數據消減(Data Reduction)、數據新聞(Data Journalism)、數據的開放獲取(OpenAccess)、數據質量、特征提取等傳統概念也重新備受關注。

本文節選自《數據科學》


新書推薦

作者:朝樂門

定價:49元

ISBN:9787302436997

出版日期:2016.08

作者簡介

朝樂門,中國人民大學副教授,碩士生導師、中國計算機學會信息系統專委員會委員、ACM高級會員、國際知識管理協會正式成員。清華大學博士后,人民大學博士,北京大學碩士。主持完成國家自然科學基金、國家社會科學基金等重要科學研究項目10余項;參與完成核高基、973、863等國家重大科研項目10余項;獲得北京市中青年骨干教師、Emerald/ EFMD國際杰出博士論文獎、國際知識管理與智力資本杰出成就獎、中國人民大學優秀博士論文獎等獎勵30余項。

數據科學是一門新興的熱門科學,國外一流大學紛紛設立同名課程,相應的專業、課程及書籍也深受歡迎。本書是國內第一部系統闡述數據科學的重要專著,填補了國內此領域的空白。本書在結構設計和內容選擇上不僅充分借鑒了國外著名大學設立的相關課程以及全球暢銷的外文專著,也考慮到了國內相關課程定位與專業人才的培養需求。

本書共包括8個部分(基礎知識、數據預處理、數據統計、機器學習、數據可視化、數據計算、數據管理以及R編程),既涵蓋了數據科學的基本內容,又避免了與相關課程的低級重復。每章設有綜合例題,做到理論學習與動手操作相結合。例題均采用R語言完成數據科學的特定任務。每章的首尾配有“導讀”與“小結”,便于教師的教學和學生的自學。“習題”部分以主動數據收集和分析的開放題目為主,旨在幫助學生提高自我學習能力。書后附有R語言語法,便于入門的教學與學習。

本書可以滿足數據科學、計算機科學與技術、管理學、數據統計、數據分析、圖情檔類等多個專業的老師、學生(含碩士生和博士生)的教學與自學需要。

如果需要樣書,可以在微信公眾號“書圈”申請,僅限教師。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
數據密集型科學
大數據:科技及經濟社會發展的重大戰略領域
社計文庫|范曉光等 計算社會學的基礎問題及未來挑戰
大數據是什么?一篇文章告訴你
戰爭科學論——認識和理解戰爭的科學基礎和思維方法
■科學的發展有四個范式:第一范式:科學的第一范式是經驗主義和人的
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 湖北省| 察雅县| 天津市| 杭州市| 武鸣县| 黎城县| 郸城县| 遂昌县| 大港区| 和林格尔县| 泽普县| 望城县| 大化| 大悟县| 嘉义县| 嘉定区| 永兴县| 宜兰市| 公安县| 监利县| 双峰县| 来凤县| 荃湾区| 突泉县| 石城县| 渝北区| 紫阳县| 育儿| 图们市| 什邡市| 申扎县| 西乌| 石嘴山市| 林西县| 和顺县| 松原市| 乐清市| 邳州市| 工布江达县| 太和县| 淮南市|