數據不是現實,“數據驅動”會導致很多問題,有三種數據處理的方法,能夠豐富你的創造力,并且可以讓你十分有效的利用所獲得的信息。
1、發揮創造力—提問和實驗
2、提出問題,能想到的所有問題
3、包容性思考
過快:急于求成,還沒找到實際問題就提出解決方案
過量:圖圇吞——對于重要的和無關緊要的指標不做區分
過度:信息過載,試圖發現根本不存在的模式
使用可重用的保留數據法來避免在交互式數據分析中出現過擬合
數據驅動決策的13種思維
第一、信度與效度思維
所謂信度,是指一個數據或指標自身的可靠程度,包括準確性和穩定性”
所謂效度,是指一個數據或指標的生成,需貼合它所要衡量的事物,即指標的變化能夠代表該事物的變化。”
信度和效度的本質,其實就是**數據質量**的問題,
第二、平衡思維
“平衡思維的關鍵點,在于尋找能展示出平衡狀態的指標!
第三、分類思維
關鍵點在于,分類后的事物,需要在核心指標上能拉開距離!
第四、矩陣化思維
第五、管道/漏斗思維
第六、相關思維
第七、遠近度思維
第八、邏輯樹思維
第九、時間序列思維
第十、隊列分析思維
第十一、循環/閉環思維
第十二、測試/對比思維
第十三、指數化思維
數據科學家、數據分析師、數據架構師、數據工程師、統計學家、數據庫管理員、業務數據分析師、數據產品經理。
角色 | 任務 | 必備語言 | 技能和特長 |
數據科學家 | 清洗,管理和組織(大)數據 | R,SAS,Python,Matlab,SQL,HivePig,Spark | 分布式計算、預測模型 故事講述和可視化 數學\統計,機器學習 |
數據分析師 | 收集,處理和執行統計數據分析 | R,Python,HTML,Javscript,C/C++,SQL | 電子表格工具 數據庫系統(SQL和基于NO SQL) 通信可視化 數學,統計,機器學習 |
數據架構師 | 創建數據管理系統進行整合 集中、保護和維護數據源 | SQL,XML,HIVE,PIG,SPARK | 數據倉庫解決方案 深入了解數據庫體系結構 提取thansformation和加載(ETL) 電子表格和BI工具 數據建模 系統開發 |
數據工程師 | 開發,建設,測試和維護架構(如數據庫,以及較大規模的處理系統) | SQL,Hive,Pig,R,Mtlab,SAS,SPSS Python,Java,Ruby,C++,Perl | 數據庫系統(SQL和基于NO SQL) 數據建模ETL工具 數據API 數據倉庫解決方案 |
統計學家 | 收集,分析和解釋 定性和定量的數據統計理論和方法 | R,SAS,SPSS,Mtlab,Stata Python,Perl,Hive,Pig,Spark,SQL | 統計理論方法 數據挖掘機器學習 分布式計算(Hadoop的) 數據庫系統(SQL和基于NO SQL) 云工具 |
數據庫管理員 | 確保數據庫是提供給所有相關用戶,并且安全運行 | SQL,Java,Ruby on Rails, XML,C#,Python | 備份恢復 數據建模和設計 分布式計算(Hadoop的) 數據庫系統(SQL和基于NO SQL) 數據安全 ERP業務知識 |
業務數據分析師 | 改進業務流程的業務和IT之間的中介 | SQL | 基本工具(例如微軟Office) 數據可視化工具(e.g.Tableau) 自覺聽和講故事 商業智能的理解 數據建模 |
數據產品經理 | 管理團隊分析師和數據科學家 | SQL,R,SAS,Python,Matlab,Java | 數據庫系統(SQL和基于NO SQL) 領導項目管理 人際溝通 數據挖掘預測建模數據建模 |
數據科學工作的三種風格
我們決定根據這三個方向來重新定義數據科學職位。
分析追蹤(Analytics track)
這個非常適合那些擅長提出問題的數據科學家,他們能夠正確地對數據進行提取、探索,然后用儀表盤和可視化工具進行自動分析,能夠通過給出合理建議來推動商業決策。
算法追蹤(Algorithms track)
這項能力則是為機器學習專家準備的,他們熱衷于在產品設計和運營流程中加入數據思維,然后為商業行為創造價值。
推理追蹤(Inference track)
這則是針對統計學家、經濟學家和社會學家的,他們能夠利用統計學知識來提高決策效率,并正確衡量我們工作造成的影響。
對于技術方面的數據科學家,我們的評價體系包括以下主要方面:
技術層面
分析:定義并監控指標,進行數據的描述性分析,并構建工具來推動決策
算法:為數據產品構建算法,并能夠進行解釋
推理:采用統計學知識來建立因果關系
基礎:每個數據科學家都要為數據質量和代碼質量負責任(對于所有方向都適用)
商業層面(對于所有方向都適用)
所有權:能夠推動項目取得成功,并為其他人創造影響力
影響力:溝通清晰,有團隊精神,能夠建立良好關系
豐富性:通過指導、招聘、創建企業文化和其他多樣性的行動來為團隊建設做出貢獻
數據科學的實踐需要三個一般領域的技能:商業洞察、計算機技術/編程和統計學/數學。