大數據在國內已經火熱了一段時間,無論是政府還是企業都已開始重視大數據,紛紛設立大數劇部門,數據之于企業的重要性不言而喻。因此優秀的企業為了分析收集來的海量數據,會毫不猶豫地雇傭專業級的數據分析師來幫助公司進行決策,創造價值。
據某招聘網站調查,一名有經驗的數據分析師的年薪不低于20萬。而數據工程師、數據科學家等則收入更高。作為數據分析師,無論最初的職業定位方向是技術還是業務,最終發到一定階段后都會承擔數據管理的角色。因此,一個具有較高層次的數據分析師需要具備完整的知識結構。大數據時代,數據分析對于企業決策和發展起到越來越重要的作用。
1.數據采集
了解數據采集的意義在于真正了解數據的原始面貌,包括數據產生的時間、條件、格式、內容、長度、限制條件等。這會幫助數據分析師更有針對性的控制數據生產和采集過程,避免由于違反數據采集規則導致的數據問題;同時,對數據采集邏輯的認識增加了數據分析師對數據的理解程度,尤其是數據中的異常變化。
在數據采集階段,數據分析師需要更多的了解數據生產和采集過程中的異常情況,如此才能更好的追本溯源。另外,這也能很大程度上避免“垃圾數據進導致垃圾數據出”的問題。
2.數據的加工整理
在明確數據分析目標基礎上收集到的數據,往往還需要進行必要的加工整理后才能真正用于分析建模。數據的加工整理通常包括數據缺失值處理、數據的分組、基本描述統計量的計算、基本統計圖形的繪制、數據取值的轉換、數據的正態化處理等,它能夠幫助人們掌握數據的分布特征,是進一步深入分析和建模的基礎。
3.數據分析
數據分析相對于數據挖掘更多的是偏向業務應用和解讀,當數據挖掘算法得出結論后,如何解釋算法在結果、可信度、顯著程度等方面對于業務的實際意義,如何將挖掘結果反饋到業務操作過程中便于業務理解和實施是關鍵。
4.數據展現
數據展現即數據可視化的部分,數據分析師如何把數據觀點展示給業務的過程。數據展現除遵循各公司統一規范原則外,具體形式還要根據實際需求和場景而定。基本素質要求如下:
工具:PPT、Excel、Word甚至郵件都是不錯的展現工具,任意一個工具用好都很強大。
形式:圖文并茂的基本原則更易于理解,生動、有趣、互動、講故事都是加分項。
原則:領導層喜歡讀圖、看趨勢、要結論,執行層歡看數、讀文字、看過程。
場景:大型會議PPT最合適,匯報說明Word最實用,數據較多時Excel更方便。
最重要一點,數據展現永遠輔助于數據內容,有價值的數據報告才是關鍵。
5.數據應用
數據應用是數據具有落地價值的直接體現,這個過程需要數據分析師具備數據溝通能力、業務推動能力和項目工作能力。
數據溝通能力。深入淺出的數據報告、言簡意賅的數據結論更利于業務理解和接受,打比方、舉例子都是非常實用的技巧。
業務推動能力。在業務理解數據的基礎上,推動業務落地實現數據建議。從業務最重要、最緊急、最能產生效果的環節開始是個好方法,同時要考慮到業務落地的客觀環境,即好的數據結論需要具備客觀落地條件。
項目工作能力。數據項目工作是循序漸進的過程,無論是一個數據分析項目還是數據產品項目,都需要數據分析師具備計劃、領導、組織、控制的項目工作能力。
數據分析師技能要求
1、數理統計基礎
作為一名數據分析師,一定要掌握一些基礎的、成熟的數學模型算法。例如:回歸分析、因子分析、聚類分析、決策樹、關聯規則、神經網絡等。同時建議多看一些博文,看別人對于這個方法的理解,怎么在實際業務中應用,以及如何優化等等。在算法上可以不做到用軟件編寫算法,但是一定要知道原理,知道怎么應用,怎么調整參數,參數的含義等等。
2、工具
對于一個初級的數據分析師要掌握的基礎工具,Excel,SPSS,數據庫(如mysql等),隨著大數據的來臨,傳統的一些軟件已經不足以支撐數據分析、數據挖掘了,隨著工作年限的增長,工作內容的加深,R和Python一定要會一個,目前流行的很多機器學習算法要這些軟件才能實現。現在機器學習很火,建議多研究一下這方面的內容,不論是對于自身的提升還是對職業發展都是非常有利的。
3、對行業的了解程度
對特定行業的了解可以幫助數據分析師盡快進入狀態,加速決策的過程。如果缺少這一前提,你的數據分析師可能不得不花時間來先對整體行業有一個大概地認知,學習相關知識,然后才能投入其中。
4、溝通能力
現代社會,工作通常要通過分工合作來完成。溝通成為其中必不可少的一環。所以你想要雇傭的數據分析師在這方面有所建樹的話,可以極大地提升工作效率。另外,擁有良好溝通能力的專家懂得合理地呈現數據可視化成果并且講好數據故事。
要成為高級數據分析師的話,一方面是要強化對業務的理解,最好是做到通過數據分析幫助公司決策方向,或者說促進企業快速增長。另一方面,要加強機器學習/數據挖掘的專業知識學習,將機器學習成為數據分析的手段。最后,要強調的是,數據分析師是一個實踐的職位,要在實際項目中不斷的訓練。