精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
從央企財會到數據分析師,他都經歷了什么?

在今年9月召開的CDAS2016中國數據分析師行業峰會上,有一個比較特別的分論壇。這個論壇的嘉賓有些原本并不是業內人士,但經過一段時間的學習,他們成功轉型,成為一名數據分析師。他們也有一個共同的身份——CDA數據分析師學員。

李運超同學在論壇上的分享了自己從一個財會從業者到一名數據分析的歷程。本文根據李運超在分享整理而成。

另:號外!昨天由于百度莫名其妙不給通過審核,導致昨天分享的互聯網大數據分論壇PPT下載鏈接無效,很多小伙伴下載失敗,現在已更換為有道云筆記的分享鏈接,關鍵詞仍然是CDAS6

今天分享CDA專場分論壇PPT,可在微信平臺回復關鍵詞CDAS7獲取下載鏈接。

大家好!我叫李運超,我目前是在中國人壽保險分公司做分析師,我是CDA第四期的學員,也是剛剛從一個數據分析的學習者變成從業人員。

我以前其實是做財務會計的,在座可能有的人對財務會計有些了解,它和數據分析師中間差別很大。大家會好奇,我是為什么要從財務會計到一個數據分析師呢?

跟大家分享一下我自身思維的轉變。我以前是在一個央企做財務會計的,當時負責整個項目,包括會計的核算、稅務的管理,整個項目下來大概半年多到一年,通過這份工作對自己大學、研究生的知識有一個充分的應用。但是通過工作會發現,在工作中和你自己想象其實是不太一樣的,我個人對于我自身的一個定位始,終是要將我所學到的一些知識應用到企業的管理上,能夠發揮自身的一些價值。但是在工作中,我發現其實長期看,我的工作會是一個項目一個項目下去,對一個財務人員來說,跟我的性格不太相符。我想轉變,想發揮自己更大的作用。

怎么做呢?當時我剛一開始并沒有想一步跨越到數據分析師這個職業上來,當時我是想做偏向于財務預算的,但是在不斷地了解過程中,發現我原來上學時,對于工具使用和數據分析方面的知識儲備不足,后來我找工作的時候都會提出要求懂一些數據庫的東西,當時就感覺蒙了,就不知道自己原來差得這么多。

經過幾個月的考量,我最后決定用一段時間去系統地學習一下這個東西,做數據分析相關的工作。這樣可以讓數據的應用發揮一個更大的價值,而不僅僅是對于一些事務性的簡單的處理。就這樣,我從一個財務人員逐步地走到了數據分析這個行業里來了。

要做數據分析,我們要學習的東西其實還是很多的,包括一些工具、數據庫,還有一些財務統計的知識,以及一些算法。

從工具來說,我們首先會應用到的是Excel。我們在后期應用一些專業的工具進行處理的時候,對于數據的格式還是有要求的,還有數據的拆分。我們所應用到的最基礎的工具就是Excel,除了可以數據拆分,還能進行數據分析。

當時我做的一個工作就是將數據產品拆分出來,剛開始我想用SAS進行拆分,我的機子比較老,就帶不動,后來我發現Excel可以輕松地搞定。Excel有很多函數,可以進行一對一的匹配。另外,Excel有些數據透視表,對分類的匯總,以及后期把數據帶入到工具里面是很有用的;數據透視圖,可以做可視化展現的方式。如果你對Excel的VBA再熟悉一些的話,處理數據就很方便了。

另外,學完Excel之后,我又學了STATA和SAS。這些軟件相對來說比較菜單化,能夠做很多東西,包括一些簡單的統計分析,求一下最大值、最小值,中位數,還有可以做一些上學學到的分析檢驗等。但不僅僅停留在這個層次,數據分析會涉及到包括回歸、聚類和分類、時間序列等方法。

比如回歸,學的就是一個方程,這是最基本的,其實還可以擴展。它是干什么用的呢?就是對于發生額的預測。比如說一條訂單記錄會有一些變量,包括性別、年齡、收入等等。通過它其實我們就可以列出一個方程來,預測一個未來值,在我們銷售和一個發生值相關的時候,就可以定位。可以把客戶分成幾類,哪些人屬于高價值的客戶,哪些人屬于相對來說一般的。

還有一個與此相關的邏輯回歸,看名字很相似,之所以放到一塊是因為它最后的展現形式。不同的是邏輯回歸是一個事件的發生概率,這個事情發生不發生,他會不會購買,這是我們常會遇到一個問題。通過邏輯回歸就可以根據原有數據歸納出結論。

回歸和邏輯回歸通常來說都是綜合結合來用的,比如說我們把預測出來的金額分成十個檔,第一是金額最大的,那么在分析的時候還會有一個問題,這就是種購買金額最高的人,他購買的發生概率是什么?這需要做一個橫向的匹配,這樣的話我們就會歸納出在實際應用中,發生額和發生概率的排序。我們企業資源都是有限的,在實踐應用中我們會根據排序截取前50%的比例,或者20%的比例進行資源投入,這樣會獲得最大的收益。

聚類和分類,這兩個東西看起來很相似,都是跟類別有關系,它們的不同在于聚類是一個無監督學習,分類是一個有監督學習

聚類是干嗎的?我們其實不知道這里邊有幾類,弄到一堆這就是聚類。這對一些未知領域的探索很有幫助,我們在聚類的時候都會把它規劃成一圈,在聚類之前做一個分析。這樣的話可以降低緯度,避免一些緯度災難

做好了聚類之后下面就可以分類了,比如說可分成三堆,又來了一個東西,看看它跟哪個是一堆的,就分類了。其實我們常用的算法,包括前面提到的邏輯回歸,到決策樹、神經網絡都是可以用來分類的。

還有第三類就是時間序列,炒股的話就會發現股票的價格會隨著時間的波動而波動。還有銷量,從某種意義上講時間是有相關性的。

數據并不是直接拿過來就能用。更多的情況下,企業會把數據放在數據庫,量大的話還會放在數據倉庫里面。我在面試的時候遇到的兩個常見的問題,第一個你為什么會做數據分析師,另外一個就是你的數據庫應用能力。數據庫的接收是不需要掌握的,主要是數據庫的查詢,數據庫里面各種資料的認識是必須要具備的,我們常用的一個整體查詢就是各種字段,從哪個表分類一下,分類端再做一個排序,一般都會涉及到多張表。

對于數據庫這塊還是要多掌握一些知識。常用的數據庫都是關系型數據庫,如果有能力非關系型數據庫還是要多學習一下,還沒有工作的同學可以把精力投入一些,找工作數據庫不行的話就直接被Pass掉了。

除了數據分析的工具,也懂數據庫,在數據分析里邊還有一些內在的思想,包括一些傳統的統計方法,還有算法。算法很多,因為時間有限,我不打算多講。邏輯回歸、決策樹、神經網絡都可以學一下,這些算法有一些是常用的和非常用的,有些是針對同一個問題有不同的角度,如果時間有限的話,可以專精于某一類。不管是做回歸,還是做分類、聚類,你可以挑一兩個算法進行研究,算法研究精了之后對數據分析可以有很深刻的理解

下邊一個問題是數據的可視化的問題。不管你是用了回歸還是聚類,最后一個問題就是展現,展現給你們的Boss你到底做了什么?不見得要展示你的成果,更多的是對于企業里面的各種信息的生動展示。

我個人用得多的是Excel和Tableau,我們從集團到各個下面的子公司都在用這個東西。我覺得在數據可視化這一塊要遵循兩點,第一點就是化繁為簡。我們每個月報給最高層有一份報告是50多頁,當時我看了都頭大。最后我們同事之間大家相互協作,把50多頁的東西弄成了9頁,它的緯度卻可以細化到中層子公司。不要再把一堆Excel表、PPT拿出來了,那樣就很Low了,你要想到的第一個問題如何將你的大量的工作成果展現在很少的一個界面上。

第二帶你就是直觀。最簡單的,比如在Excel里用數據透視圖,做一個柱狀圖和一個線,反映未來的趨勢,或者橫向的對比,都是一個直觀的展現,你能做到化繁為簡、深入淺出,你的可視化是很成功的。

說了這么多,我們最終還是要有一個系統的數據應用。

第一步是獲取數據,數據的來源很多,包括Excel表、數據庫,還有通過其他的一些網上的抓取,包括爬蟲、網絡分析等。

第二步是處理數據。在我實際的工作中,包括我與其他同行溝通,數據處理的過程可以占到整個工作任務的將近70%多。為什么呢?數據價值的認知是一個逐步完善的過程,很多企業原先對于數據的認識沒那么強,可能就是某個部門,比如企劃、風控、運營等部門,會把數據庫里面有關的數據拿出來,自己做報告。現在又上升到一個更高的層次,做數據分析、數據可視化的時候,就發現數據亂七八糟,看了之后就頭大,就需要通過各種工具,用SAS,Python進行整理,一方面把數據整理成自己需要的形式,整理成一定的字段和緯度,這樣才可以做分析。

其實目前我在工作的這一段時間中并沒有用到很復雜的算法,應用的主要是三個方面。

第一,我會用Python、Tableau對數據進行處理。我和同事進行了反復的溝通,不斷地了解這些高層人員到底想看什么,我按照自身的理解把它展示出來,后來老板說這個東西沒有把核心的需求拿出來。

這其實就犯了一個毛病,我在剛一開始的需求分析就不夠深入。其實也是可以理解的,因為剛一開始接觸工作,對于整個行業也是一個初步的認識,你可能拿捏不好。隨著業務的逐步深入,你首先要了解你這個業務整體老板的需求是什么,再去通過數據、分析、展示,這樣才能有的放矢。老板其實不太關心你用了什么復雜的方法做了這個東西,他關心的就是我想要展示什么。

上周我還遇到一個問題。從2015年1月份到2016年6月份整體業績的達成情況,最初是用柱狀圖展示折現額,老板說這個東西對我來說沒用,因為我更關心的是同期之間的對比。我就只能去改了,其實這就反映一個問題,我們要抓住領導所關心的關鍵的業務需求

第二就是數據共享中心的建設,我司目前的系統有很多,包括財務組織系統、還有AGC、ERP的,數據很分散,整體系統是由IT系統管理。我自身在做Tableau所以可視化也在做,我就找到一些接口,它其實并不完備。從總公司的角度來說,不僅要掌握財務數據,還要掌握運營的數據,前端企劃的數據,包括風控的數據等。建設數據共享中心就是要把各個數據做一種整合。

其實這就是一個數據字典的問題,我們原來有200多個指標,好多重復的、口徑不同的。做數據分析的時候,如果同一個問題有不同的名稱、不同的口徑,后期根本就干不了。我在入職之前有一個同事做預算的時候就很頭大,最簡單的一個業務費用,分解到中心子公司之后,從企劃或者其他方面拿過來的口徑是不同的,需要再反復各處去了解,調整口徑的調整。這是分析人員最怵的問題,很耗費精力。

因此我覺得,在工作中一方面就要加強自己對于需求端的理解,不跑偏,少走彎路。第二,如果公司的數據現狀不好,你要發揮利用自己的一些知識和整體地推動公司建設,這個推動過程中不僅對公司的管理有很深入的認識,對于數據分析能力的提高也很有幫助

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
100小時成為數據分析師
梳理一下數據分析師的全景職業規劃
數據分析師所要經歷的三個階段
大數據算法模型
數據挖掘技術概述
大數據的概念、技術應用與分析及數據的處理
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 黄大仙区| 黑山县| 文昌市| 体育| 剑河县| 长宁县| 四子王旗| 航空| 息烽县| 蒙城县| 黎城县| 湘潭县| 金湖县| 昌乐县| 古丈县| 二手房| 嵊泗县| 佛冈县| 尉犁县| 梁山县| 仪陇县| 太保市| 西丰县| 大余县| 南汇区| 岚皋县| 曲麻莱县| 育儿| 太谷县| 渭源县| 西和县| 宣恩县| 蓬安县| 临清市| 神农架林区| 滨海县| 平阴县| 三门峡市| 东方市| 苍南县| 苏尼特左旗|