'可視化之工具,可愛者甚蕃。統計學家獨愛R,自Python來,世人盛愛matplotlib。余獨愛Power BI之出微軟而不染(免費),濯Office而不妖(夠精簡).......'。先開個玩笑,哈哈^_^。
本文向大家介紹微軟公司最近發布的可視化神器 - PowerBI。將重點講解它的主要功能、和同類可視化工具的對比、以及基本使用方法。
本系列后面文章則將針對該工具的具體使用進行詳細深入的講解。
顧名思義,PowerBI是一款BI(商務智能)工具,能在較短時間內生成各種酷炫的報表。所以它主要完成下面三個工作:
1. 報表制作與發布
2. 報表制作與發布
3. 報表制作與發布
重要的事情說三遍,哈哈~
世面上的BI工具那么多,為何筆者重點推薦這款BI工具呢?這主要是因為它具備下面幾大特點:
1. 打通各類數據源
Power BI能夠從各種數據源中抓取數據進行分析,除了支持微軟自家產品如Excel,SQL Server等,各類數據庫如Oracle,My SQL,IBM DB2等,還支持從R語言腳本,Hdfs文件系統,Spark平臺等等地方導數據。下圖是Power BI的數據導入窗口:
Power BI還支持直接從網頁抓取數據。下篇中會演示以網頁抓取的方式獲取數據。比較高大上吧:)
2. 易用性(無需編程)
筆者給自己的定位是一枚數據科學家,因此不會也不能將過多精力放在可視化工作上。畢竟數據庫/數據倉庫系統架構,數據挖掘算法研究等工作更是重中之重。而Power BI采用的拖拉控件式圖形化開發模式,將我從可視化的泥潭中解放出來,把更多精力投放到數據管理,算法研究,業務溝通上。下圖展示了Power BI干凈而清爽的工作界面:
這里展示的僅僅是一個方面,絕大多數商業公司出品的軟件在易用性方面完爆開源產品。
3. 圖表顏值高
下面這些圖是筆者10分鐘不到就做好,稍加美化就能達到大部分客戶在顏值上的要求了:
要知道同樣的工作使用R語言的ggplot2至少要2小時(含調試),使用Python的matplotlib就更久了。嗯,暫時就說這幾點,再說有打廣告的嫌疑了......
1. Power BI VS Excel
都是微軟自家產品,但Excel更全面且更專注于數據分析,而Power BI則比較精簡且更更專注于報表可視化。另外這兩個產品也是相互打通的,據說最新版本的Excel集成了Power BI插件,而Power BI里的數據分析功能也和Excel相似。
2. Power BI VS R語言ggplot2
ggplot2其實是R語言的可視化包,因此對于熟悉R語言的人來說,使用ggplot2會非常得心應手。同時由于ggplot2是由編程語言R驅動,因此它在定制化方面肯定做得比Power BI要好。但這也帶來了一些代碼量,不是每個人都喜歡。
本人也是ggplot2的忠實粉絲,博客里有R語言ggplot2可視化教程:點擊進入
3. Power BI VS Python matplotlib
相對Power BI而言,matplotlib更受程序員群體的歡迎。一個特點是代碼量較大,筆者本人非常討厭,真不知道為什么那么多人支持 = =#。那些用matplotlib做的比較好看的圖,代碼量動輒幾十行上百行,說好的'人生苦短我用python'呢???當然,如果您確實需要經常做一些精細定制化的圖形,也可以考慮使用它。
4. Power BI VS echarts
echarts專用于網頁圖表制作,對瀏覽器兼容特別好。但它一般是給前端程序員用的,需要編程語言javascript驅動,不推薦數據分析師使用。
5. Power VS 其他商用BI工具(如Tableau等)
這些商用BI工具的技術通常來說比較專有化,這也就意味著很難找到人交流學習。因此,使用這類工具要慎重,請仔細考慮好具體使用環境和詳細業務場景是否合適后再購買學習吧。
綜上所述,這些可視化工具并沒有單純的優劣之分,用哪種得具體問題具體分析。一句話,如果你想糙,快,猛地制作還不錯的報表,那么就快快學習Power BI吧。
使用Power BI進行可視化的總體步驟如下:
1. 首先從數據源導入數據。Power BI支持的數據源格式非常多,前文已說明;
2. 然后在Power BI后臺區進行數據塑性。數據導入后,必須確定好數據列名,數據類型是否正確,是否需要進行切分工作,是否需要生成匯總表等等;
3. 最后在Power BI的圖表區進行報表繪制。具體工作中,這步和上一步工作迭代進行,我們需要不斷對數據進行塑性,并基于塑性好的數據繪制出各種報表;
這里讀者只需知道個大概,隨著教程的深入,我會進行具體詳細的說明。
下載地址:http://www.microsoft.com/zh-cn/download/details.aspx?id=45331
不知道為啥網上一些搶鮮體驗教程給的下載地址要么是英文版,要么是繁體版,要么32位......安裝方法就無需多說了,畢竟微軟出品。
有些人可能會對商業軟件帶有一種排斥觀念,個人覺得這是比較幼稚的。商業軟件固然需要花錢,但劣質的開源軟件更可能浪費大家的寶貴時間。顯然我們應該將精力更多的投放到數據和算法本身以及具體業務上,工具只不過是工具罷了。