第二版更新概述:增加了非統計/CS 童鞋的入門書籍,增加了機器學習的外文資料介紹,增加了更多行業實踐資料,調整了部分書籍的推薦順序。
第三版更新概述:增加凸優化內容,修訂推薦順序和內容,增加資源整理板塊
第四版更新概述:增加入門及 SPSSModeler 書籍,增加 Python 書籍
第五版更新概述:增加科普讀物推薦,修訂數學原理、機器學習等多個欄目的推薦書目
我會按照基礎到入門給出詳細推薦,并且附上個人點評。同時盡量做到各個資料在內容上并不重復(即使內容上有重復,也會在難度上做出區分),希望可以以最直接的方式告訴大家應該怎么選擇。
《學習清單》中包含八大部分,大家根據各自學習進度選擇主題學習即可,無需按照順序閱讀,其中每個部分的學習建議如下:
1 科普讀物:也許你只是對統計分析有著純粹的興趣,也許你只是想作為科普學習一下大數據或者相關技術,那么你可以選擇這個欄目作為興趣閱讀;
2 初學入門:如你是數據分析及數據挖掘的初學者,建議根據情況選擇這部分內容。另外《誰說菜鳥》和《小白學》推薦級別高于《深入淺出系列》;
3 數學原理知識:這部分屬于先驗知識,但是在學習上并不需要學習好這部分再開始第二階段。完全可以先跳過該部分內容,事后再補充學習;
4 統計分析學習資料:建議選擇其一學習即可,其中統計推斷可以作為進階學習材料;
5 機器學習資料:如果你基礎一般,可以先看《小白學》的免費課程。如果你數學及編程基礎相對扎實,優先推薦吳恩達的機器學習課程及西瓜書,(推薦配套南瓜書一起閱讀);外文系列可以作為進階選擇性閱讀;
6 SPSS 學習資料:SPSS Statistice工具使用推薦張文彤的教材,SPSS Modeler的使用推薦《IBM SPSS Modeler數據挖掘權威指南》。案例型的應用學習推薦《 IBM SPSS 數據分析與挖掘實戰案例精粹》,尤其值得注意的是,如果從案例分析出發,即使你不使用 SPSS,該書作為行業應用學習也會給你很大啟發。
7 Python學習資料:推薦《利用 python 進行數據分析》以及《Scikit-Learn 與 TensorFlow 機器學習實用指南》
8 R語言學習資料:推薦《R 語言實戰》
9 行業應用資料:根據需要選擇性閱讀
1.1《女士品茶》
1.2 數學之美
1.3 統計之美
統計分析/機器學習已經不僅僅只是相關專業人士的私藏,現在有更多跨專業的童鞋也希望學習相關知識來提供自身領域的能力,因此這里簡單給大家介紹幾本入門學習材料。
2.1 小白學數據挖掘與機器學習(SPSS Modeler 案例篇)
彩印書籍,情人眼里出西施,作為入門級書籍,浩彬老師還是認為非常不錯的,主要在于:
(1)通俗易懂:采用生活化的案例作為突破,漫畫化方式深入淺出全面解析機器學習的算法理論知識,再使用實踐案例進行鞏固,大大降低初學者的入門門檻。;
(2)內容豐富:理論知識上涵蓋了主流的統計分析技術(t 檢驗,相關分析,卡方檢驗等),機器學習算法(分類算法,聚類算法,關聯規則,集成學習);
(3)規劃合理:實踐案例中涵蓋數據處理,數據探索,算法建模,模型評估等內容,涵蓋整個數據挖掘的全流程;
另外,比較優勢的一點是,本書附帶了 37 節免費的視頻課程,非常好的和書本內容做了互補,免費視頻課程地址:
https://edu.hellobi.com/course/281
另外,此書和菜鳥系列的差異主要在于菜鳥更重于傳統的數據分析,本書更著重于數據挖掘。
2.2《誰說菜鳥不會數據分析》系列
三本書的內容其實在數據分析基本概念這部分都是存在部分重復,因此可以根據需要先買一本(建議黃色入門篇),如果你還記得多年前學過的基本分析知識,更具現在的工具使用情況可以考慮工具篇(現在的你需要經常 Excel,想學習寫一份簡單的分析報告)或 SPSS 篇(現在的你,被期望使用一些統計分析方法,有一些稍深入一點的見解)
2.3 深入淺出系列統計學,深入淺出數據分析
畢竟是基本入門,浩彬老撕認為只選一個系列就足夠了。如果你確實想看得更多旁敲側擊,可以看看《深入淺出統計學》,以及《深入淺出數據分析》。相比于《小白》和《菜鳥》,浩彬老撕認為《深入淺出系列》內容稍多,但是行文邏輯相比于前面略有發散,個人更建議《小白》和《菜鳥》。
值得注意的是,盡管邏輯上看數學原理知識這部分屬于機器學習的先驗知識,但是在學習上并不需要學習好這部分再開始第三部分統計分析或者第四部分機器學習。完全可以先跳過該部分內容,事后再補充學習。
3.1 課程
可汗學院公開課:線性代數課程
因為網易公開課有翻譯,因此下面中文字幕課程鏈接,這里真要給網易 100 個贊,字幕做得很好。
http://open.163.com/special/Khan/linearalgebra.html
“可汗學院(Khan Academy),是由孟加拉裔美國人薩爾曼·可汗創立的一家教育性非營利組織,主旨在于利用網絡影片進行免費授課,現有關于數學、歷史、金融、物理、化學、生物、天文學等科目的內容,教學影片超過 2000 段,機構的使命是加快各年齡學生的學習速度。”
3.2 參考書籍
(1)線性代數及其應用 豆瓣評分 9.2
非常好的線性代數教材,本書是翻印版本,相比于傳統國內教材,本書對于原理的講解更為透徹,建議作為工具書,里面的知識足夠支撐我們后續統計分析和機器學習需要。
(2)凸優化 豆瓣評分 9.4
在機器學習領域,除了矩陣相關知識外,凸優化的只是也是極其的重要。一旦你開始學習機器學習相關算法理論,你會發現很有理論的源頭都能在這里找到很好的解釋。
當然,在后續學習中有些算法也會用到微積分的知識,但是都比較基礎,因此遇到不懂的時候直接查資料即可,就沒有特定推薦材料了。
同樣推薦可汗學院的統計學和概率課程,而且剛好這兩門課程也被網易公開課進行了翻譯:
(1)可汗學院公開課:統計學
http://open.163.com/special/Khan/khstatistics.html
(2) 可汗學院公開課:概率
http://open.163.com/special/Khan/probability.html
這兩本課程總體不算太難,適合入門。個人覺得講授還是蠻有特點的,粗暴直接,另外舉的例子也是蠻有趣的。
4.2 統計學/概率參考書
(1)統計學 豆瓣評分 8.8作者 William Mendenhall / Terry Sincich
《統計學(原書第 5 版)》內容豐富,很少涉及統計學理論的嚴格數學證明,絕大部分是與實際應用緊密聯系的例子和練習,適合作為理工科各專業本科生、研究生的統計學教材,也可作為相關領域研究人員的參考讀物。” 非常注重實用的統計學課程,偏應用,少數學證明,可讀性比較強;
(2)統計學 豆瓣評分 7.3作者:賈俊平,何曉群,金勇進
統計比較通用的入門教材了,不知不覺竟然到了第六版,個人認為也算是兼顧數學證明和應用,可讀性沒有上面強,有很多統計學專業的起始教材也會選擇這本,當然個人更推薦上一本。
(3)統計推斷 豆瓣評分 8.8,/英本原本 9.2作者:William Mendenhall / Terry Sincich
非常經典經典的統計學教材,借用介紹“從概率論的基礎開始,通過例子與習題的旁征博引,引進了大量近代統計處理的新技術和一些國內同類教材中不常見而又廣為使用的分布。其內容既包括工科概率入門、經典統計和現代統計的基礎,又加進了不少近代統計中數據處理的實用方法和思想” 可以作為研究生所用教材,有深度,但是作者循序漸進,解釋得非常漂亮。
5.1 機器學習課程
推薦 Andrew NG 吳恩達的斯坦福機器學習課程,英文授課,但是已有完善的中文字幕,內容非常豐富且充實(20 節),并且講解得非常的好,如果你想學習機器學習,一定不能錯過!
Coursera 地址:
https://www.coursera.org/learn/machine-learning#
網易公開課地址:
https://open.163.com/newview/movie/courseintro?newurl=IEU2H8NIJ
同時該課程配有課件講義,同樣建議大家在學習視頻課程之余多看講義和習題,雖然是英文,但是閱讀上基本沒有什么問題,就講義本身也是非常的棒。
如果大家學習完 Andrew NG 的機器學習,還想通過其他課程觸類旁通,相互借鑒的話,可以上 Coursera 上門搜索還有其他選擇,例如臺大的機器學習基礎等等,但毫無疑問首推 Andrew NG 的課程;
另外上面 0.2 部分的《小白學數據挖掘與機器學習》也包括了免費的視頻課程,大家也可以借鑒一下。
5.2 機器學習教材
中文系列:
(1)機器學習 豆瓣評分 8.9
作者:周志華
被戲稱為《西瓜書》,最好的中文機器學習教材之一(其實我想把之一去掉),作為機器學習的入門教材來說,它不但涵蓋內容范圍全,同時邏輯清晰,可讀性強。并且大部分算法有比較完整的算法推導和偽代碼,對于學習掌握非常有幫助。強烈推薦!
(2)機器學習公式詳解(南瓜書)
周志華老師的西瓜書是機器學習領域的經典入門教材之一,周老師為了使盡可能多的讀者通過西瓜書對機器學習有所了解, 所以在書中對部分公式的推導細節沒有詳述,但是這對那些想深究公式推導細節的讀者來說可能“不太友好”。近日有個github倉庫“南瓜書(PumpkinBook)”對西瓜書里比較難理解的公式加以解析,以及對部分公式補充具體的推導細節。非常推薦西瓜書及南瓜書共同服用!并且經過幾年的開源之后,南瓜書在2021年3月也已經出版了!
倉庫鏈接:https://github.com/datawhalechina/pumpkin-book
在線閱讀地址:https://datawhalechina.github.io/pumpkin-book/
紙質書籍可以到京東及當當購買,價格非常優惠,值得收藏!
(3)統計學習方法(第二版) 豆瓣評分:9.3
作者:李航
個人認為中文教材里面少見的精品。相比于西瓜書,要精簡得多,但邏輯非常的清晰,部分算法的講解要更加優美,可讀性要低于《西瓜書》,可能不太適合入門者,但是還是非常值得推薦閱讀學習,目前該書更新了第二版,推薦購買新版,新增了很多內容。
特別地。清華大學袁春老師制作了配套課件,下載地址(袁春老師主頁):
http://www.sz.tsinghua.edu.cn/publish/sz/139/2010/20101218141443318939067/20101218141443318939067_.html
外文系列
(4)Pattern Recognition And Machine Learning 豆瓣評分 9.6
作者:Christopher Bishop
三大機器學習外本經典教材之一,PRML,沒太多好說的,經典,好書!相對理論的一本書,不但全面,而且深入!針對于某一算法可能會給于多種介紹和解釋,我個人覺得可以作為西瓜書之后的進階教材。
另外,網上有 PRML 的中文翻譯版本,是哈工大馬春鵬的自發翻譯,但由于牽涉到版權問題,這里不提供鏈接了,確實有需要的同學相信大家可以找到的。
附《關于網上流傳的 PRML 中文翻譯稿的聲明》
http://weibo.com/p/1001603885799136480788
(5)The Elements of Statistical Learning(統計學習基礎)
豆瓣英本原版評分 9.4(2008 年) 中文評分 7.4
三大機器學習外本經典教材之一,這本書被廣大人民喜稱為 ESL,雖然書名是統計學習基礎,但是此書一點都不基礎,一點都不~另外此書還有一本專門的入門版本 ISL(后面會介紹)
這本書涵蓋了非常多的內容,講解深入,有人評價說,“有了這本書就不需要其他機器學習教材”,雖然有點夸張,但是此書實際是機器學習的經典巨作,如果你真的希望好好研究機器學習,此書非常值得仔細研讀,另外此書要求不低的統計理論和數學基礎。
此外,這本書還有一個牛逼的地方在于,作者把書放在網上免費下載:
http://statweb.stanford.edu/~tibs/ElemStatLearn/
(6)Machine Learning-A Probabilistic Perspective
豆瓣評分 9.3 (2012 年)
作者:Kevin P. Murphy
三大機器學習外本經典教材之一,PRML。留意時間線,三本經典教材的出版日期從 2007,到 2008,再到 2012。因此相比于以上兩本書,本書的最大特點是“新”,因此內容比 PRML 和 ESL 要更廣一點,但個人覺得深入度不夠前兩者。建議是先讀前者,MLAPP 用于補充。
考慮到 SPSS 分為統計模塊 Statistics 以及數據挖掘模塊 Modeler , 因此也分為兩大塊介紹
6.1SPSS Statistics 統計分析資料
SPSS Statistics 市面上的書籍比較多,從我個人的角度,認為張文彤老師的系列足以讓大家加深對統計體系的理解,同時也能很好掌握在實際的應用當中如何使用統計分析幫助我們完成任務,我認為掌握統計分析原理實戰和 SPSS 操作,以下兩本書足矣。
(1) SPSS 統計分析基礎教程
提供了包括醫療、經濟、市場研究等方面的案例貫穿了全書,能夠很好從實際應用角度把統計分析原理和 SPSS 操作結合起來,也提供了很好的結果解讀,不失為一本極好的工具指南。
(2)SPSS統計分析高級教程
相比于基礎教材,高級教程介紹了更多的統計算法模型,同時也提供了一些統計新方法和新觀點的講解。整體來說直觀易懂,能夠很好提升實戰能力。
6.2 SPSS Modeler 機器學習教程
(1)Modeler 官方的幫助文檔和 Sample 文件
Modeler 提供完備 Sample 數據和數據建模文件,并且配套中文說明,可以幫助入門者一步一步搭建數據建模流并理解實際應用場景。Modeler 提供的幫助文檔包括有算法說明,節點說明,Crisp-dm 方法論,應用文檔等,其中比較重要兩個文檔是:ModelerApplications 以及 ModelerUsersGuide
SPSS Modeler 官方文檔(多國語言,含中文)官方下載:
http://www-01.ibm.com/support/docview.wss?uid=swg27046871
(2)IBM SPSS Modeler 18.0 數據挖掘權威指南
目前最新的 IBM SPSS Modeler 工具手冊,本書是一本以數據挖掘應用為主導,以 SPSS Modeler 為實踐框架的應用指南,一共包括 23 章內容,涵蓋整個數據挖掘流程的主要內容、算法理論以及實踐細節,并且每章都有“獨門”實踐小技巧,因此,即使是作者是兩名 IBM 曾經的 SPSS 高級工程師,也是打磨了很久才把這個作品寫好。作為一本“SPSS 字典”,23 章的內容中涵蓋了數據挖掘方法論、特征工程、數據可視化、統計檢驗、機器學習、自動建模、蒙特卡洛模擬,R 與 Python 集成、模型部署以及性能優化等,全面覆蓋在數據挖掘項目中用戶可能遇到的內容。
(3) IBM SPSS 數據分析與挖掘實戰案例精粹
提供了醫療、金融、保險、汽車、快速消費品、市場研究、互聯網等多個行業的數據分析/挖掘案例,基于實戰需求,詳細講解整個案例的完整分析過程,并將模型和軟件的介紹融于案例講解之中,尤其是書本最后幾章實踐案例,從商業問題界定到商業應用,給出了非常詳盡的建模指南,個人認為目前市面上 Modeler 最好的工具手冊;另外即使不是使用 SPSS,而是用其他工具,該書后面的例子也值得大家研讀。
注意:本章節的學習不一定要按照順序,請根據你的個人情況和喜好(確實是喜好)進行選擇。
7.1 Python編程從入門到實踐
非常好的Python 入門書籍,這本書倒不全是和數據分析無關,或者說不是針對于數據分析用的書,但是如果你已經決定使用Python 作為你的數據分析語言,那我仍然認為這本書非常值得一讀。當然你可以選擇閱讀完后面的 python 數據分析書籍后,再回過頭來讀這一本,也未嘗不可。
7.2 利用 python 進行數據分析
非常經典的書籍,又愛又恨。一本對 Pandas 有非常透徹說明的書籍(當然對 numpy 以及 matplotlib 也有不少的篇幅),作為工具書非常合適,作為你要學習數據操縱的書非常合適。是的,本書并沒有討論 sklearn,沒有機器學習的內容,因此非常專注于 pandas 的使用。因此如果你希望能夠利用 python 做好數據分析,這本書的內容,你確實需要掌握,但是相對而言,難免有所枯燥。
7.3 Scikit-Learn 與 TensorFlow 機器學習實用指南or Hands-On Machine Learning with Scikit-Learn and TensorFlow
個人認為極好的 python 機器學習書籍,主要介紹了 Scikit_learn 以及 Tensorflow,從最簡單的線性回歸到深度神經網絡都有涉及。尤其是開始的三章尤其經典,如果你之前沒有用 python 進行過一個數據挖掘項目,相信開始的三章會讓你獲益匪淺(即使你已經學會數據挖掘一段時日了,但是該部分的內容,我相信你也會獲得收獲),另外關于 tensorflow 的相關內容也是寫得非常的好,如果你讀不下去官方文檔,這本書也是一個非常好的選擇。如果硬要說不足,可能就是相對新手不太友好,但是多看幾遍的話,學透完全不是問題。
7.4 Python 數據挖掘入門與實踐
入門讀物,應用案例要多于 Scikit-Learn 與 TensorFlow 機器學習實用指南,但是深度以及專業程度還是要差一點,兩者可以互為補充閱讀。
8.1 R語言實戰
首先這本書絕對可以擔當日常工具手冊,從基本操作,數據處理,數據建模,圖形展示都給出了非常詳盡的介紹;其次雖然是工具手冊,但是能夠結合基本統計知識于簡單案例,具有很強實踐性,強烈建議各位把書中的代碼都實現,相信能夠大大提升 R 的功力。最后說一句,此書翻譯得不錯。
PS 該書已經出版第二版,京東上第一版價格 55.70,第二版是 84.20,雖然貴了 50%。第二版做了大量更新和修正,新增了接近 200 頁內容,介紹數據挖掘、預測性分析和高級編程,資金充裕的童鞋可以選購新版本學習。
8.2AnIntroduction to Statistical Learning(統計學習導論)
此書被廣大人民群眾稱為 ISL,沒錯,就是上面 ESL 的入門版本。無論作為統計教材推薦還是 R 語言教材推薦都稱得上 5 星的讀物。ISL 雖然是入門版本,但是絕對不是因為內容簡單。深入淺出,內容詳細,常常讀完有種恍然大悟的感覺,同時能夠結合 R 語言介紹,大大的加分。另外此書中文版譯作統計學習導論
前面分別介紹了理論以及工具使用部分,但是要知道數據挖掘領域業務知識和應用場景是非常的重要,因此本部門主要為大家介紹一些行業應用材料。
9.1 《數據掘金——電子商務運營突圍》
雖說《數據掘金——電子商務運營突圍》一書主要定位是給電商從業人員,但是浩彬老撕相信,當中的一些數據分析邏輯以及技巧,都能夠對其他行業的數據分析人員,市場人員,運營人員帶來很大的啟發,本書目前比較大的問題就是有點舊了、
9.2 《游戲數據分析的藝術》
9.3 啤酒與尿布
雖然都是討論行業的分析應用,但與前兩者不同的是,本書更偏重于業務以及分析的思維。因此如果你是零售行業從業者,本身相信可以給你帶來一些有趣的角度。Ps:此書貌似已經沒有再版,有需要的童鞋可能只可以下載電子書和買二手書。