來(lái)源:多智時(shí)代
最近經(jīng)常被問(wèn)到怎么入門(mén)數(shù)據(jù)分析,可能很多同學(xué)對(duì)怎么開(kāi)始學(xué)習(xí)還是比較困惑的。我回想自己學(xué)習(xí)數(shù)據(jù)分析的經(jīng)歷,總結(jié)了一些建議,希望能給到大家?guī)椭?/p>
上海數(shù)據(jù)分析網(wǎng)
打好概率與統(tǒng)計(jì)的基礎(chǔ)
概率與統(tǒng)計(jì)是數(shù)據(jù)分析的基石,像一些概率分布、抽樣、線性回歸、時(shí)間序列都是數(shù)據(jù)分析當(dāng)中經(jīng)常會(huì)用到的,可以說(shuō)日常碰到的大部分的分析需求都可以用統(tǒng)計(jì)分析來(lái)解決。
理工科專(zhuān)業(yè)的同學(xué)大多在本科期間就學(xué)過(guò)概率與統(tǒng)計(jì)這門(mén)課,這部分的基礎(chǔ)應(yīng)該還是比較扎實(shí)的。對(duì)于沒(méi)有基礎(chǔ)的同學(xué),有一本叫《深入淺出統(tǒng)計(jì)學(xué)》的書(shū)非常值得一讀,豆瓣上的評(píng)分8.5分
上海數(shù)據(jù)分析網(wǎng)
這本書(shū)非常通俗易懂,講理論知識(shí)的時(shí)候結(jié)合了很多案例,把統(tǒng)計(jì)學(xué)應(yīng)用到解決實(shí)際問(wèn)題當(dāng)中,讓原本枯燥的統(tǒng)計(jì)學(xué)原理變得有趣起來(lái),適合非專(zhuān)業(yè)人士入門(mén)學(xué)習(xí)。
掌握數(shù)據(jù)庫(kù)技能
做數(shù)據(jù)分析離不開(kāi)查詢數(shù)據(jù)庫(kù),這里主要涉及的是SQL。對(duì)于傳統(tǒng)的數(shù)據(jù)庫(kù)如MySQL,SQL Server,Oracle,或者大數(shù)據(jù)平臺(tái)Hadoop,都可以通過(guò)SQL查詢的方式來(lái)獲取數(shù)據(jù)。入門(mén)SQL的書(shū)推薦一本《MySQL必知必會(huì)》,豆瓣評(píng)分8.4分。
上海數(shù)據(jù)分析網(wǎng)
這本書(shū)實(shí)踐性很強(qiáng),教你怎么用SQL語(yǔ)句操作MySQL。可以自己在電腦上裝一個(gè)MySQL,跟著書(shū)中的案例操作一遍。
掌握Python或者R
Python和R是數(shù)據(jù)分析當(dāng)中最常用的兩門(mén)語(yǔ)言。R是為數(shù)據(jù)分析而生的一門(mén)語(yǔ)言,但Python在數(shù)據(jù)分析方面有后來(lái)居上的趨勢(shì)。公司里的數(shù)據(jù)科學(xué)團(tuán)隊(duì)在幾年前還是用R做的分析,最近一年已經(jīng)轉(zhuǎn)向Python了,身邊的朋友也聽(tīng)到很多R轉(zhuǎn)Python的。性能上來(lái)說(shuō),Python的速度更快,可以處理上G的數(shù)據(jù),而R不行。所以長(zhǎng)遠(yuǎn)來(lái)說(shuō),我還是看好Python的。
講Python基礎(chǔ)的有一本《A byte of Python》非常推薦,我當(dāng)初就是看這本書(shū)入門(mén)的,讀起來(lái)很輕松,兩三天就可以讀完。
數(shù)據(jù)分析相關(guān)的,推薦這本《利用Python進(jìn)行數(shù)據(jù)分析》,豆瓣評(píng)分8.5分。
上海數(shù)據(jù)分析網(wǎng)
作者是廣受好評(píng)的pandas庫(kù)的開(kāi)發(fā)者。讀完這本書(shū),可以對(duì)用Python做數(shù)據(jù)分析涉及到的一些工具、怎樣用pandas、怎樣做數(shù)據(jù)可視化有比較詳盡的了解。
機(jī)器學(xué)習(xí)
數(shù)據(jù)分析如果繼續(xù)深入的話,可以學(xué)習(xí)機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)涉及的理論主要是分類(lèi)、回歸、聚類(lèi)、決策樹(shù)、貝葉斯定理等。機(jī)器學(xué)習(xí)相關(guān)的書(shū)強(qiáng)烈推薦一本《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》,豆瓣評(píng)分8.2分。
上海數(shù)據(jù)分析網(wǎng)
這本書(shū)介紹了機(jī)器學(xué)習(xí)中最常用的幾種算法,對(duì)算法背后的數(shù)學(xué)原理也有介紹,對(duì)于理解機(jī)器學(xué)習(xí)的算法非常有幫助。書(shū)中的代碼和例子都是用Python實(shí)現(xiàn),非常適合有python基礎(chǔ)的同學(xué)學(xué)習(xí)。
以上這些是數(shù)據(jù)分析最基礎(chǔ)的技能,有編程基礎(chǔ)的同學(xué)花兩三個(gè)月差不多就能入門(mén)了,零基礎(chǔ)可能要多費(fèi)點(diǎn)時(shí)間。當(dāng)然看書(shū)學(xué)習(xí)只是掌握理論知識(shí),要真正的掌握還是要在項(xiàng)目中去實(shí)踐。
聯(lián)系客服