精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
獨(dú)家 | 一文詳解數(shù)據(jù)科學(xué)家的必備技能(附學(xué)習(xí)資源)

本文約3400字,建議閱讀10分鐘

本文為你詳細(xì)分析數(shù)據(jù)科學(xué)家最需要掌握的普通技能以及特定語言和工具的特殊技能。

數(shù)據(jù)科學(xué)家需要涉獵的知識(shí)面很廣,包括:機(jī)器學(xué)習(xí)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)、數(shù)據(jù)可視化、溝通和深度學(xué)習(xí),那么數(shù)據(jù)科學(xué)家應(yīng)如何制定他們的學(xué)習(xí)預(yù)算,才能最大限度地滿足雇主的需要?

我瀏覽了一些求職網(wǎng)站,想找出哪些技能是數(shù)據(jù)科學(xué)家最需要掌握的技能,并對(duì)普通數(shù)據(jù)科學(xué)技能以及特定的語言和工具的特殊技能分別做了一些研究。2018年10月10日,我在LinkedIn,Indeed,SimplyHired,Monster上搜索了求職名單,下面這個(gè)圖表,顯示了每個(gè)網(wǎng)站列出的數(shù)據(jù)科學(xué)家職位的數(shù)目。

通過閱讀這些職位清單,經(jīng)過一番調(diào)查研究,我找出了數(shù)據(jù)科學(xué)家最常用的技能。像“管理”這樣的術(shù)語沒有進(jìn)行比較,因?yàn)樗鼈冊(cè)诼毼磺鍐沃斜惶嗟纳舷挛乃谩?/p>

所有搜索都是用“數(shù)據(jù)科學(xué)家”這個(gè)關(guān)鍵字在美國(guó)本土進(jìn)行的,采用精確匹配搜索的話,會(huì)使得搜索結(jié)果的數(shù)量大為減少。精確匹配搜索確保了搜索結(jié)果均與數(shù)據(jù)科學(xué)家的職位相關(guān),并受到類似搜索條件的影響。

AngelList列出了需要數(shù)據(jù)科學(xué)家的上市公司的數(shù)量,而不是列出了數(shù)據(jù)科學(xué)家職位數(shù)量。我將AngelList從這兩種分析中排除,因?yàn)樗乃阉魉惴ㄋ坪跏且环NOR(或)類型的邏輯搜索,沒有將其轉(zhuǎn)換為AND(與)邏輯。

如果你搜索的關(guān)鍵字是 “數(shù)據(jù)科學(xué)家”“ TensorFlow”,那么只會(huì)列出需要數(shù)據(jù)科學(xué)家的公司,AngelList的搜索效果不錯(cuò)。但是如果你的關(guān)鍵詞是“數(shù)據(jù)科學(xué)家” “react.js”,它會(huì)返回許多需要非數(shù)據(jù)科學(xué)家公司的列表。

Glassdoor 也被排除在我的分析之外。該網(wǎng)站聲稱,它在美國(guó)有26263個(gè)“數(shù)據(jù)科學(xué)家”職位,但能讓我看到的職位不超過900個(gè)。此外,數(shù)據(jù)科學(xué)家的職位數(shù)量不可能超過其他主要平臺(tái)的三倍以上。最后的分析中包括了在LinkedIn上列出400多個(gè)普通技能和200多個(gè)特殊技能,當(dāng)然這其中會(huì)有一些交叉。

結(jié)果記錄在下面鏈接的Google Sheet表格中。我下載了.csv文件并將它們導(dǎo)入JupyterLab中。然后,計(jì)算出了百分比,并在職位列表網(wǎng)站上對(duì)它們進(jìn)行了平均計(jì)算。

Google Sheet表格鏈接:

https://docs.google.com/spreadsheets/d/1df7QTgdAOItQJadLoMHlIZH3AsQ2j2_yoyvHOpsy9qU/edit?usp=sharing

我還將軟件的計(jì)算結(jié)果與JupyterLab針對(duì)2017年上半年數(shù)據(jù)科學(xué)家職位列表進(jìn)行了比較。結(jié)合KDNuggets’ usage survey的信息,似乎有些技能變得越來越重要,而另一些則變得越來越不重要。我們一會(huì)兒再談。

KDNuggets’ usage survey

請(qǐng)參閱我的Kaggle Kernel以獲得交互式圖表和其他的分析。我用Plotly對(duì)數(shù)據(jù)進(jìn)行可視化。在編寫這篇文章時(shí),對(duì)使用JupyterLab的Ploly出現(xiàn)了一些爭(zhēng)論-指令在我的Kaggle Kernel的結(jié)尾的Plotly’s docs之中。

Plotly’s docs

普通技能

以下是雇主最常搜索的數(shù)據(jù)科學(xué)家技能圖表。

結(jié)果表明,分析和機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)家工作的核心。從數(shù)據(jù)中收集有用信息是數(shù)據(jù)科學(xué)的主要功能。機(jī)器學(xué)習(xí)的全部?jī)?nèi)容是創(chuàng)建系統(tǒng)來預(yù)測(cè)性能,這個(gè)需求非常大。

數(shù)據(jù)科學(xué)需要統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)技能——這一點(diǎn)也不奇怪。統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)也都是大學(xué)的專業(yè),可能有助于加大它們出現(xiàn)的頻度。

有趣的是,在近一半的職位列表中提到了溝通,數(shù)據(jù)科學(xué)家需要能夠交流見解并與他人密切合作。

人工智能和深度學(xué)習(xí)不像其他術(shù)語那樣頻繁出現(xiàn)。然而,它們是機(jī)器學(xué)習(xí)的子集。深度學(xué)習(xí)正被越來越多的機(jī)器學(xué)習(xí)任務(wù)所使用,而這些任務(wù)以前是由其他算法完成的。例如,對(duì)于大多數(shù)自然語言處理問題,最好的機(jī)器學(xué)習(xí)算法都是當(dāng)前的深度學(xué)習(xí)算法。我預(yù)計(jì),在未來,人們將更加明確地尋求深度學(xué)習(xí)技能,而機(jī)器學(xué)習(xí)將成為深度學(xué)習(xí)的代名詞。

雇主們都在尋找掌握哪些特定的軟件工具的數(shù)據(jù)科學(xué)家?接下來我們來解決這個(gè)問題。

技術(shù)技能

雇主們正在尋找的具備以下技能的數(shù)據(jù)科學(xué)家,其中名列前20位的特定語言、庫(kù)和技術(shù)工具如下。

我們來簡(jiǎn)要地看看最常見的技術(shù)技能。

1. Python

Python是最受歡迎的語言。這種開源語言的受歡迎程度已廣為所知。初學(xué)者容易接受,而且有很多支持資源。絕大多數(shù)新的數(shù)據(jù)科學(xué)工具都與它兼容。Python是數(shù)據(jù)科學(xué)家的主要語言。

2. R

R不遜于 Python,它曾經(jīng)是數(shù)據(jù)科學(xué)的主要語言。我驚訝地看到它目前仍然很受歡迎。這種開源語言的根源在于統(tǒng)計(jì)學(xué),它目前仍然很受統(tǒng)計(jì)學(xué)家的歡迎。Python或R對(duì)于幾乎每一個(gè)數(shù)據(jù)科學(xué)家職位來說都是必須的。

2. SQL

SQL也很受歡迎。SQL是結(jié)構(gòu)化查詢語言,是與關(guān)系型數(shù)據(jù)庫(kù)交互的主要方式。在數(shù)據(jù)科學(xué)領(lǐng)域,SQL有時(shí)會(huì)被忽視,但是如果您打算進(jìn)入就業(yè)市場(chǎng),這是一項(xiàng)值得展示的技能。

3. Hadoop和Spark

接下來是Hadoop和Spark,它們都是Apache提供的用于大數(shù)據(jù)的開源工具。Apache Hadoop是一個(gè)開源的軟件平臺(tái),用于分布式存儲(chǔ)和分布式處理由商業(yè)硬件構(gòu)建的計(jì)算機(jī)集群上的大型數(shù)據(jù)集。

Apache Spark是一個(gè)快速、內(nèi)存數(shù)據(jù)處理引擎,它具有優(yōu)雅的、有表現(xiàn)力的開發(fā)API,使數(shù)據(jù)工作者能夠高效地執(zhí)行需要快速迭代訪問數(shù)據(jù)集的流、機(jī)器學(xué)習(xí)或SQL工作負(fù)載。

與許多其他工具相比,這些工具在媒體和教程中,關(guān)于它們的文章要少得多。我預(yù)計(jì)具備這些技能的求職者比具備Python、R和SQL技能的求職者要少得多。如果你有或可以獲得Hadoop和Spark的經(jīng)驗(yàn),會(huì)為你的競(jìng)爭(zhēng)優(yōu)勢(shì)助一臂之力。

4. Java和SAS

然后是Java和SAS。看到這兩種語言位列如此之高,我感到十分驚訝。這兩種語言的背后都有大公司支持,至少有一些免費(fèi)產(chǎn)品。Java和SAS通常在數(shù)據(jù)科學(xué)社區(qū)中很少受到關(guān)注。

5. Tableau

接下來是Tableau。這個(gè)分析平臺(tái)和可視化工具功能強(qiáng)大,易于使用,并且越來越受歡迎。它有一個(gè)免費(fèi)的公開版本,但如果想要保持?jǐn)?shù)據(jù)私密性,則需要付費(fèi)。

如果你不熟悉Tableau,那么肯定值得在Udemy上一門快速課程,比如Tableau 10A-Z。我參加了這門課,發(fā)現(xiàn)它物超所值。

下圖顯示了這些語言、框架和其他數(shù)據(jù)科學(xué)軟件工具的列表。

歷史比對(duì)

GlassDoor分析了2017年1月至2017年7月期間在其網(wǎng)站上的數(shù)據(jù)科學(xué)家最常見的10種軟件技能。以下是與2018年10月LinkedIn, Indeed, SimplyHired, 和Monster平均水平相比,它們?cè)诰W(wǎng)站上出現(xiàn)頻率的比較。

結(jié)果非常相似。我的分析和GlassDoor’s都發(fā)現(xiàn)Python、R和SQL是最受歡迎的。我們還發(fā)現(xiàn)了同樣的前九位技術(shù)技能,只是順序略有不同。

結(jié)果表明,與2017年上半年相比,目前對(duì)R、Hadoop、Java、SAS和MATLAB需求較少,Tableau需求則更大。這就是我所期望的,對(duì) KDnuggets developer survey等來源的結(jié)果的補(bǔ)充。在那里,R、HadoopJava和SAS都顯示出明顯的多年下降趨勢(shì),Tableau顯示出明顯的上升趨勢(shì)。

建議

根據(jù)以上分析結(jié)果,為當(dāng)前和有抱負(fù)的數(shù)據(jù)科學(xué)家,提出一些一般性的建議,以使自己在職場(chǎng)上更受歡迎:

1. 證明你可以進(jìn)行數(shù)據(jù)分析,并專注于成為真正擅長(zhǎng)機(jī)器學(xué)習(xí)的人。

2. 投資于自己的溝通技巧。我建議閱讀《Made to Stick》這本書,它對(duì)你的想法會(huì)有更大的影響。還可以查看名稱為 Hemmingway Editor的APP(應(yīng)用程序),以提高寫作的清晰度。

Made to Stick》:

3. 掌握一個(gè)深度學(xué)習(xí)的框架。對(duì)深度學(xué)習(xí)框架的熟練程度是精通機(jī)器學(xué)習(xí)的重要組成部分。有關(guān)深度學(xué)習(xí)框架在用法、興趣和流行程度方面的比較,請(qǐng)參閱下方鏈接中的文章:

4. 如果在學(xué)習(xí)Python和R之間進(jìn)行選擇,請(qǐng)選擇Python。如果對(duì)Python不感冒,考慮學(xué)習(xí)R。如果你會(huì)使用Python的同時(shí)也知道R,你肯定會(huì)更有市場(chǎng)。

當(dāng)雇主正在尋找一位具備Python技能的數(shù)據(jù)科學(xué)家時(shí),他們也期望應(yīng)聘者能了解常見的Python數(shù)據(jù)科學(xué)庫(kù),如:numpy、pandas、scikit-learn和matplotlib。如果想學(xué)習(xí)這組工具,我建議提供以下資源:

1. DataCamp和 DataQuest:它們都是定價(jià)合理的在線SaaS數(shù)據(jù)科學(xué)教育產(chǎn)品,在這些產(chǎn)品中,您可以一邊編寫代碼一邊學(xué)習(xí),二者都教授一些技術(shù)工具。

DataCamp

2. Data School擁有多種資源,包括一套很好的視頻,解釋數(shù)據(jù)科學(xué)的概念。

Data School

3. 麥金尼(McKinney)的《用于數(shù)據(jù)分析的Python》。這本書由pandas庫(kù)的主要作者撰寫,重點(diǎn)關(guān)注pandas,還討論了基本的python,numpy和scikit-learn等數(shù)據(jù)科學(xué)的知識(shí)。

Python for Data Analysis

4. Müller&Guido的《用Python進(jìn)行機(jī)器學(xué)習(xí)簡(jiǎn)介》。米勒是scikit-learn的主要維護(hù)者。這是一本用于學(xué)習(xí)機(jī)器學(xué)習(xí)scikit-learn的很好的書。

Introduction to Machine Leaning with Python

如果你想探究深度學(xué)習(xí),我建議在進(jìn)入TensorFlow或PyTorch之前先從Keras或FastAI開始。Chollet的《用Python進(jìn)行的深度學(xué)習(xí)》一書是學(xué)習(xí)Keras的很好的資源。除了這些建議之外,我建議你了解自己感興趣的內(nèi)容,盡管在決定如何分配學(xué)習(xí)時(shí)間時(shí)有很多因素需要考慮。

如果你想通過網(wǎng)絡(luò)門戶尋找一份數(shù)據(jù)科學(xué)家的工作,我建議你從LinkedIn開始——它的結(jié)果總是最多的。

如果你在網(wǎng)上求職或者在求職網(wǎng)站上發(fā)布職位,關(guān)鍵詞非常重要。“數(shù)據(jù)科學(xué)”返回的結(jié)果是“數(shù)據(jù)科學(xué)家”返回結(jié)果數(shù)的近3倍。但是,如果你在嚴(yán)格地尋找數(shù)據(jù)科學(xué)家的工作,你最好還是輸入 “數(shù)據(jù)科學(xué)家”這個(gè)關(guān)鍵字。

無論你在哪個(gè)網(wǎng)站找工作,我建議你建立一個(gè)在線組合列表,列出你對(duì)所需求技能領(lǐng)域的熟練程度。我還建議用LinkedIn個(gè)人資料展示你的技能。

作為這個(gè)項(xiàng)目的一部分,我收集了其他數(shù)據(jù),可能也會(huì)寫成文章。跟我來,不要錯(cuò)過哦。

Kaggle Kernel:

Jeff Hale是一位經(jīng)驗(yàn)豐富的企業(yè)家,曾為多家公司管理過技術(shù)、運(yùn)營(yíng)和財(cái)務(wù)。專注于機(jī)器學(xué)習(xí)領(lǐng)域的數(shù)據(jù)科學(xué)家,子商務(wù)公司的共同創(chuàng)始人和首席運(yùn)營(yíng)官。目前,杰夫正將他對(duì)數(shù)據(jù)驅(qū)動(dòng)決策的熱情轉(zhuǎn)化為以數(shù)據(jù)科學(xué)家為職業(yè)期盼。他對(duì)機(jī)器學(xué)習(xí)、交流和數(shù)據(jù)分析很感興趣。

原文標(biāo)題:

The Most in Demand Skills for Data Scientists

原文鏈接:

譯者簡(jiǎn)介

陳之炎,北京交通大學(xué)通信與控制工程專業(yè)畢業(yè),獲得工學(xué)碩士學(xué)位,歷任長(zhǎng)城計(jì)算機(jī)軟件與系統(tǒng)公司工程師,大唐微電子公司工程師,現(xiàn)任北京吾譯超群科技有限公司技術(shù)支持。目前從事智能化翻譯教學(xué)系統(tǒng)的運(yùn)營(yíng)和維護(hù),在人工智能深度學(xué)習(xí)自然語言處理(NLP)方面積累有一定的經(jīng)驗(yàn)。業(yè)余時(shí)間喜愛翻譯創(chuàng)作,翻譯作品主要有:IEC-ISO 7816、伊拉克石油工程項(xiàng)目、新財(cái)稅主義宣言等等,其中中譯英作品“新財(cái)稅主義宣言”在GLOBAL TIMES正式發(fā)表。能夠利用業(yè)余時(shí)間加入到THU 數(shù)據(jù)派平臺(tái)的翻譯志愿者小組,希望能和大家一起交流分享,共同進(jìn)步。

翻譯組招募信息

工作內(nèi)容:需要一顆細(xì)致的心,將選取好的外文文章翻譯成流暢的中文。如果你是數(shù)據(jù)科學(xué)/統(tǒng)計(jì)學(xué)/計(jì)算機(jī)類的留學(xué)生,或在海外從事相關(guān)工作,或?qū)ψ约和庹Z水平有信心的朋友歡迎加入翻譯小組。

你能得到:定期的翻譯培訓(xùn)提高志愿者的翻譯水平,提高對(duì)于數(shù)據(jù)科學(xué)前沿的認(rèn)知,海外的朋友可以和國(guó)內(nèi)技術(shù)應(yīng)用發(fā)展保持聯(lián)系,THU數(shù)據(jù)派產(chǎn)學(xué)研的背景為志愿者帶來好的發(fā)展機(jī)遇。

其他福利:來自于名企的數(shù)據(jù)科學(xué)工作者,北大清華以及海外等名校學(xué)生他們都將成為你在翻譯小組的伙伴。

轉(zhuǎn)載須知

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
想從事數(shù)據(jù)行業(yè)?你必須掌握這個(gè)最核心的技能 
真?zhèn)螖?shù)據(jù)科學(xué)對(duì)比
一份關(guān)于人工智能、機(jī)器學(xué)習(xí)和大數(shù)據(jù)的報(bào)告
2019年度數(shù)據(jù)科學(xué)家最常用的技能
數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和數(shù)據(jù)分析師三個(gè)角色的區(qū)別是什么
這些數(shù)據(jù)科學(xué)家必備的技能,你擁有哪些?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 页游| 屏南县| 白沙| 南漳县| 平武县| 腾冲县| 垣曲县| 承德县| 安吉县| 许昌县| 宝丰县| 河北区| 华坪县| 双柏县| 新巴尔虎右旗| 翼城县| 滦南县| 武山县| 山东省| 香港 | 阜康市| 巍山| 元朗区| 宁都县| 浦县| 林芝县| 额敏县| 香格里拉县| 桓仁| 大冶市| 息烽县| 库尔勒市| 仙桃市| 天长市| 兴仁县| 平武县| 泗阳县| 朝阳市| 山东省| 融水| 兴文县|