精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
25個免費數據集網站大放送——For 熱愛數據科學的你

如果要一句話概括數據科學的本質,那就是:

“學習數據科學最好的方法就是應用數據科學?!?/p>

如果你是一個初學者,那么這將對你正在運營的新項目幫助極大。如果你是一個有經驗的數據科學專家,那么我想你已經懂我在說什么了。

然而,當我向人們給到此類建議時,他們通常會反問我——那我可以在哪里獲取到數據集進行練習呢?可能有的同學們還不太了解,現在有很多數據集是開放的。

如果你現在也需要大量的數據集進行練習,那么本文就可以解決你現在的困境,你可以利用這些數據進行練習,甚至可以利用它們創建自己的項目,甚至是產品。

如何利用這些資源?

對于數據的應用來說,是無止境的。如果在這里提供了具體的應用方法或者使用方式只會限制你的創造力。

我想最簡單的方法就是使用她們來創建自己的“數據故事”,并將其發布在自己的博客里。這不僅可以提高你的數據可視化技能,還可以提高你的結構化思維。

另一方面,如果你正在考慮或者已經在運營一款數據產品,本文中的這些數據集將可以為你提供額外的新的數據源。

在本文中,我將這些數據源基于應用將其分為不同的類別。首先從簡單通用且容易處理的數據集開始,然后最后是大量的或行業相關的數據集。接下來我們再來為特定的需求來進行為本挖掘、圖像分類等等。

如果你還想到了其他的數據集資源,請在評論中與我分享哦~

簡單&通用的數據集——for 初學者

data.gov(https://www.data.gov/)——這是美國政府公開數據源的站點。Data.gov提供各種數據及標準數據接口,方便用戶下載數據,參與政府事務,提供反饋意見和建議,消除政府和公眾之間的信息不對稱問題。這個站點上有多種領域的數據,包括氣候、教育、能源和金融等等。

data.gov

data.gov.in(https://data.gov.in/)該站點為印度政府的公開數據網站。在該站點上你可以找到各種行業的數據,類似氣候、健康等等。

data.gov.in

World Bank(http://www.shihang.org/)從該網站上你可以獲取到世界銀行的公開數據。該站點提供類似數據目錄、DataBank和微數據這樣的數據工具可供你在線使用。

World Bank

RBI(https://rbi.org.in/Scripts/Statistics.aspx)該站點為印度央行的公開數據。你可以在該站點中查看到類似貨幣市場業務、國際收支以及一些產品的使用等等。如果你身處印度的BFSI(Banking, Financial services and Insurance)行業,我想這是一個你必去的網站。

RBI

Five Thirty Eight Datasets(https://github.com/fivethirtyeight/data),該站點中的每一個數據集中都有大量的數據,以及一個對數據進行解釋的字典。如果你正在學習如何創建數據故事,那么。這將是你最好的選擇。

Five Thirty Eight Datasets

大數據集——難度提升!

Amazon Web Services (AWS) datasets(https://aws.amazon.com/datasets/)亞馬遜提供了一些大數據集,你可以在他們的平臺或者本地計算機上使用。

Google datasets(https://cloud.google.com/bigquery/public-data/)作為BigQuery的一部分,Google提供了一些大數據集,該站點上的數據集包括嬰兒名字,GitHub的公開數據等等。

Youtube labeled Video Dataset(https://research.google.com/youtube8m/)幾個月前,Google Research Group發布了Youtube的數據集。其中包括800萬Youtube視頻ID和相關標簽。

預測模型&機器學習數據集

UCI Machine Learning Repository(https://archive.ics.uci.edu/ml/datasets.html)UIC機器學習庫顯然是最著名的數據存儲庫。這通常是你尋找數據集相關的第一個機器學習庫。在這里有各種數據集,從泰坦尼克相關數據到最近的空氣質量和GPS數據等。存儲庫中有超過350種分類。你可以利用這些分類過濾器來確定自己需要的數據集。

Kaggle(https://www.kaggle.com/datasets)該站點是一個可以讓人們捐贈自己的數據集的地方,同時其他的成員可以對其進行使用和優化。他們有超過350個數據集。這個站點的另一個優勢在于 ,你可以看到其他成員的提問和他們寫的腳本等信息。

Analytics Vidhya(https://datahack.analyticsvidhya.com/contest/all/)你可以從該站點下載數據集,但是該站點的數據量級相對較小。

Quandl(https://www.quandl.com/)該站點提供經濟、金融以及其他各種他們通過自己的網站/API獲取并整合的公開數據源。在該站點上的數據源分為公開版和高級版。你可以免費使用公開版的數據源,但是需要支付一定的費用才可以訪問高級版。

Past KDD Cups(http://www.kdd.org/kdd-cup)KDD Cups是ACM Special Interest Group組織的競賽,每年舉行一次,有關發現和數據挖掘。獲獎者可以使用其中的大部分資源。

Driven Data(https://www.drivendata.org/)Driven Data發現數據科學可以用來對社會產生積極的影響。然后他們通過運行在線建模競賽的方式讓數據科學家可以開發最好的模型來解決這些問題。

圖像分類數據集

The MNIST Database(http://yann.lecun.com/exdb/mnist/)該站點是最受歡迎的手寫數據圖像識別數據集。這個站點上有6萬個訓練案例和1萬組練習集。這通常會是新手使用的第一個圖像識別訓練數據集。

The MNIST Database

Chars74K(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/)該站點上是圖像識別的下一個階段,如果你已經掌握了手寫圖像數據,在該站點上你可以得到很多關于自然圖像識別的數據集。在該站點上包含了74000張圖片。

Chars74K

Frontal Face Images(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html)如果你已經對前兩個站點的項目有一定的了解,那么這個站點就是下一個挑戰——人臉識別。圖片是由卡內基梅隆大學和麻省理工大學整理收集,分別存放在4個文件夾下。

Frontal Face Images

ImageNet(http://image-net.org/)現在要為大家介紹一些通用的資料。圖像數據集是根據WordNet的層級來組織的。

ImageNet

文本分類數據集

Spam – Non Spam(http://www.esp.uem.es/jmgomez/smsspamcorpus/)這是一個對垃圾信息標記收集的研究站點。


Spam – Non Spam

Twitter Sentiment Analysis(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)該站點中包含1,578,627個已經分類的推特狀態。每一條都被標記了是積極情緒還是消極情緒。數據是基于Kaggle和Nick Sanders的調研結果。

Twitter Sentiment Analysis

Movie Review Data(http://www.cs.cornell.edu/People/pabo/movie-review-data/)該網站提供了有關電影評論的集合文件,用正面或者負面情緒以及主觀評級將其標注。

Movie Review Data

推薦引擎數據集

GroupLens(http://grouplens.org/)該站點通過對真實的個人創建深度分析系統,來改進社交計算的理論和實踐。同時在GroupLens Research中,收集了MovieLens中的網站數據集,根據數據集的大小,在不同的時間段收集數據。

GroupLens

Jester(http://www.ieor.berkeley.edu/~goldberg/jester-data/)這是一個有關線上笑話評論系統的數據集。

Jester

其他數據源網站

KDNuggets(http://www.kdnuggets.com/datasets/index.html)在KNDuggets上的這個頁面一直是人們尋找數據集的一個頁面。但是有一些數據源已經不再提供數據集,所以建議在下載或者使用時謹慎按需選擇。


KDNuggets

Awesome Public Datasets(https://github.com/caesar0301/awesome-public-datasets),這是一個GitHub上的數據集分類綜合列表。在這個列表中數據集被分為各種種類。

Awesome Public Datasets

Reddit Datasets Subreddit(https://www.reddit.com/r/datasets/)因為這是一個社區論壇,可能你會覺得這個網站又短混亂。但是,你可以通過人氣對數據集排序,來查看最受的歡迎的數據集是哪些。同時在這個站點上你可以發現很多有趣的討論。

Reddit Datasets Subreddit

小結:

希望以上資源對于大家學習數據科學有所助益。對于初學者來說,這絕對是個實戰練習的絕佳資源。如果你還有其他的數據科學練習資源,歡迎在評論區和大家分享~!

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 阿克陶县| 湘阴县| 固安县| 临汾市| 丰原市| 潍坊市| 松阳县| 临洮县| 安阳市| 棋牌| 新郑市| 教育| 原阳县| 甘肃省| 宿松县| 普宁市| 马公市| 桓台县| 荔波县| 隆尧县| 仪征市| 海口市| 申扎县| 论坛| 扎兰屯市| 建瓯市| 许昌市| 罗田县| 边坝县| 泽库县| 花莲县| 弥勒县| 桑日县| 万盛区| 金堂县| 登封市| 舒城县| 镶黄旗| 徐水县| 留坝县| 元氏县|