精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
資源 | 微軟官方整理:用于Azure機器學習的免費數據集

選自Microsoft

作者:Lee Scott

機器之心編譯 

參與:李亞洲、吳攀、杜夏德




要學習怎么使用微軟 Azure 機器學習,最重要的是獲取樣本數據集和進行實驗。


在微軟,我們有大量的樣本數據集可用。這些數據集已經在 Azure Cortana Intelligence Gallery 中的樣本模型中得到了應用。


其中一些數據集可以通過 Azure Blob 存儲獲取,所以可以直接鏈接到 Azure 機器學習實驗;而其它的數據集則是以 CSV 格式提供的。下面列出的這些數據集都將提供直接的鏈接。你可以通過 Import Data 模型在你的實驗中使用這些數據。


這些數據中的剩下數據集都列在模塊(module)面板中的 Saved Datasets 下;當你在 ML Studio 中打開或創建一個新實驗時,你能在實驗畫布(experiment canvas)的左邊看到它們。你可以直接將這些數據集拖拽到實驗畫布而將它們應用到你自己的實驗中。


以下列出了一些可以免費使用的數據集:


成年人收入普查二分類數據集


一個 1994 年的普查數據庫的子數據集,使用了 16 歲以上的工作年齡的成年人的數據,其帶有一個經調整之后大于 100 的收入指數。


用途:使用人口學信息對人進行分類,以預測一個人年收入是否超過 5 萬美元

相關研究:Kohavi, R., Becker, B., (1996). UCI Machine Learning Repository Irvine, CA: 加州大學信息與計算機科學學院


機場代碼數據集(Airport Codes Dataset)


美國機場代碼

這個數據集包含每個美國機場,提供了機場 ID 編號和名字,以及機場所在的城市和州。


汽車價格數據(Automobile price data,原始數據)


按廠家和車型分類的汽車信息,其中包括價格、氣缸數量和 MPG 等特征,以及保險風險評分(insurance risk score)。


這個風險評分最初是與汽車價格關聯的,后來根據實際風險在一個被精算師稱為符號化(symboling)的過程中進行了調整。+3 的值表示該汽車是有風險的,而 -3 的值則表示它可能是相當安全的。


用途:使用回歸或多變量分類,根據特征預測風險評分。


相關研究:Schlimmer, J.C. (1987). UCI Machine Learning Repository Irvine, CA: 加州大學信息與計算機科學學院


自行車租賃 UCI 數據集(Bike Rental UCI dataset)


UCI 自行車租賃數據集基于來自 Capital Bikeshare 公司的真實數據,該公司在華盛頓特區運營著一個自行車租賃網絡。


該數據集包含 2011 年和 2012 年每一天和每一小時的數據,總共有 17379 行。每小時租賃自行車數量的范圍在 1 到 977 之間。


Bill Gates RGB Image

已轉換成 CSV 數據的公開可用的圖像文件。

用于轉換該圖像的代碼提供在使用 K-均值聚類模型的顏色量化(Color quantization using K-Means clustering model)的詳情頁面。


獻血數據(Blood donation data)


一個來自臺灣新竹市輸血服務中心獻血數據庫的一個子數據集。


獻血者數據包括獻血頻率、總獻血次數、自上次獻血以來的時間和獻血量。


用途:目標是通過分類預測獻血者是否在 2007 年 3 月獻血,其中 1 表示目標區間內的一個獻血者,0 表示沒有獻血者。


相關研究:Yeh, I.C., (2008). UCI Machine Learning Repository , CA: 加州大學信息與計算機科學學院


亞馬遜網站的書評


由賓夕法尼亞大學研究者采集(地址:

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/)。-參見論文《Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification》,來自 John Blitzer, Mark Dredze, and Fernando Pereira; 計算語言學協會 (ACL), 2007-

原來的數據集包含 97.5 萬條包含 1、2、3、4、5 評分的書評。這些書評都是用英語寫的,截取自 1997-2007 年這個時間段。這個數據集已經被下采樣成了 1 萬條書評。


乳腺癌數據(Breast cancer data)


由 Oncology Institute 提供的三個與癌癥相關的數據集中的一個,其常常出現在機器學習文獻中。結合了來自對大約 300 種組織樣本的實驗室分析的特征的診斷信息。

用途:基于 9 種屬性分類癌癥類型,其中一些是線性的,一些是按類別劃分的。

相關研究:Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning Repository, CA: 加州大學信息與計算機科學學院


乳腺癌特征(Breast Cancer Features)


這個數據集包含了來自 X 射線圖像的 10.2 萬個可疑區域(候選項)的信息,其中每個區域都用 117 個特征進行了描述。這些特征是專有的,而且它們的含義沒有被該數據集的創造者(Siemens Healthcare)揭示出來。


乳腺癌信息(Breast Cancer Info)


這個數據集包含了來自 X 射線圖像的可疑區域的額外信息。每個樣本都提供了對應 Breast Cancer Features 數據集行數的信息(如,標簽、病人 ID、圖像塊相對于整張圖像的坐標)。每個病人都有很多樣本。對于患癌的病人來說,一些樣本是積極的,一些樣本是消極的。該樣本有 10.2 萬個樣本。這個數據集有偏置的,其中只有 0.6% 的點是積極的,其余都是消極的。該數據集由 Siemens Healthcare 提供。


CRM Appetency Labels Shared

來自 KDD Cup 2009 客戶關系預測挑戰賽的標簽:

http://www.sigkdd.org/site/2009/files/orange_small_train_appetency.labels


CRM Churn Labels Shared


來自 KDD Cup 2009 客戶關系預測挑戰賽的標簽:

http://www.sigkdd.org/site/2009/files/orange_small_train_churn.labels


CRM Dataset Shared


來自 KDD Cup 2009 客戶關系預測挑戰賽的數據:http://www.sigkdd.org/kdd-cup-2009-customer-relationship-prediction%20-%20orange_small_train.data.zip

該數據集包含來自法國電信公司 Orange 的 5 萬個客戶。其中每個客戶有 230 個匿名的特征,其中 190 個數值特征和 40 個類別特征。這些特征是非常稀疏的。


CRM Upselling Labels Shared


來自 KDD Cup 2009 客戶關系預測挑戰賽的標簽:

http://www.sigkdd.org/site/2009/files/orange_large_train_upselling.labels


能效回歸數據(Energy Efficiency Regression data)


基于 12 種不同的建筑外形收集的模擬能量分布。這些建筑按照 8 個特征進行了區分,比如:玻璃窗面積、玻璃窗面積分布和取向。


用途:使用回歸(regression)或分類(classification)來預測能效等級,其給出的兩種響應是有實際價值的。對于多類別分類,響應變量被取舍到了最接近的整數。


相關研究:Xifara, A. & Tsanas, A. (2012). UCI Machine Learning Repository Irvine, CA:加州大學信息與計算機科學學院


航班延誤數據


來自美國交通部收集的 TranStats 數據集中的乘客航班正常率數據。該數據集覆蓋 2013 年 4 月到 10 月的統計,在上傳到 Azure ML Studio 之前,該數據集處理如下:


  • 該數據集經過過濾只覆蓋美國本土的 70 個最繁忙的機場

  • 廢除了標記顯示延誤超過 15 分鐘的航班

  • 轉航班數據也被消除

  • 選擇使用數據目錄如下:Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Cancelled


美國 2011 年 10 月飛機到達與離開的記錄數據


用途:預測航班延誤


相關研究:來自美國交通部的 http://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.


森林火災數據


該數據集包含來自葡萄牙東北部的天氣數據,比如溫度、濕度指數和風速,結合與森林火災的記錄。


用途:這是一項很難的回歸任務,目的是預測森林火災焚燒的地區。


相關研究: Cortez, P., & Morais, A. (2008). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and 

Computer Science

[Cortez and Morais, 2007] P. Cortez and A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. In J. Neves, M. F. Santos and J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 – Portuguese Conference on Artificial Intelligence, December, Guimar?es, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. 地址:http://www.dsi.uminho.pt/~pcortez/fires.pdf.


德國信用卡 UCI 數據集


UCI Statlog(德國信用卡)數據集(Statlog+German+Credit+Data))使用了 german.data 文件。


該數據集通過一系列的屬性進行表述,根據人進行分類,每個樣本表示一個人。此數據集中有 20 個特征,都是數字和類別,以及二元標簽(信用風險值)。高信用風險標記為 2,低信用風險標記為 1。將低風險樣本誤分類為高風險的成本是 1,反之誤分類高風險的成本是 5。



IMDB 電影


該數據集包含 Twitter 上評估的有關電影的信息:IMDB 電影 ID、電影名和流派、生產年。該數據集中有 17K 的電影。


鳶尾花兩級數據


在模式識別文獻中,它可能是最知名的數據集。該數據集相對較小,包含來自三個鳶尾屬植物分類的每種花瓣測量的 50 個樣本。


用途:從測量中預測 iris 的類別。


相關研究:Fisher, R.A. (1988). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science


電影 Tweets 


該數據集是 Movie Tweeting 數據集的擴展版本,此數據集有 170K 的電影評估信息,從結構較好的 tweets 中提取。每個示例代表一條 tweet,數據元組:用戶、IMDB 電影 ID、評估等級、時間標記、該 tweet 的點贊人數、轉推人數。該數據集由 A. Said, S. Dooms, B. Loni and D. Tikk for Recommender Systems Challenge 2014 供用。


汽車MPG數據


該數據集是由卡耐基梅隴大學 StatLib 庫提供的數據集的修正版本,此數據集曾被 1983 年 American Statistical Association Exposition 使用。


該數據列出了每加侖汽油各種類型機動車的消耗情況,同時也包含氣缸個數、引擎排放量、馬力、總重量和加速這樣的信息。


通途:基于 3 個多值離散屬性和 5 個連續屬性預測節約燃油。


相關研究:StatLib, Carnegie Mellon University, (1993). UCI Machine Learning Repository  Irvine, CA: University of California, School of Information and Computer Science


Pima 印第安人糖尿病二進制分類數據集


來自 National Institute of Diabetes and Digestive and Kidney Diseases 數據集的一個子集。該數據集經過過濾只關注 Pima Indian 遺傳的女性病人。數據包括血糖、胰島素水平、生活方式這樣的醫療數據。


用途:預測該主體是否有糖尿病(二分類)


相關研究: Sigillito, V. (1990). UCI Machine Learning Repository」. Irvine, CA: University of California, School of Information and Computer Science


餐館消費者數據集


一系列關于消費者的元數據,包括人口統計學和喜好。


用途:使用該數據集,結合其他兩個餐飲數據集,可訓練并測試推薦系統。


相關研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.

Restaurant feature data


一堆關于餐館和餐館特征的元數據,比如食物類型、餐廳風格、位置。


用途:使用該數據集,結合其他兩個餐飲數據集,可訓練并預測推薦系統。


相關研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.


餐館評分數據集


包含用戶給出的對餐館的評價,等級從 0 到 2 劃分。


用途:使用該數據集,結合其他兩個餐飲數據集,可訓練并預測推薦系統。


相關研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.


鋼退火多級數據集(Steel Annealing multi-class)


該數據集包含一系列來自鋼材退火實驗的記錄,數據包含測試鋼材類型的物理屬性(寬度、厚度、類型(線圈、薄片等))。


用途:預測任何二數類屬性:硬度或強度,也可用于分析屬性間的關聯。鋼材等級劃分遵循一定標準,由 SAE 和其他組織定義。你可以尋求特定的等級,并了解所需要的值。


相關研究:Sterling, D. & Buntine, W., (NA). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science


望遠鏡數據集


高能量伽馬粒子爆發的記錄,也帶有背景噪聲,都使用 Monte Carlo 處理方法模擬。

模擬的目的是改進地表大氣 Cherenkov 射線望遠鏡的準確率,使用統計方法微分想要信號(Cherenkov radiation showers)和背景噪聲。


該數據已經過了預處理,以創建一個以指向相機中心方向為長軸的延長的聚類(elongated cluster)。這個橢圓的特征(通常被稱為 Hillas 參數)是可以用于判別(discrimination)的圖像參數中的一部分。


用途:預測 shower 表征信號或背景噪聲的天氣圖像。


注意:簡單分類準確率對此數據意義不大,因為將背景時間分類為信號要比將信號分類為背景更糟糕。該數據可用來對比 ROC 圖應該使用的不同分類器。同時也要注意背景事件(h 代表 hadronic showers)的數量是被低估的,在真實測量中,h 或噪聲類代表主要事件。


相關研究: Bock, R.K. (1995). UCI Machine Learning Repository Irvine, CA: University of California, School of Information


天氣數據集


來自 NOAA 的每小時地面天氣觀測(融合了從 2013 年 4 月到 2013 年 10 月的數據)

這份天氣 數據包括了機場天氣預報站的觀測數據,時間從 2013 年 4 月到 10 月。

在上傳 Azure ML Studio 之前,數據集要做如下處理:


  • 氣象站 ID 要映射到對應的機場 ID 上。

  • 與忙碌的 70 家機場無關的氣象站需要過濾掉

  • 日期按年、月、和天分為單獨的列

  • 需要選擇的列包括:機場 ID、年、月、日、時間、時區、天空狀況(skycondition)、能見度、天氣類型、干球華氏溫度(DryBulbFarenheit)、干球攝氏溫度(DryBulbCelsius)、濕球華氏溫度(WetBulbFarenheit)、濕球攝氏溫度(WetBulbCelsius)、露點華氏溫度(DewPointFarenheit)、露點攝氏溫度(DewPointCelsius)、相對濕度、風速、風向、ValueForWindCharacter、本站氣壓(StationPressure)、氣壓趨向(PressureTendency)、氣壓變化(PressureChange)、 海平面氣壓(SeaLevelPressure)、 記錄類型(RecordType)、每小時降雨量(HourlyPrecip)、(高度計)Altimeter


維基百科標準普爾 500 指數數據集(Wikipedia SP 500 Dataset)


源自維基百科的基于標準普爾 500 指數中每家公司的文章的數據,以 XML 格式存儲。


在將該數據集上傳到 Azure ML Studio 之前,需要進行以下處理:


  • 提取每家特定公司的文本內容

  • 移除 wiki 格式

  • 移除非字母數字的字符

  • 將所有文本轉換成小寫

  • 已知公司類別已被加入


注意有些公司沒有找到文章,所以該記錄的數量小于 500.


可以 CSV 格式下載的數據集


direct_marketing.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/direct_marketing.csv)

這個數據集包含了關于一項直接郵寄活動的客戶數據和關于他們的響應的指示。其中每一行代表一個客戶。該數據集包含關于用戶人口學信息和過去行為的 9 項特征,以及 3 個標簽列(訪問、轉化和支出)。訪問(visit)是一個二元行,表示了每次營銷活動后客戶的訪問;轉化(conversion)表示客戶購買了一些東西;支出(spend)是指花費了多少錢。該數據集由 Kevin Hillstrom 為 MineThatData 電子郵件分析和數據挖掘挑戰賽(MineThatData E-Mail Analytics And Data Mining Challenge)提供。


lyrl2004_tokens_test.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/lyrl2004_tokens_test.csv)


RCV1-V2 Reuters 新聞數據集中的測試樣本的特征。該數據集有 78.1 萬條新聞文章以及它們的 ID(該數據集的第一列)。其中每篇文章都已經 tokenized、stopworded 和 stemmed。該數據集由 David. D. Lewis 提供。


lyrl2004_tokens_train.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/lyrl2004_tokens_train.csv)


RCV1-V2 Reuters 新聞數據集中的訓練樣本的特征。該數據集有 2.3 萬條新聞文章以及它們的 ID(該數據集的第一列)。其中每篇文章都已經 tokenized、stopworded 和 stemmed。該數據集由 David. D. Lewis 提供。


來自 KDD Cup 1999 知識發現和數據挖掘工具競賽(KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition)的數據集。


該數據集可在 Azure Blob 下載:

https://azuremlsampleexperiments.blob.core.windows.net/datasets/network_intrusion_detection.csv,其中包含了訓練和測試數據集。訓練數據集有大約 12.6 萬行和 43 列,其中包含標簽;3 列標簽性質信息和 40 列數值與字符串/類別特征信息,都可用于訓練該模型。測試數據集有大約 2.25 萬個測試樣本,和訓練數據一樣有 43 列。


rcv1-v2.topics.qrels.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/rcv1-v2.topics.qrels.csv)


在 RCV1-V2 新聞數據集中的新聞主題分配。一篇新聞可被分為多個主題。每一行的的格式是 1。該數據集包含 260 萬個主題分配,由 David. D. Lewis 共享。


student_performance.txt


這個數據集來自 KDD Cup 2010 學生表現評估挑戰賽(student performance evaluation)。這個數據集已被 Algebra_2008_2009 訓練集采用(Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R.(2010))


在 KDD Cup 2010 教育數據挖掘挑戰賽中的 Algebra I 2008-2009 數據集可以在該競賽的網站中下載:http://pslcdatashop.web.cmu.edu/KDDCup/downloads.jsp。


該數據集也可以在 Azure Blob 下載:

https://azuremlsampleexperiments.blob.core.windows.net/datasets/student_performance.txt,其中的數據來自于學生輔導系統。其中提供了問題 ID 和簡要描述,學生 ID,時間標記,同時還有學生在正確解決問題前的嘗試次數。原數據集存儲了 890 萬條記錄,這個數據集減少了取樣數量,容量縮小至前 10 萬行數據。這份數據每一條目有 23 個不同類型的分項,包括數值、類別和時間戳。




本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
23個優秀的機器學習訓練公共數據集
數據挖掘數據集下載搜集整理版
備用的數據集,目前用kdd 99
簡易教程|為UCI機器學習庫引入簡單直觀的Python API(附代碼)
25個免費數據集網站大放送——For 熱愛數據科學的你
全網最全的數據集網站匯總貼
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 绥芬河市| 肥东县| 浏阳市| 合作市| 广河县| 铁力市| 宣汉县| 铜鼓县| 伊通| 霍邱县| 赣榆县| 海兴县| 登封市| 思南县| 伊通| 台北县| 晋中市| 杭州市| 姜堰市| 岳阳市| 呈贡县| 礼泉县| 伊宁县| 个旧市| 北川| 出国| 阿坝| 淮安市| 固始县| 马公市| 德兴市| 沭阳县| 澄江县| 大冶市| 庆安县| 宁陕县| 峨眉山市| 信宜市| 调兵山市| 华池县| 双流县|