歡迎光臨
每天分享高質量文章

資源 | 想進行資料科學專案卻沒有資料集?26個資料集網站彙總

導讀:如果用一個句子總結學習資料科學的本質,那就是:

學習資料科學的最佳方法就是應用資料科學。

如果你是初學者,那麼每完成一個專案你的能力就會大大提高。如果你是有經驗的資料科學從業者,那麼你應該懂這個道理。

但是,當我向人們給出這個建議時,他們通常會問:我可以在哪裡獲得練習的資料集呢? 他們沒有意識到存在大量開放的資料集可使用。他們沒有意識到透過這些專案,能夠不斷學習,從而促進自己的職業發展。

如果你認為這符合你的情況,那麼你來對地方了!本文將列出一些資料集網站、資源的串列,你可以從使用當中的資料來進行自己的 pet project,甚至創造自己的產品。

00 如何使用這些資源?

如何使用這些資料源是沒有限制的。唯一限制你的是創造力和實際應用。


使用它們的最簡單方法是進行資料專案併發布到網上。這不僅可以提高資料和視覺化技能,還可以改善你的結構化思維。


另一方面,如果你打算或正在處理基於資料的產品,這些資料集可以透過提供新的輸入資料來增加產品的活力。


我已經將這些資源分類,從簡單,通用和易於處理的資料集,到大型、行業相關的資料集。接著,介紹用於特定目的的資料集:文字挖掘,影象分類,推薦引擎等。


(友情提示:以下網站均需翻牆)


01 簡單、通用的資料集

1. data.gov  

( https://www.data.gov/ )


美國政府公開資料。該網站在釋出時包含超過 19 萬個資料點。這些資料包括氣候,教育,能源,金融等領域的資料。


2. data.gov.in 

( https://data.gov.in/ )


印度政府公開資料。可以查詢各行業,氣候,醫療保健等資料。還可以在這裡得到一些視覺化的靈感。根據所在國家,你也可以從其他幾個網站上檢視類似的網站。


3. World Bank

( http://data.worldbank.org/ )  


世界銀行的開放資料。該平臺提供 Open Data Catalog,世界發展指數,教育指數等幾個工具。

 

4. RBI  

( https://rbi.org.in/Scripts/Statistics.aspx )


印度儲備銀行提供的資料。包括國際收支,銀行業務和一些產品使用的貨幣市場運作指標。

 

5. Five Thirty Eight Datasets 

( https://github.com/fivethirtyeight/data )


Five Thirty Eight,亦稱作 538,專註與民意調查分析,政治,經濟與體育的部落格。該資料集為 Five Thirty Eight Datasets 使用的資料集。每個資料集包括資料,解釋資料的字典和Five Thirty Eight 文章的連結。如果你想學習如何建立資料故事,不能錯過。


02 大型資料集

6. Amazon Web Services(AWS)datasets

( https://aws.amazon.com/cn/datasets/ )


亞馬遜提供了一些大資料集,可以在他們的平臺或本地計算機上使用。還可以透過 EMR,使用 EC2 和 Hadoop 在雲端分析資料。亞馬遜的熱門資料集包括完整的 Enron 電子郵件資料集,Google Books n-gram,NASA NEX 資料集,百萬歌曲資料集等。


7. Google datasets

( https://cloud.google.com/bigquery/public-data/ )


Google 提供了一些資料集作為其 Big Query 工具的一部分。包括 GitHub 公共資料庫的資料,Hacker News 的所有故事和評論。

8. Youtube labeled Video Dataset

( https://research.google.com/youtube8m/ )


幾個月前,谷歌研究小組釋出了 YouTube 標簽資料集,該資料集由 800 萬個 YouTube 影片 ID 和 4800 個視覺物體的相關標簽組成。這來自數十億幀的預先計算和最先進的視覺功能。

 

03 預測建模與機器學習資料集


9. UCI Machine Learning Repository

( https://archive.ics.uci.edu/ml/datasets.html ) 


UCI 機器學習儲存庫顯然是最著名的資料儲存庫。如果你正在尋找與機器學習庫相關的資料集,那麼這是不可錯過的資源。當中包括各種各樣的資料集,從泰坦尼克號的倖存資料,到最近的空氣質量、GPS 軌跡等待。儲存庫包含超過 350 個資料集,其中包含域名,問題目的(分類/回歸)等標簽。你可以使用這些過濾器來確定需要的資料。


10. Kaggle 

( https://www.kaggle.com/datasets ) 


Kaggle 推出了一個平臺,人們上傳資料集,其他社群成員可以投票併在其上執行指令碼。共有 350 多個資料集 ,特徵資料集超過 200 個。


11. Analytics Vidhya

(https://datahack.analyticsvidhya.com/contest/all/ )


你可以參與和下載我們的練習問題以及駭客馬拉松問題的資料集。資料集基於現實生活中的行業問題,並且相對較小,因為它們是針對 2-7 天的駭客馬拉松活動。


12. Quandl 

( https://www.quandl.com/ )


Quandl 透過起網站、API 或一些工具的直接整合提供了不同來源的財務、經濟和替代資料。他們的資料集分為開放和付費。所有開放資料集為免費,但高階資料集需要付費。透過搜尋仍然可以在平臺上找到優質資料集。例如,來自印度的證券交易所資料是免費的。



13. Past KDD Cups

( http://www.kdd.org/kdd-cup )


KDD Cup 是 ACM Special Interest Group 組織的年度資料挖掘和知識發現競賽。


14. Driven Data

( https://www.drivendata.org/ )


Driven Data 發現運用資料科學帶來積極社會影響的現實問題。然後,他們為資料科學家組織線上模擬競賽,從而開發出最好的模型來解決這些問題。


04 影象分類資料集

15. The MNIST Database 

( http://yann.lecun.com/exdb/mnist/ )


最流行的使用手寫數字的影象識別的資料集。包括 6 萬個火車示例和一個 1 萬個示例的測試集。這通常是進行影象識別的第一個資料集。

 

16. Chars74K 

(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )


如果你已經掌握手寫數字,可以進一步使用該資料集。當中包括自然影象中的字元識別,包含 74,000 個影象。 


17. Frontal Face Images 

(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )


如果你已經完成了前兩個專案,並且能夠識別數字和字元,那麼在影象識別的下一個挑戰就是正面臉部影象。這些影象由 CMU & MIT 收集,併排列在四個檔案夾中。


18. ImageNet 

( http://image-net.org/ )


是時候構建一些通用的東西了。根據 WordNet 層次的影象資料庫(目前僅為名詞)。層次結構的每個節點都被描述為數百個影象。目前,這個集合平均每個節點有超過 500 個影象,並且在增加中。

05 文字分類資料集


19. Spam – Non Spam 

(http://www.esp.uem.es/jmgomez/smsspamcorpus/)

區分簡訊是否為垃圾郵件是一個有趣的問題。你需要構建一個分類器將簡訊進行分類。

 

20. Twitter Sentiment Analysis

(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)

該資料集包含 1578627 個分類推文,每行被標記為1的積極情緒,0位負面情緒。資料依次基於 Kaggle 比賽和 Nick Sanders 的分析。

 

21. Movie Review Data

(http://www.cs.cornell.edu/People/pabo/movie-review-data/)


本網站提供電影評論檔案的集合,標註其總體情緒極性(正面或負面)和主觀評分(例如“兩星半”)等。

06 推薦引擎的數據集

22. MovieLens  

( https://grouplens.org/ )


MovieLens 是一個幫助人們查詢電影的網站。它有成千上萬的註冊使用者。他們進行自動內容推薦,推薦介面,基於標簽的推薦頁面等線上實驗。這些資料集可供下載,可用於建立自己的推薦系統。

 

23. Jester  

(http://www.ieor.berkeley.edu/~goldberg/jester-data/)


線上笑話推薦系統。

07 來自各種來源的資料集網站


24. KDNuggets 

(http://www.kdnuggets.com/datasets/index.html)


KDNuggets 的資料集頁面一直是人們搜尋資料集的參考。串列全面,但是某些來源不再提供資料集。因此,需要謹慎選擇資料集和來源。

 

25. Awesome Public Datasets 

(https://github.com/caesar0301/awesome-public-datasets)


具有按域分類的資料集串列的 GitHub 儲存庫。資料集被整齊地劃分在不同的領域,然而沒有關於儲存庫本身的資料集的描述

 

26. Reddit Datasets Subreddit

(https://www.reddit.com/r/datasets/)


由於這是一個社群驅動的論壇,可能與之前的兩個資料源相比會一些混亂。但是,你可以根據熱度和投票來對資料集進行排序,以檢視最流行的資料集。另外,它還有一些有趣的資料集和討論。


結語


我希望這份資源清單對那些想做專案的人有所幫助。這絕對是一個金礦。

原作者:Kunal Jain

編譯:Mika

來源:CDA資料分析師(ID:cdacdacda)

原文:

https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/

推薦閱讀

日本老爺爺堅持17年用Excel作畫,我可能用了假的Excel···

看完此文再不懂區塊鏈算我輸:手把手教你用Python從零開始建立區塊鏈

為什麼要學數學?因為這是一場戰略性的投資

180頁PPT,講解人工智慧技術與產業發展

Q: 你平時都透過哪些途徑獲取資料?

歡迎留言與大家分享

覺得不錯,請把這篇文章分享給你的朋友

轉載 / 投稿請聯絡:baiyu@hzbook.com

更多精彩文章,請在公眾號後臺點選“歷史文章”檢視

贊(0)

分享創造快樂