如今的我們,淹沒在大資料的海洋中,卻又忍受著因沒有資料而導致的饑渴。很多人都想做大資料研究,但資料在哪裡呢?資料不再是“資源”,而是變成了一種重要“資產”。
—— 摘自《資料科學理論與實踐》
除了利用網路爬蟲收集資料、資料生成和儲存部門的供給之外,我們還可以透過以下方式獲得大資料(在每一類途徑之下給出了代表性資料集):
1政府開放資料
-
美國政府開放的資料集 :https://www.data.gov/
-
美國交通事故資料集:https://www-fars.nhtsa.dot.gov/Main/index.aspx
-
美國空氣質量資料集:http://aqsdr1.epa.gov/aqsweb/aqstmp/airdata/download_files.html
-
印度政府公開的資料:data.gov.in(https://data.gov.in/)
-
英國政府公開的資料集:https://data.gov.uk/
2企業或公益組織
-
Amazon Web Services (AWS) datasets:(https://aws.amazon.com/datasets/
-
Google datasets:https://cloud.google.com/bigquery/public-data/
-
Youtube labeled Video Dataset:https://research.google.com/youtube8m/
-
NASA:https://data.nasa.gov/
-
世界銀行:http://www.shihang.org/
-
紐約出租車:http://chriswhong.github.io/nyctaxi/
3大資料競賽平臺
-
Kaggle:https://www.kaggle.com/datasets
-
Past KDD Cups:http://www.kdd.org/kdd-cup
-
Driven Data:https://www.drivendata.org/
4機器學習領域經典資料集
-
UCI:https://archive.ics.uci.edu/ml/datasets.html
-
Delve Datasets: http://www.cs.toronto.edu/~delve/data/datasets.html
5統計學領域經典資料集
-
統計學領域論文、學術期刊、著名圖書中的資料集
-
各類統計年鑒
-
統計資料庫
6其他
-
R包中的資料集,如nycflights13
本文授權轉自:資料科學DataScience;
END
如果你對人工智慧與機器學習感興趣,請加交流群:群號:139482724 ;
版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。
關聯閱讀:
原創系列文章:
資料運營 關聯文章閱讀:
資料分析、資料產品 關聯文章閱讀: