歡迎光臨
每天分享高質量文章

收藏 | 超全開源資料集,你真的不想要嗎?(附連結)

來源:機器之心

本文約1500字,建議閱讀10分鐘。

本文為大家介紹了一個非常全面的開源資料集。


近期,skymind.ai 釋出了一份非常全面的開源資料集。內容包括生物識別、自然影象以及深度學習影象等資料集,小編將其整理如下:(內附連結哦~)


最近新增資料集


開源生物識別資料:


地址:

http://openbiometrics.org/


Google Audioset:擴充套件了 632 個音訊分類樣本,並從 YouTube 影片中提取了 2,084,320 個人類標記的 10 秒聲音片段。


地址:

https://research.google.com/audioset/


Uber 2B trip data:首次展示 2 百萬公里的出行資料。


地址:

https://movement.uber.com/cities


Yelp Open Dataset:Yelp 資料集是用於 NLP 的 Yelp 業務、評論和使用者資料的子集。


地址:

https://www.yelp.com/dataset


Core50:用於連續標的識別的新資料集和基準。


地址:

https://vlomonaco.github.io/core50/


Kaggle 資料集:


地址:

https://www.kaggle.com/datasets


Data Portal:


地址:

http://dataportals.org/


Open Data Monitor:


地址:

https://opendatamonitor.eu/


Quandl Data Portal:


地址:

https://www.quandl.com/


Mut1ny 頭部/面部分割資料集:


地址:

http://www.mut1ny.com/face-headsegmentation-dataset


Github 上的優秀公共資料集:


地址:

https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html


頭部 CT 掃描資料集:491 次掃描的 CQ500 資料集。


地址:

http://headctstudy.qure.ai/


自然影象資料集


MNIST:手寫數字影象。最常用的可用性檢查。格式 25×25、居中、黑白手寫數字。這是一項簡單的任務——僅某部分適用於 MNIST,不意味著它有效。


地址:

http://yann.lecun.com/exdb/mnist/


CIFAR10 / CIFAR100:32×32 彩色影象,10/100 類。雖然仍有趣卻不再常用的可用性檢查。


地址:

http://www.cs.utoronto.ca/~kriz/cifar.html


Caltech 101:101 類物體的圖片。


地址:

http://www.vision.caltech.edu/Image_Datasets/Caltech101/


Caltech 256:256 類物體的圖片。


地址:

http://www.vision.caltech.edu/Image_Datasets/Caltech256/


STL-10 資料集:用於開發無監督特徵學習、深度學習、自學習演演算法的影象識別資料集。像修改過的 CIFAR-10。


地址:

http://cs.stanford.edu/~acoates/stl10/


The Street View House Numbers (SVHN):Google 街景中的門牌號碼。可以把它想象成復現的戶外 MNIST。


地址:

http://ufldl.stanford.edu/housenumbers/


NORB:玩具擺件在各種照明和姿勢下的雙目影象。


地址:

http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/


Pascal VOC:通用影象分割/分類——對於構建真實世界影象註釋不是非常有用,但對基線很有用。


地址:

http://pascallin.ecs.soton.ac.uk/challenges/VOC/


Labelme:帶註釋影象的大型資料集。


地址:

http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php


ImageNet:新演演算法的客觀影象資料集(de-facto image dataset)。許多影象 API 公司都有來自其 REST 介面的標簽,這些標簽近 1000 類;WordNet; ImageNet 的層次結構。


地址:

http://image-net.org/


LSUN:具有很多輔助任務的場景理解(房間佈局估計,顯著性預測(saliency prediction)等),有關聯競賽。(associated competition)。


地址:

http://lsun.cs.princeton.edu/2016/


MS COCO:通用影象理解/說明,有關聯競賽。


地址:

http://mscoco.org/


COIL 20:不同物體在 360 度旋轉中以每個角度成像。


地址:

http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php


COIL100:不同物體在 360 度旋轉中以每個角度成像。


地址:

http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php


Google 開源影象:有 900 萬張影象的網址集合,這些影象透過知識共享(Creative Commons)被標註成 6000 多個類別。


地址:

https://research.googleblog.com/2016/09/introducing-open-images-dataset.html


地理空間資料


OpenStreetMap:免費提供整個星球的向量資料。它包含(舊版)美國人口普查局的資料。


地址:

http://wiki.openstreetmap.org/wiki/Planet.osm


Landsat8:整個地球錶面的衛星視角圖,每隔幾周更新一次。


地址:

https://landsat.usgs.gov/landsat-8


NEXRAD:美國大氣層的多普勒雷達掃描圖。


地址: 

https://www.ncdc.noaa.gov/data-access/radar-data/nexrad


——我是深度學習影象的分割線——


人工資料集


Arcade Universe:一個人工資料集生成器,影象包含街機遊戲 sprite,如 tetris pentomino / tetromino。該生成器基於 O. Breleux 的 bugland 資料集生成器。


地址:

https://github.com/caglar/Arcade-Universe


以 Baby AI School 為靈感的資料集集合。


地址:

http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchool


Baby AI Shapes Dataset:區分 3 種簡單形狀。


地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets


Baby AI Image And Question Dataset:一個問題-影象-答案資料集。


地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets


Deep Vs Shallow Comparison ICML2007:為實證評估深層架構而生成的資料集。


地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007


MnistVariations:在 MNIST 中引入受控變化。


地址:

http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariations


RectanglesData:區分寬矩形和垂直矩形。


地址:

http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesData


ConvexNonConvex:區分凸形和非凸形狀。


地址:

http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex


BackgroundCorrelation:嘈雜 MNIST 背景下相關度的控制


地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation


人臉資料集


Labelled Faces in the Wild:13000 個經過裁剪的人臉區域(使用已經用名稱識別符號標記過的 Viola-Jones)。資料集中每個人員的子集裡包含兩個影象——人們常用此資料集訓練面部匹配系統。


地址:

http://vis-www.cs.umass.edu/lfw/


UMD Faces:有 8501 個主題的 367,920 個面孔的帶註釋資料集。


地址:

http://www.umdfaces.io/


CASIA WebFace:超過 10,575 個人經面部檢測的 453,453 張影象的面部資料集。需要一些質量過濾。


地址:

http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html


MS-Celeb-1M:100 萬張全世界的名人圖片。需要一些過濾才能在深層網路上獲得最佳結果。


地址:https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/


Olivetti:一些人類的不同影象。


地址:

http://www.cs.nyu.edu/~roweis/data.html


Multi-Pie:The CMU Multi-PIE Face 資料庫。


地址:

http://www.multipie.org/


Face-in-Action:


地址:

http://www.flintbox.com/public/project/5486/


JACFEE:日本和白種人面部情緒表達的影象。


地址:

http://www.humintell.com/jacfee/


FERET:面部識別技術資料庫。


地址:

http://www.itl.nist.gov/iad/humanid/feret/feret_master.html


mmifacedb:MMI 面部表情資料庫。


地址:

http://www.mmifacedb.com/


IndianFaceDatabase:


地址:

http://vis-www.cs.umass.edu/~vidit/IndianFaceDatabase/


耶魯人臉資料庫:


地址:

http://vision.ucsd.edu/content/yale-face-database


耶魯人臉資料庫 B:


地址:

http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html


Mut1ny 頭部/面部分割資料集:畫素超過 16K 的面部/頭部分割影象


地址:

http://www.mut1ny.com/face-headsegmentation-dataset


——我是深度學習影片的分割線——


影片資料集


Youtube-8M:用於影片理解研究的大型多樣化標記影片資料集。


地址:

https://research.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html


文字資料集


20 newsgroups:分類任務,將出現的單詞對映到新聞組 ID。用於文字分類的經典資料集之一,通常可用作純分類的基準或任何 IR /索引演演算法的驗證。


地址:

http://qwone.com/~jason/20Newsgroups/


路透社新聞資料集:(較舊)純粹基於分類的資料集,包含來自新聞專線的文字。常用於教程。


地址:

https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection


賓州樹庫:用於下一個單詞或字元預測。


地址:

http://www.cis.upenn.edu/~treebank/


UCI‘s Spambase:來自著名的 UCI 機器學習庫的(舊版)經典垃圾郵件資料集。根據資料集的組織細節,可以將它作為學習私人垃圾郵件過濾的基線。


地址:

https://archive.ics.uci.edu/ml/datasets/Spambase


Broadcast News:大型文字資料集,通常用於下一個單詞預測。


地址:

http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S44


文字分類資料集:來自 Zhang et al., 2015。用於文字分類的八個資料集合集。這些是用於新文字分類基線的基準。樣本大小從 120K 至 3.6M 不等,範圍從二進位制到 14 個分類問題。資料集來自 DBPedia、亞馬遜、Yelp、Yahoo!和 AG。


地址:https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M


WikiText:來自維基百科高質量文章的大型語言建模語料庫,由 Salesforce MetaMind 策劃。


地址:

http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/


SQuAD:斯坦福問答資料集——應用廣泛的問答和閱讀理解資料集,其中每個問題的答案都以文字形式呈現。


地址:

https://rajpurkar.github.io/SQuAD-explorer/


Billion Words 資料集:一種大型通用語言建模資料集。通常用於訓練分散式單詞表徵,如 word2vec。


地址:

http://www.statmt.org/lm-benchmark/


Common Crawl:網路的位元組級抓取——最常用於學習單詞嵌入。可從 Amazon S3 上免費獲取。也可以用作網路資料集,因為它可在全球資訊網進行抓取。


地址:

http://commoncrawl.org/the-data/


Google Books Ngrams:來自 Google book 的連續字元。當單詞首次被廣泛使用時,提供一種簡單的方法來探索。


地址:

https://aws.amazon.com/datasets/google-books-ngrams/


Yelp 開源資料集:Yelp 資料集是用於 NLP 的 Yelp 業務、評論和使用者資料的子集。


地址:

https://www.yelp.com/dataset


——我是深度學習文字的分割線——


問答資料集


Maluuba News QA 資料集:CNN 新聞文章中的 12 萬個問答對。


地址:

https://datasets.maluuba.com/NewsQA


Quora 問答對:Quora 釋出的第一個資料集,包含重覆/語意相似性標簽。


地址:

https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs


CMU Q / A 資料集:手動生成的模擬問/答對,維基百科文章對其難度評分很高。


地址:

http://www.cs.cmu.edu/~ark/QA-data/


Maluuba 面向標的的對話:程式性對話資料集,對話旨在完成任務或做出決定。常用於聊天機器人。


地址:

https://datasets.maluuba.com/Frames


bAbi:來自 Facebook AI Research(FAIR)的綜合閱讀理解和問答資料集。


地址:

https://research.fb.com/projects/babi/


The Children’s Book Test:Project Gutenberg 提供的兒童圖書中提取的(問題+背景、答案)對的基線。用於問答(閱讀理解)和模擬查詢。


地址:

http://www.thespermwhale.com/jaseweston/babi/CBTest.tgz


情感資料集


多領域情緒分析資料集:較舊的學術資料集。


地址:

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/


IMDB:用於二元情感分類的較舊、較小資料集。對文獻中的基準測試無法支援更大的資料集。


地址:

http://ai.stanford.edu/~amaas/data/sentiment/


Stanford Sentiment Treebank:標準情感資料集,在每個句子解析樹的每個節點都有細粒度的情感註釋。


地址:

http://nlp.stanford.edu/sentiment/code.html


推薦和排名系統


Movielens:來自 Movielens 網站的電影評分資料集,各類大小都有。


地址:

https://grouplens.org/datasets/movielens/


Million Song 資料集:Kaggle 上元資料豐富的大型開源資料集,可以幫助人們使用混合推薦系統。


地址:

https://www.kaggle.com/c/msdchallenge


Last.fm:音樂推薦資料集,可訪問深層社交網路和其它可用於混合系統的元資料。


地址:

http://grouplens.org/datasets/hetrec-2011/


Book-Crossing 資料集:來自 Book-Crossing 社群。包含 278,858 位使用者提供的約 271,379 本書的 1,149,780 個評分。


地址:

http://www.informatik.uni-freiburg.de/~cziegler/BX/


Jester:來自 73,421 名使用者對 100 個笑話的 410 萬個連續評分(分數從-10 至 10)。


地址:

http://www.ieor.berkeley.edu/~goldberg/jester-data/


Netflix Prize:Netflix 釋出了他們的電影評級資料集的匿名版;包含 480,000 名使用者對 17,770 部電影的 1 億個評分。首個主要的 Kaggle 風格資料挑戰。隨著隱私問題的出現,只能提供非正式版。


地址:

http://www.netflixprize.com/


——我是深度學習圖表的分割線——


網路和圖形


Amazon Co-Purchasing:亞馬遜評論從“購買此產品的使用者也購買了……”這一部分抓取資料,以及亞馬遜相關產品的評論資料。適合在網路中試行推薦系統。


地址:

http://snap.stanford.edu/data/#amazon


Friendster 社交網路資料集:在變成遊戲網站之前,Friendster 以朋友串列的形式為 103,750,348 名使用者釋出了匿名資料。


地址:

https://archive.org/details/friendster-dataset-201107


語音資料集


2000 HUB5 English:最近在 Deep Speech 論文中使用的英語語音資料,從百度獲取。


地址:

https://catalog.ldc.upenn.edu/LDC2002T43


LibriSpeech:包含文字和語音的有聲讀物資料集。由多個朗讀者閱讀的近 500 小時的各種有聲讀物演講內容組成,包含帶有文字和語音的章節。


地址:

http://www.openslr.org/12/


VoxForge:帶口音的清晰英語語音資料集。適用於提升不同口音或語調魯棒性的案例。


地址:

http://www.voxforge.org/


TIMIT:英語語音識別資料集。


地址:

https://catalog.ldc.upenn.edu/LDC93S1


CHIME:嘈雜的語音識別挑戰資料集。資料集包含真實、模擬和乾凈的錄音。真實錄音由 4 個揚聲器在 4 個嘈雜位置的近 9000 個錄音構成,模擬錄音由多個語音環境和清晰的無噪聲錄音結合而成。


地址:

http://spandh.dcs.shef.ac.uk/chime_challenge/data.html


TED-LIUM:TED 演講的音訊轉錄。1495 個 TED 演講錄音以及這些錄音的文字轉錄。


地址:

http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus


——我是深度學習音訊的分割線——


音符音樂資料集


Piano-midi.de: 古典鋼琴曲


地址:

http://www.piano-midi.de/


Nottingham : 超過 1000 首民謠


地址:

http://abc.sourceforge.net/NMD/


MuseData: 古典音樂評分的電子圖書館


地址:

http://musedata.stanford.edu/


JSB Chorales: 四部協奏曲


地址:

http://www.jsbchorales.net/index.shtml


其它資料集


CMU 動作抓取資料集


地址:

http://mocap.cs.cmu.edu/


Brodatz dataset:紋理建模。


地址:

http://www.ux.uis.no/~tranden/brodatz.html


來自歐洲核子研究中心的大型強子對撞機(LHC)的 300TB 高質量資料。


地址:

http://opendata.cern.ch/search?ln=en&p;=Run2011A+AND+collection:CMS-Primary-Datasets+OR+collection:CMS-Simulated-Datasets+OR+collection:CMS-Derived-Datasets


紐約出租車資料集:由 FOIA 請求而獲得的紐約出租車資料,導致隱私問題。


地址:

http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml


Uber FOIL 資料集:來自 Uber FOIL 請求的紐約 4.5M 拾取資料。


地址:

https://github.com/fivethirtyeight/uber-tlc-foil-response


Criteo 點選量資料集:來自歐盟重新定位的大型網際網路廣告資料集。


地址:

http://research.criteo.com/outreach/


健康 &生物資料


歐盟傳染病監測圖集:


地址:

http://ecdc.europa.eu/en/data-tools/atlas/Pages/atlas.aspx


默克分子活動挑戰:


地址:

http://www.kaggle.com/c/MerckActivity/data


Musk dataset: Musk dataset 描述了以不同構造出現的分子。每個分子都是 musk 或 non-musk,且其中一個構造決定了這一特性。


地址:

https://archive.ics.uci.edu/ml/datasets/Musk+(Version+2)


政府&統計資料


Data USA: 最全面的視覺化美國公共資料。


地址:

http://datausa.io/


歐盟性別統計資料庫:


地址:

http://eige.europa.eu/gender-statistics


荷蘭國家地質研究資料 :


地址:

http://www.nationaalgeoregister.nl/geonetwork/srv/dut/search#fast=index&from;=1&to;=50&any;_OR_geokeyword_OR_title_OR_keyword=landinrichting*&relation;=within


聯合國開發計劃署專案:


地址:

http://open.undp.org/#2016

轉自:機器之心;

END

版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。


關聯閱讀:

原創系列文章:

1:從0開始搭建自己的資料運營指標體系(概括篇)

2 :從0開始搭建自己的資料運營指標體系(定位篇)

3 :從0開始搭建自己的資料運營體系(業務理解篇)

4 :資料指標的構建流程與邏輯

5 :系列 :從資料指標到資料運營指標體系

6:   實戰 :為自己的公號搭建一個資料運營指標體系

7:  從0開始搭建自己的資料運營指標體系(運營活動分析)

資料運營 關聯文章閱讀:  

運營入門,從0到1搭建資料分析知識體系    

推薦 :資料分析師與運營協作的9個好習慣

乾貨 :手把手教你搭建資料化使用者運營體系

推薦 :最用心的運營資料指標解讀

乾貨 : 如何構建資料運營指標體系

從零開始,構建資料化運營體系

乾貨 :解讀產品、運營和資料三個基友關係

乾貨 :從0到1搭建資料運營體系

資料分析、資料產品 關聯文章閱讀:

乾貨 :資料分析團隊的搭建和思考

關於使用者畫像那些事,看這一文章就夠了

資料分析師必需具備的10種分析思維。

如何構建大資料層級體系,看這一文章就夠了

乾貨 : 聚焦於使用者行為分析的資料產品

如何構建大資料層級體系,看這一文章就夠了

80%的運營註定了打雜?因為你沒有搭建出一套有效的使用者運營體系

從底層到應用,那些資料人的必備技能

讀懂使用者運營體系:使用者分層和分群

做運營必須掌握的資料分析思維,你還敢說不會做資料

合作請加qq:365242293  


更多相關知識請回覆:“ 月光寶盒 ”;

資料分析(ID : ecshujufenxi )網際網路科技與資料圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟改寫5000萬人群。

贊(0)

分享創造快樂