資源 | 25個深度學習開源資料集，have fun !-知識星球

作者：PRANAV DAR 翻譯：Nicola 校對：馮羽

本文共4000字，建議閱讀8分鐘。
本文介紹了影象處理，自然語言處理，以及音訊/語音處理三類25個開源資料集。

簡介

深度學習（或生活中的大部分領域）的關鍵是演練。演練各種問題-從影象處理到語音識別。每個問題都有其獨特的細微差別和方法。

但是，哪裡可以獲得這些資料？現今你看到的很多研究論文都使用通常不向公眾開放的專有資料集。而這成為瞭如果你學習並應用你新掌握的技能的阻礙。

如果你也遇到此問題，我們有解決方案提供給你。我們挑選了一系列公開可用的資料集供各位詳細閱讀。

在本文中，我們列出了一系列高質量的資料集，每個深度學習愛好者都可以應用和改進他們的技能。使用這些資料集將使你成為一名更好的資料科學家，同時你所學到的知識將對你的職業生涯產生無價的幫助。我們還收錄了具有最新技術（SOTA）結果的論文供你瀏覽並改進你的模型。

如何使用這些資料集

首先要做的事-這些資料集的容量相當大！所以請確保你的網路是高速的、不限流量或有很多流量地下載資料。

有很多種可以使用這些資料集的方式。你可以使用它們來應用各種深度學習技巧。也可以使用它們來磨練你的技能，瞭解如何識別和構建每個問題，思考獨特的使用案例並展示給所有人你的發現，讓大家都可以看到！

這些資料集分為三類-影象處理，自然語言處理，以及音訊/語音處理。

讓我們開始更深入的瞭解！

影象處理

MNIST

MNIST是最受歡迎的深度學習資料集之一。這是一個手寫數字資料集，包含一組60,000個示例的訓練集和一組10,000個示例的測試集。這是一個對於在實際資料中嘗試學習技術和深度識別樣式的很好的資料庫，同時嘗試學習如何在資料預處理中花費最少的時間和精力。

大小：〜50 MB

記錄數量：分為10個類別的70，000個圖片

SOTA：Dynamic Routing Between Capsules

MS-COCO

COCO是一個規模大且豐富的物體檢測，分割和字幕資料集。它有幾個特點：

物體分割
文中識別
超畫素物質分割
330K影象（> 200K標記）
150萬個物體實體
80個物體類別
91個物質類別
每張圖片5個字幕
250,000有關鍵點的人

大小：〜25 GB（壓縮）

記錄數量：330K影象，80個物體類別，每幅影象5個字幕，250，000個有關鍵點的人

SOTA:Mask R-CNN

ImageNet

ImageNet是依據WordNet層次結構組織的影象資料集。WordNet包含大約100,000個短語，ImageNet提供了平均大約1000個影象來說明每個短語。

大小：〜150GB

記錄數量：影象總數：〜1,500,000;每個都有多個邊界框和相應的類標簽

SOTA：Aggregated Residual Transformations for Deep Neural Networks

Open Images Dataset

Open Images是一個包含近900萬個影象URL的資料集。這些影象已經用數千個類別的影象級標簽邊框進行了註釋。該資料集包含9,011,219張影象的訓練集，41,260張影象的驗證集以及125,436張影象的測試集。

大小：500 GB（壓縮）

記錄數量：9,011,219張超過5k標簽的影象

SOTA：Resnet 101影象分類模型（在V2資料上訓練）：Model checkpoint, Checkpoint readme, Inference code.

VisualQA

VQA是一個包含有關影象的開放式問題的資料集。這些問題需要理解是視覺和語言。這個資料集有一些有趣的特點：

265,016張圖片（COCO和抽象場景）
每張圖片至少有3個問題（平均5.4個問題）
每個問題10個基於事實答案
每個問題3個似乎合理（但看起來不正確）的答案
自動評估指標

大小：25 GB（壓縮）

記錄數量：265,016張圖片，每張圖片至少3個問題，每個問題10個基於事實答案

SOTA:Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

The Street View House Numbers (SVHN)

這是用於開發物體檢測演演算法的真實世界影象資料集。這些只需要最少的資料預處理。它與本串列中提到的MNIST資料集類似，但擁有更多標簽資料（超過600,000個影象）。這些資料是從谷歌街景中檢視的房屋號碼中收集的。

大小：2.5 GB

記錄數量：10個課程中的6,30,420張圖片

SOTA:Distributional Smoothing With Virtual Adversarial Training

CIFAR-10

這是另一個影象分類的資料集。它包含了10個類別的60,000個影象（每個類在上圖中表示為一行）。總共有50,000個訓練影象和10,000個測試影象。資料集分為6個部分- 5個培訓批次和1個測試批次。每批有10,000個影象。

大小：170 MB

記錄數量：10個類別的60,000張圖片

SOTA:ShakeDrop regularization

Fashion-MNIST

Fashion-MNIST包含60,000個訓練影象和10,000個測試影象。它是一個類似MNIST的時尚產品資料庫。開發人員認為MNIST已被過度使用，因此他們將其作為MNIST的直接替代品。每張圖片都以灰度顯示，並與10個類別的標簽相關聯。

大小：30 MB

記錄數量：10個類別的70,000張圖片

SOTA:Random Erasing Data Augmentation

自然語言處理

IMDB Reviews

這是一個電影愛好者的夢寐以求的資料集。它意味著二元情感分類，並具有比此領域以前的任何資料集更多的資料。除了訓練和測試評估示例之外，還有更多未標記的資料可供使用。包括文字和預處理的詞袋格式。

大小：80 MB

記錄數量：25,000個高度差異化的電影評論用於訓練，25,000個測試

SOTA：Learning Structured Text Representations

Twenty Newsgroups

顧名思義，該資料集包含有關新聞組的資訊。為了選擇這個資料集，從20個不同的新聞組中挑選了1000篇新聞文章。這些文章具有一定特徵，如主題行，簽名和取用。

大小：20 MB

記錄數量：來自20個新聞組的20,000條訊息

DOTA:Very Deep Convolutional Networks for Text Classification

Sentiment140

Sentiment140是一個可用於情感分析的資料集。一個流行的資料集，非常適合開始你的NLP旅程。情緒已經從資料中預先移除。最終的資料集具有以下6個特徵：

推文的極性
推文的ID
推文的日期
問題
推文的使用者名稱
推文的文字

大小：80 MB（壓縮）

記錄數量：160,000條推文

SOTA:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets

WordNet

在上面的ImageNet資料集中提到，WordNet是一個很大的英文同義詞集。同義詞集是每個都描述了不同的概念的同義片語。WordNet的結構使其成為NLP非常有用的工具。

大小：10 MB

記錄數量：117,000個同義詞集透過少量“概念關係”與其他同義詞集相關聯。

SOTA:Wordnets: State of the Art and Perspectives

Yelp Reviews

這是Yelp為了學習目的而釋出的一個開源資料集。它包含了由數百萬使用者評論，商業屬性和來自多個大都市地區的超過20萬張照片。這是一個非常常用的全球NLP挑戰資料集。

大小：2.66 GB JSON，2.9 GB SQL和7.5 GB照片（全部壓縮）

記錄數量：5,200,000條評論，174,000條商業屬性，20萬張圖片和11個大都市區

SOTA：Attentive Convolution

The Wikipedia Corpus

這個資料集是維基百科全文的集合。它包含來自400多萬篇文章的將近19億字。使得這個成為強大的NLP資料集的是你可以透過單詞，短語或段落本身的一部分進行搜尋。

大小：20 MB

記錄數量：4,400,000篇文章，19億字

SOTA:Breaking The Softmax Bottelneck: A High-Rank RNN language Model

The Blog Authorship Corpus

這個資料集包含了從blogger.com收集的數千名博主的部落格帖子。每個部落格都作為一個單獨的檔案提供。每個部落格至少包含200個常用英語單詞。

大小：300 MB

記錄數量：681,288個帖子，超過1.4億字

SOTA:Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution

Machine Translation of Various Languages

此資料集包含四種歐洲語言的訓練資料。這裡的任務是改進當前的翻譯方法。您可以參加以下任何語言組合：

英語-漢語和漢語-英語
英語-捷克語和捷克語-英語
英語-愛沙尼亞語和愛沙尼亞語-英語
英語-芬蘭語和芬蘭語-英語
英語-德語和德語-英語
英語-哈薩克語和哈薩克語-英語
英文-俄文和俄文-英文
英語-土耳其語和土耳其語-英語

大小：〜15 GB

記錄數量：約30,000,000個句子及其翻譯

SOTA:Attention Is All You Need

音訊/語音處理

Free Spoken Digit Dataset

此串列中的另一個被MNIST啟發而建立的資料集！這是為瞭解決識別音訊樣本中的口頭數字而建立。這是一個開源資料集，所以希望隨著人們繼續貢獻更多樣本幫助它不斷成長。目前，它包含以下特點：

3個說話者
1500個錄音（每個數字每個說話者讀50個）
英語發音

大小：10 MB

記錄數量：1500個音訊樣本

SOTA:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures

Free Music Archive (FMA)

FMA是一個音樂分析的資料集。資料集包括了完整長度和HQ音訊，預先計算的特徵，以及音軌和使用者級元資料。它是一個用於評估MIR中的一些任務的開源資料集。下麵是資料集的csv檔案串列以及它們包含的內容：

tracks.csv：每首曲目元資料，如ID，標題，藝術家，流派，標簽和播放次數，共106,574首曲目
genres.csv：所有163種風格的ID與他們的名字和起源（用於推斷流派層次和頂級流派）。
features.csv：用 librosa提取的常用特徵。
echonest.csv：由 Echonest(現在的Spotify)提供的為13,129首音軌的子集的音訊功能。

大小：〜1000 GB

記錄數量：約100,000軌道

SOTA:Learning to Recognize Musical Genre from Audio

Ballroom

該資料集包含舞池跳舞音訊檔案。以真實音訊格式提供了許多舞蹈風格的一些特徵摘錄。以下是資料集的一些特點：

實體總數：698
持續時間：約30秒
總持續時間：約20940秒

大小：14GB（壓縮）

記錄數量：約700個音訊樣本

SOTA:A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles

Million Song Dataset

Million Song Dataset是免費的一百萬首當代流行音樂曲目的音訊特徵和元資料集合。其目的是：

鼓勵對擴大到商業規模的演演算法進行研究
為評估研究提供參考資料集
作為使用API建立大型資料集的捷徑（例如The Echo Nest）
幫助新研究人員在MIR領域開始工作

資料集的核心是一百萬首歌曲的特徵分析和元資料。這個資料集不包含任何音訊，只是派生的功能。示例音訊可以透過使用哥倫比亞大學提供的code從7digital等服務中獲取。

大小：280 GB

記錄數量：PS – 它的一百萬首歌曲！

SOTA:Preliminary Study on a Recommender System for the Million Songs Dataset Challenge

LibriSpeech

該資料集是大約1000小時的英語演講的大型語料庫。這些資料來自LibriVox專案的有聲讀物。它們已被分割並適當對齊。如果您正在尋找一個起點，請檢視在kaldi-asr.org和語言模型上進行了訓練了的已準備好的聲學模型，這些模型適合在http://www.openslr.org/11/進行評測。

大小：〜60 GB

記錄數量：1000小時的演講

SOTA:Letter-Based Speech Recognition with Gated ConvNets

VoxCeleb

VoxCeleb是一個大規模演講者識別資料集。它包含了來自YouTube影片的約1,251位知名人士的約10萬個話語。資料大部分是性別平衡的（男性佔55％）。這些名人橫跨不同的口音，職業和年齡。開發和測試集之間沒有重疊。對於獨立和識別哪個超級巨星的音訊來說，這是一個有趣的使用案例。

大小：150 MB

記錄數量：1,251位名人的100,000條話語

SOTA:VoxCeleb: a large-scale speaker identification dataset

分析Vidhya實踐問題：為了您的練習，我們還提供實際生活問題和資料集讓你可以實際演練。在本節中，我們列舉了在我們DataHack平臺上的深度學習實踐問題。

Twitter Sentiment Analysis

仇恨型演講以種族主義和性別歧視為形式的言論已成為推特上的麻煩事，重要的是將這類推文與其他的分開。在這個實際問題中，我們同時提供正常的和仇恨型推文的推特資料。你作為資料科學家的任務是確定哪些推文是仇恨型推文，哪些不是。

大小：3 MB

記錄數量：31,962條推文

Age Detection of Indian Actors

對於任何深度學習愛好者來說，這是一個令人著迷的挑戰。該資料集包含數千個印度演員的影象，你的任務是確定他們的年齡。所有影象都是手動選擇，並從影片幀中剪下的，這使得尺度，姿勢，表情，照度，年齡，解析度，遮擋和化妝的高度幹擾性。

大小：48 MB（壓縮）

記錄數量：訓練集中的19,906幅影象和測試集中的6636幅影象

SOTA：Hands on with Deep Learning – Solution for Age Detection Practice Problem

Urban Sound Classification

這個資料集包含超過8000個來自10個類別的城市聲音摘錄。這個實踐問題是為了在向您介紹常見分類方案中的音訊處理。

大小：訓練集-3 GB（壓縮），測試集- 2 GB（壓縮）

記錄數量：來自10個類別的8732個城市聲音標註的聲音片段（<= 4s）

如果您知道其他開源資料集，可以用來推薦其他人開始他們的深度學習/非結構化資料集之旅，請隨時把它們推薦給我們並附上應該包括這些資料集的原因。

如果原因很好，我會把它們列入清單。我們非常歡迎您在評論區域讓我們知道使用這些資料集的經驗。最後祝大家學習愉快！

原文標題：25 Open Datasets for Deep Learning Every Data Scientist Must Work With

原文連結：https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/

譯者簡介:陳之炎，北京交通大學通訊與控制工程專業畢業，獲得工學碩士學位，歷任長城計算機軟體與系統公司工程師，大唐微電子公司工程師，現任北京吾譯超群科技有限公司技術支援。目前從事智慧化翻譯教學系統的運營和維護，在人工智慧深度學習和自然語言處理（NLP）方面積累有一定的經驗。業餘時間喜愛翻譯創作，翻譯作品主要有：IEC-ISO 7816、伊拉克石油工程專案、新財稅主義宣言等等，其中中譯英作品“新財稅主義宣言”在GLOBAL TIMES正式發表。

END

版權宣告：本號內容部分來自網際網路，轉載請註明原文連結和作者，如有侵權或出處有誤請和我們聯絡。

關聯閱讀：

原創系列文章：

1：從0開始搭建自己的資料運營指標體系（概括篇）

2 ：從0開始搭建自己的資料運營指標體系（定位篇）

3 ：從0開始搭建自己的資料運營體系（業務理解篇）

4 ：資料指標的構建流程與邏輯

5 ：系列：從資料指標到資料運營指標體系

6: 實戰：為自己的公號搭建一個資料運營指標體系

7: 從0開始搭建自己的資料運營指標體系（運營活動分析）

資料運營關聯文章閱讀：