資料科學專案為你在這個領域的深入研究提供了一個基礎。透過實際應用，你不僅可以學習資料科學，也能夠寫在簡歷中提升你的資歷。在這上邊花費的時間越多，你學到的知識就越多。

初級——這部分的資料集很容易處理，使用基礎的回歸/分類演演算法就可以處理這些資料集。並且，這些資料集有足夠的教程供你學習。

中級——略微有點難度。包含了需要使用有點難度的樣式識別技能來處理的大中型資料集。另外，特徵工程在這裡可以發揮作用了。

高階——包括神經網路、深度學習、推薦系統及高維資料等。

初級

1.Iris Data資料集(花的類別識別)

Iris Data Set可能是樣式識別領域學習分類技術最基本入門級的資料集，適合初學者。該資料集裡麵包含了150行4列個資料。

問題: 根據已有特徵預測花的類別。

資源：

資料集：https://archive.ics.uci.edu/ml/datasets/Iris?spm=a2c4e.11153940.blogcont603256.5.333b1d6f05ZggC

教程：http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r?spm=a2c4e.11153940.blogcont603256.6.333b1d6f05ZggC

2.Loan Prediction 資料集(貸款預測)

它是保險領域最常取用的一個資料集。利用這個資料集，你可以充分體驗到如何處理保險公司的資料，包括會遇到哪些挑戰、需要什麼策略、哪些變數會影響結果等。這是一個分類問題，資料集包含615行13列個資料。

問題: 預測一個貸款是否能夠被批准。

資源：

資料集：https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/?spm=a2c4e.11153940.blogcont603256.7.333b1d6fYOsiOK

教程：https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/?spm=a2c4e.11153940.blogcont603256.8.333b1d6fYOsiOK

3. Bigmart Sales 資料集(零售業銷售)

零售業是另一個充分利用資料分析最佳化商業流程的行業。我們可以利用資料科學對商品的放置、庫存管理、定製供應、商品捆綁等任務進行巧妙的處理。該資料集包含了商店的交易資料，是一個回歸問題，共包含8523行12列個資料。

問題：預測銷量。

資源：

資料集：https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/?spm=a2c4e.11153940.blogcont603256.9.333b1d6fYOsiOK

教程： https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/?spm=a2c4e.11153940.blogcont603256.10.333b1d6fYOsiOK

4.Â Boston Housing 資料集(波士頓房屋)

這是另一個樣式識別領域較為常見的資料集，來自於波士頓的房地產業，是一個回歸問題，資料集有506行14列個資料。這個資料集並不大，你可以嘗試使用任何技術，而不用擔心筆記本的記憶體不夠。

問題：預測業主擁有房屋數量的中間值。

資源：

資料集：https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html?spm=a2c4e.11153940.blogcont603256.11.333b1d6fYOsiOK

教程：https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/?spm=a2c4e.11153940.blogcont603256.12.333b1d6fYOsiOK

5. Time Series Analysis資料集(時間序列分析)

時間序列是資料科學中最常用的技術之一，具有廣泛的應用：預測天氣預報、預測銷售額、分析逐年趨勢等。該資料集特定於時間序列，這裡面臨的挑戰是預測交通方式。

問題：預測新的交通工具的交通。

資源：

資料集: https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/?spm=a2c4e.11153940.blogcont603256.13.333b1d6fYOsiOK

教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about?spm=a2c4e.11153940.blogcont603256.14.333b1d6fYOsiOK

6. Wine Quality資料集(酒質量)

這是初學者最常用的資料集之一，分成了2個資料集。在這個資料集上可以同時執行回歸和分類任務——異常值檢測、特徵選擇和不平衡資料。該資料集有4898行和12列個資料。

問題：預測酒的質量。

資源：

資料集： https://archive.ics.uci.edu/ml/datasets/Wine+Quality?spm=a2c4e.11153940.blogcont603256.15.333b1d6fYOsiOK

教程：https://archive.ics.uci.edu/ml/datasets/Wine+Quality?spm=a2c4e.11153940.blogcont603256.15.333b1d6fYOsiOK

7.Â Turkiye Student Evaluation 資料集(學生課程評估)

該資料集基於學生填寫不同課程的評估表，擁有不同的屬性，包括出勤率、難度、分數等，是一個無監督學習問題。該資料集有5820行33列個資料。

問題：使用分類和聚類解決問題。

資源：

資料集 : https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps:/archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation?spm=a2c4e.11153940.blogcont603256.17.333b1d6fYOsiOK

教程: https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf?spm=a2c4e.11153940.blogcont603256.18.333b1d6fYOsiOK&file;=LA_EdMining_SanghoSuh.pdf

8.Heights and Weights 資料集(身高體重預測)

這是一個相當直接的回歸問題，非常適合新手。該資料集有25,000行3列(索引、高度和權重)個資料。

問題：預測一個人的身高或體重。

資源：

資料集：http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights?spm=a2c4e.11153940.blogcont603256.19.333b1d6fYOsiOK

教程：https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html?spm=a2c4e.11153940.blogcont603256.20.333b1d6fYOsiOK

中級

1. Black Friday資料集(黑色星期五)

這是一個包含零售商店記錄的銷售交易的經典資料集，可以擴充套件特徵工程的技能，並從每天的購物經驗中對其進行理解，是一個回歸問題。該資料集有550,069行12列個資料。

問題：預測購買力。

教程：

資料集：https://datahack.analyticsvidhya.com/contest/black-friday/?spm=a2c4e.11153940.blogcont603256.21.333b1d6fYOsiOK

教程：https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986?spm=a2c4e.11153940.blogcont603256.22.333b1d6fYOsiOK

2. Human Activity Recognition 資料集(人類活動識別)

該資料集透過帶有嵌入式慣性感測器的智慧手收集了30個實驗者的記錄，可用於分類問題。資料集有10,299行561列個資料。

問題：預測人類活動的類別。

資源：

資料集：http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones?spm=a2c4e.11153940.blogcont603256.23.333b1d6fYOsiOK

教程： https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html?spm=a2c4e.11153940.blogcont603256.24.333b1d6fYOsiOK

3. Text Mining資料集(文字挖掘)

該資料集最初來自於2007年Siam文字挖掘競賽，包括描述某些發生故障的航班的航空安全報告，是一個多分類和高維度問題。該資料集有21,519行30,438列個資料。

問題：根據文字標簽對文字進行分類。

資源：

資料集：https://yq.aliyun.com/articles/603256?spm=a2c4e.11153959.0.0.112a2dc6bqmpJ9#siam-competition2007

教程：https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf?spm=a2c4e.11153940.blogcont603256.26.333b1d6fYOsiOK&file;=Survey%20of%20Text%20Mining%202%20.pdf

4. Trip History資料集(旅行歷史)

此資料集來自美國的共享腳踏車服務。該資料集需要使用專業的資料處理技術，該資料集種的資料是從2010年第四季度開始按季度記錄的。每個檔案有7列是一個分類問題。

問題：預測使用者的類別。

資源：

資料集：https://www.capitalbikeshare.com/trip-history-data?spm=a2c4e.11153940.blogcont603256.27.333b1d6fYOsiOK

教程：https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/?spm=a2c4e.11153940.blogcont603256.28.333b1d6fYOsiOK

5. Million Song資料集(預測歌曲發行時間)

你知道資料科學現在也用於娛樂行業嗎?這個資料集提出了一個回歸任務，由515,345個觀察值和90個變陣列成。但是，這僅僅是原始資料庫(約一百萬首歌曲)中的一小部分。

問題：預測歌曲的發行時間。

資源：

資料集：http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD?spm=a2c4e.11153940.blogcont603256.29.333b1d6fYOsiOK

教程：http://www-personal.umich.edu/~yjli/content/projectreport.pdf?spm=a2c4e.11153940.blogcont603256.30.333b1d6fYOsiOK&file;=projectreport.pdf

6.Census Income資料集(預測人口收入)

這是一個經典的不平衡分類機器學習問題。現在，機器學習廣泛應用於正被廣泛用於解決不平衡問題，如癌症檢測、欺詐檢測等。該資料集有48,842行14列個資料。

問題：預測美國人的收入水平。

資源：資料集：http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/?spm=a2c4e.11153940.blogcont603256.31.333b1d6fYOsiOK

教程：https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf?spm=a2c4e.11153940.blogcont603256.32.333b1d6fYOsiOK&file;=048.pdf

7. Movie Lens資料集(電影推薦系統)

用於構建推薦系統，該資料集是資料科學行業中最受歡迎的“資料集”之一，有不同大小的資料集。這裡有一個較小的資料集，包含4,000部電影，6000個使用者的100萬個收視率。

問題：為使用者推薦電影。

資源：

資料集：http://grouplens.org/datasets/movielens/1m/?spm=a2c4e.11153940.blogcont603256.33.333b1d6fYOsiOK

教程：https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/?spm=a2c4e.11153940.blogcont603256.34.333b1d6fYOsiOK

8. Twitter Classification資料集(預測推文)

Twitter資料已成為情感分析不可分割的一部分。該資料集大小為3MB，包含31,962條推文。

問題：預測哪些推文是令人討厭的，哪些不是。

資源：

資料集：https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/?spm=a2c4e.11153940.blogcont603256.35.333b1d6fYOsiOK

教程：https://github.com/abdulfatir/twitter-sentiment-analysis?spm=a2c4e.11153940.blogcont603256.36.333b1d6fYOsiOK

高階

1.識別數字的資料集

用於研究、分析和識別影象中的元素，這就是使用相機識別面部的技術，屬於數字識別問題。該資料集有28,000個28*28大小的影象，總計31MB。

問題：從影象中識別數字。

資源：

資料集：https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/?spm=a2c4e.11153940.blogcont603256.37.333b1d6fYOsiOK

教程：https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/?spm=a2c4e.11153940.blogcont603256.38.333b1d6fYOsiOK

2.城市聲音分類

該專案旨在介紹常用的音訊分類問題。該資料集由10個類別(包含來自8,732個城市聲音的記錄)組成。

問題：對音訊進行分類。

資源：

資料集：https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/?spm=a2c4e.11153940.blogcont603256.39.333b1d6fYOsiOK

教程：https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/?spm=a2c4e.11153940.blogcont603256.40.333b1d6fYOsiOK

3. Vox名人資料集

音訊處理正迅速成為深度學習的重要領域，因此這是另一個具有挑戰性的問題。此資料集收集了大型演講者的演講，並從YouTube中提取的名人的講話。對於語音識別來說，這是一個很有趣的專案。該資料集包含1,251位名人發表的100,000條言論。

問題：找出聲音屬於哪個名人。

資源：

資料集：http://www.robots.ox.ac.uk/~vgg/data/voxceleb/?spm=a2c4e.11153940.blogcont603256.41.333b1d6fYOsiOK

教程：https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf?spm=a2c4e.11153940.blogcont603256.42.333b1d6fYOsiOK&file;=nagrani17.pdf

4. ImageNet資料集

ImageNet提供了各種各樣的問題，包括物件檢測、定位、分類和螢幕分析。所有的影象都是免費的，你可以搜尋任何型別的影象來構建專案。截至目前，該資料集擁有超過1500萬張圖片，大小超過140GB。

問題：要解決的問題會受下載影象的型別影響。

資源：

資料集：http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.43.333b1d6fYOsiOK

教程：http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.44.333b1d6fYOsiOK

5.芝加哥犯罪資料集

現在，每個資料科學家都希望能夠處理大型資料集，是一個多分類問題。該資料集在本地提供了處理大型資料集所需的實踐經驗。問題很簡單，但資料管理是關鍵!這個資料集有6,000,000個觀測值。

問題：預測犯罪型別。

資源：

資料集：https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2?spm=a2c4e.11153940.blogcont603256.45.333b1d6fYOsiOK

教程：https://yq.aliyun.com/nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdfaceholder?spm=a2c4e.11153940.blogcont603256.46.333b1d6fYOsiOK&file;=ChicagoCrimesReport.pdfaceholder

6.印度演員年齡檢測

對於任何深度學習愛好者來說，這是一個令人著迷的挑戰。該資料集包含數千個印度演員的影象，用來預測其年齡。所有影象都是人工手動從影片幀中選取的，這就導致了尺度、姿勢、表情、照明、年齡、解析度、遮擋和化妝等的高度可變性。訓練集中有19,906幅影象，測試集中有6,636幅影象。

問題：預測演員的年齡。

資源：

資料集：http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.47.333b1d6fYOsiOK

教程：https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/?spm=a2c4e.11153940.blogcont603256.48.333b1d6fYOsiOK

7.推薦引擎資料集