資料科學專案為你在這個領域的深入研究提供了一個基礎。透過實際應用,你不僅可以學習資料科學,也能夠寫在簡歷中提升你的資歷。在這上邊花費的時間越多,你學到的知識就越多。
初級——這部分的資料集很容易處理,使用基礎的回歸/分類演演算法就可以處理這些資料集。並且,這些資料集有足夠的教程供你學習。
中級——略微有點難度。包含了需要使用有點難度的樣式識別技能來處理的大中型資料集。另外,特徵工程在這裡可以發揮作用了。
高階——包括神經網路、深度學習、推薦系統及高維資料等。
1.Iris Data資料集(花的類別識別)
Iris Data Set可能是樣式識別領域學習分類技術最基本入門級的資料集,適合初學者。該資料集裡麵包含了150行4列個資料。
問題: 根據已有特徵預測花的類別。
資源:
資料集:https://archive.ics.uci.edu/ml/datasets/Iris?spm=a2c4e.11153940.blogcont603256.5.333b1d6f05ZggC
教程:http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r?spm=a2c4e.11153940.blogcont603256.6.333b1d6f05ZggC
2.Loan Prediction 資料集(貸款預測)
它是保險領域最常取用的一個資料集。利用這個資料集,你可以充分體驗到如何處理保險公司的資料,包括會遇到哪些挑戰、需要什麼策略、哪些變數會影響結果等。這是一個分類問題,資料集包含615行13列個資料。
問題: 預測一個貸款是否能夠被批准。
資源:
資料集:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/?spm=a2c4e.11153940.blogcont603256.7.333b1d6fYOsiOK
教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/?spm=a2c4e.11153940.blogcont603256.8.333b1d6fYOsiOK
3. Bigmart Sales 資料集(零售業銷售)
零售業是另一個充分利用資料分析最佳化商業流程的行業。我們可以利用資料科學對商品的放置、庫存管理、定製供應、商品捆綁等任務進行巧妙的處理。該資料集包含了商店的交易資料,是一個回歸問題,共包含8523行12列個資料。
問題:預測銷量。
資源:
資料集:https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/?spm=a2c4e.11153940.blogcont603256.9.333b1d6fYOsiOK
教程: https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/?spm=a2c4e.11153940.blogcont603256.10.333b1d6fYOsiOK
4. Boston Housing 資料集(波士頓房屋)
這是另一個樣式識別領域較為常見的資料集,來自於波士頓的房地產業,是一個回歸問題,資料集有506行14列個資料。這個資料集並不大,你可以嘗試使用任何技術,而不用擔心筆記本的記憶體不夠。
問題:預測業主擁有房屋數量的中間值。
資源:
資料集:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html?spm=a2c4e.11153940.blogcont603256.11.333b1d6fYOsiOK
教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/?spm=a2c4e.11153940.blogcont603256.12.333b1d6fYOsiOK
5. Time Series Analysis資料集(時間序列分析)
時間序列是資料科學中最常用的技術之一,具有廣泛的應用:預測天氣預報、預測銷售額、分析逐年趨勢等。該資料集特定於時間序列,這裡面臨的挑戰是預測交通方式。
問題:預測新的交通工具的交通。
資源:
資料集: https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/?spm=a2c4e.11153940.blogcont603256.13.333b1d6fYOsiOK
教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about?spm=a2c4e.11153940.blogcont603256.14.333b1d6fYOsiOK
6. Wine Quality資料集(酒質量)
這是初學者最常用的資料集之一,分成了2個資料集。在這個資料集上可以同時執行回歸和分類任務——異常值檢測、特徵選擇和不平衡資料。該資料集有4898行和12列個資料。
問題:預測酒的質量。
資源:
資料集: https://archive.ics.uci.edu/ml/datasets/Wine+Quality?spm=a2c4e.11153940.blogcont603256.15.333b1d6fYOsiOK
教程:https://archive.ics.uci.edu/ml/datasets/Wine+Quality?spm=a2c4e.11153940.blogcont603256.15.333b1d6fYOsiOK
7. Turkiye Student Evaluation 資料集(學生課程評估)
該資料集基於學生填寫不同課程的評估表,擁有不同的屬性,包括出勤率、難度、分數等,是一個無監督學習問題。該資料集有5820行33列個資料。
問題:使用分類和聚類解決問題。
資源:
資料集 : https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps:/archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation?spm=a2c4e.11153940.blogcont603256.17.333b1d6fYOsiOK
教程: https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf?spm=a2c4e.11153940.blogcont603256.18.333b1d6fYOsiOK&file;=LA_EdMining_SanghoSuh.pdf
8.Heights and Weights 資料集(身高體重預測)
這是一個相當直接的回歸問題,非常適合新手。該資料集有25,000行3列(索引、高度和權重)個資料。
問題:預測一個人的身高或體重。
資源:
資料集:http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights?spm=a2c4e.11153940.blogcont603256.19.333b1d6fYOsiOK
教程:https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html?spm=a2c4e.11153940.blogcont603256.20.333b1d6fYOsiOK
1. Black Friday資料集(黑色星期五)
這是一個包含零售商店記錄的銷售交易的經典資料集,可以擴充套件特徵工程的技能,並從每天的購物經驗中對其進行理解,是一個回歸問題。該資料集有550,069行12列個資料。
問題:預測購買力。
教程:
資料集:https://datahack.analyticsvidhya.com/contest/black-friday/?spm=a2c4e.11153940.blogcont603256.21.333b1d6fYOsiOK
教程:https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986?spm=a2c4e.11153940.blogcont603256.22.333b1d6fYOsiOK
2. Human Activity Recognition 資料集(人類活動識別)
該資料集透過帶有嵌入式慣性感測器的智慧手收集了30個實驗者的記錄,可用於分類問題。資料集有10,299行561列個資料。
問題:預測人類活動的類別。
資源:
資料集:http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones?spm=a2c4e.11153940.blogcont603256.23.333b1d6fYOsiOK
教程: https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html?spm=a2c4e.11153940.blogcont603256.24.333b1d6fYOsiOK
3. Text Mining資料集(文字挖掘)
該資料集最初來自於2007年Siam文字挖掘競賽,包括描述某些發生故障的航班的航空安全報告,是一個多分類和高維度問題。該資料集有21,519行30,438列個資料。
問題:根據文字標簽對文字進行分類。
資源:
資料集:https://yq.aliyun.com/articles/603256?spm=a2c4e.11153959.0.0.112a2dc6bqmpJ9#siam-competition2007
教程:https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf?spm=a2c4e.11153940.blogcont603256.26.333b1d6fYOsiOK&file;=Survey%20of%20Text%20Mining%202%20.pdf
4. Trip History資料集(旅行歷史)
此資料集來自美國的共享腳踏車服務。該資料集需要使用專業的資料處理技術,該資料集種的資料是從2010年第四季度開始按季度記錄的。每個檔案有7列是一個分類問題。
問題:預測使用者的類別。
資源:
資料集:https://www.capitalbikeshare.com/trip-history-data?spm=a2c4e.11153940.blogcont603256.27.333b1d6fYOsiOK
教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/?spm=a2c4e.11153940.blogcont603256.28.333b1d6fYOsiOK
5. Million Song資料集(預測歌曲發行時間)
你知道資料科學現在也用於娛樂行業嗎?這個資料集提出了一個回歸任務,由515,345個觀察值和90個變陣列成。但是,這僅僅是原始資料庫(約一百萬首歌曲)中的一小部分。
問題:預測歌曲的發行時間。
資源:
資料集 :http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD?spm=a2c4e.11153940.blogcont603256.29.333b1d6fYOsiOK
教程:http://www-personal.umich.edu/~yjli/content/projectreport.pdf?spm=a2c4e.11153940.blogcont603256.30.333b1d6fYOsiOK&file;=projectreport.pdf
6.Census Income資料集(預測人口收入)
這是一個經典的不平衡分類機器學習問題。現在,機器學習廣泛應用於正被廣泛用於解決不平衡問題,如癌症檢測、欺詐檢測等。該資料集有48,842行14列個資料。
問題:預測美國人的收入水平。
資源:資料集:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/?spm=a2c4e.11153940.blogcont603256.31.333b1d6fYOsiOK
教程:https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf?spm=a2c4e.11153940.blogcont603256.32.333b1d6fYOsiOK&file;=048.pdf
7. Movie Lens資料集(電影推薦系統)
用於構建推薦系統,該資料集是資料科學行業中最受歡迎的“資料集”之一,有不同大小的資料集。這裡有一個較小的資料集,包含4,000部電影,6000個使用者的100萬個收視率。
問題:為使用者推薦電影。
資源:
資料集:http://grouplens.org/datasets/movielens/1m/?spm=a2c4e.11153940.blogcont603256.33.333b1d6fYOsiOK
教程:https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/?spm=a2c4e.11153940.blogcont603256.34.333b1d6fYOsiOK
8. Twitter Classification資料集(預測推文)
Twitter資料已成為情感分析不可分割的一部分。該資料集大小為3MB,包含31,962條推文。
問題:預測哪些推文是令人討厭的,哪些不是。
資源:
資料集:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/?spm=a2c4e.11153940.blogcont603256.35.333b1d6fYOsiOK
教程:https://github.com/abdulfatir/twitter-sentiment-analysis?spm=a2c4e.11153940.blogcont603256.36.333b1d6fYOsiOK
1.識別數字的資料集
用於研究、分析和識別影象中的元素,這就是使用相機識別面部的技術,屬於數字識別問題。該資料集有28,000個28*28大小的影象,總計31MB。
問題:從影象中識別數字。
資源:
資料集:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/?spm=a2c4e.11153940.blogcont603256.37.333b1d6fYOsiOK
教程:https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/?spm=a2c4e.11153940.blogcont603256.38.333b1d6fYOsiOK
2.城市聲音分類
該專案旨在介紹常用的音訊分類問題。該資料集由10個類別(包含來自8,732個城市聲音的記錄)組成。
問題:對音訊進行分類。
資源:
資料集:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/?spm=a2c4e.11153940.blogcont603256.39.333b1d6fYOsiOK
教程:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/?spm=a2c4e.11153940.blogcont603256.40.333b1d6fYOsiOK
3. Vox名人資料集
音訊處理正迅速成為深度學習的重要領域,因此這是另一個具有挑戰性的問題。此資料集收集了大型演講者的演講,並從YouTube中提取的名人的講話。對於語音識別來說,這是一個很有趣的專案。該資料集包含1,251位名人發表的100,000條言論。
問題:找出聲音屬於哪個名人。
資源:
資料集:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/?spm=a2c4e.11153940.blogcont603256.41.333b1d6fYOsiOK
教程:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf?spm=a2c4e.11153940.blogcont603256.42.333b1d6fYOsiOK&file;=nagrani17.pdf
4. ImageNet資料集
ImageNet提供了各種各樣的問題,包括物件檢測、定位、分類和螢幕分析。 所有的影象都是免費的,你可以搜尋任何型別的影象來構建專案。截至目前,該資料集擁有超過1500萬張圖片,大小超過140GB。
問題:要解決的問題會受下載影象的型別影響。
資源:
資料集:http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.43.333b1d6fYOsiOK
教程:http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.44.333b1d6fYOsiOK
5.芝加哥犯罪資料集
現在,每個資料科學家都希望能夠處理大型資料集,是一個多分類問題。該資料集在本地提供了處理大型資料集所需的實踐經驗。問題很簡單,但資料管理是關鍵!這個資料集有6,000,000個觀測值。
問題:預測犯罪型別。
資源:
資料集:https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2?spm=a2c4e.11153940.blogcont603256.45.333b1d6fYOsiOK
教程:https://yq.aliyun.com/nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdfaceholder?spm=a2c4e.11153940.blogcont603256.46.333b1d6fYOsiOK&file;=ChicagoCrimesReport.pdfaceholder
6.印度演員年齡檢測
對於任何深度學習愛好者來說,這是一個令人著迷的挑戰。該資料集包含數千個印度演員的影象,用來預測其年齡。所有影象都是人工手動從影片幀中選取的,這就導致了尺度、姿勢、表情、照明、年齡、解析度、遮擋和化妝等的高度可變性。訓練集中有19,906幅影象,測試集中有6,636幅影象。
問題:預測演員的年齡。
資源:
資料集:http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.47.333b1d6fYOsiOK
教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/?spm=a2c4e.11153940.blogcont603256.48.333b1d6fYOsiOK
7.推薦引擎資料集
這是一項高階推薦系統挑戰賽。在這個專案中,你會得到以前解決的程式和資料,以及解決特定問題的時間。作為一名資料科學家,你構建的模型將協助線上評委決定向使用者推薦的下一級問題。
問題:根據使用者的當前狀態,預測解決問題所需要的時間。
資源:
資料庫:https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/?spm=a2c4e.11153940.blogcont603256.49.333b1d6fYOsiOK
8. VisualQA資料集
VisualQA是一個包含影象的開放式問題資料集。這些問題需要理解計算機視覺和語言,這些問題有一個自動評估指標。資料集包含265,016張圖片,每張圖片3個問題,且每個問題有10個標記好的答案。
問題:使用深度學習回答有關影象的開放式問題。
資源:
資料集:http://www.visualqa.org/?spm=a2c4e.11153940.blogcont603256.50.333b1d6fYOsiOK
教程:https://arxiv.org/abs/1708.02711?spm=a2c4e.11153940.blogcont603256.51.333b1d6fYOsiOK&file;=1708.02711
在上面列出的24個資料集中,你應該首先找到與自身技能相匹配的資料集進行實踐和練習。比如說,假如你是一位初學者,請先從初級資料集開始實踐,而不是直接從高階資料集開始練習。
本文由北郵@愛可可-愛生活 老師推薦,阿裡云云棲社群組織翻譯。
文章原標題《24 Ultimate Data Science Projects To Boost Your Knowledge and Skills (& can be accessed freely)》,譯者:Mags,審校:袁虎。
原文連結:https://yq.aliyun.com/articles/603256
版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。
關聯閱讀
原創系列文章:
資料運營 關聯文章閱讀:
資料分析、資料產品 關聯文章閱讀:
80%的運營註定了打雜?因為你沒有搭建出一套有效的使用者運營體系
商務合作|約稿 請加qq:365242293
更多相關知識請回覆:“ 月光寶盒 ”;
資料分析(ID : ecshujufenxi )網際網路科技與資料圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟改寫5000萬人群。