(本文由深度學習與NLP編譯)
本文主要整理了一些與推薦系統相關的高質量的資料集。整理自Stack Overflow、一些文章、推薦站點和學術實驗。其中,大多數資料集都是免費、開放的,但有些不是,需要獲得許可或取用作者的工作才能使用。此外,其中也包含一些預處理資料,可用於學術實驗。連結和資料集描述。
Book
· 1. Book Crossing
BookCrossing(BX)資料集由Cai-Nicolas花了的4周(2004年8月/ 9月)從Book-Crossing社群中爬取得到的。
· 下載連結:http://www2.informatik.uni-freiburg.de/~cziegler/BX/
電子商務
· 2. Amazon
該資料集包括自1996年5月至2014年7月,來自亞馬遜上的1.428億產品的評論和metadata。
· 下載連結:http://jmcauley.ucsd.edu/data/amazon/
· 3. Retailrocket推薦系統資料集
該資料集由三個檔案組成:一個行為資料集(events.csv),一個屬性資料集(item_properties.сsv)和一個類目樹資料集(category_tree.сsv)。該資料來自現實世界的電子商務網站。
· 下載連結:https://www.kaggle.com/retailrocket/ecommerce-dataset
音樂
· 4. Amazon Music
該數字音樂資料集包含來自亞馬遜的評論和元資料
· 下載連結:http://jmcauley.ucsd.edu/data/amazon/
· 5. Yahoo Music
該資料集是一個快照,收集了音樂社群對各種音樂藝術家的偏好。
· 下載連結:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r
· 6. LastFM(Implicit)
該資料集收集了Last.fm網站上2千名使用者的社交網路、tagging和music artist listening資訊。
· 下載連結:https://grouplens.org/datasets/hetrec-2011/
· 7. Milion Song Dataset
Million Song資料集是一個免費的資料集,提供了一百萬條當代流行音樂曲目相關的的audio features和metadata。
· 下載連結:https://labrosa.ee.columbia.edu/millionsong/
電影
· 8. MovieLens
GroupLens Research已經從他們的電影網站收集整理的rating資料集。
· 下載連結:https://grouplens.org/datasets/movielens/
· 9. Yahoo Movies
該資料集包含從兩個不同來源收集的歌曲的rating資料集。第一個來源是使用者在與Yahoo上使用音樂服務是產生的rating資料。
· 下載連結:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r
· 10. CiaoDVD
CiaoDVD是2013年12月從dvd.ciao.co.uk網站上抓取的DVD類別資料集。
· 下載連結:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r
·11. FilmTrust
FilmTrust是2011年6月從整個FilmTrust網站上抓取的一個小型資料集。
· 下載連結:https://www.librec.net/datasets.html
· 12. Netflix
這是Netflix獎競賽中使用的官方資料集。
· 下載連結:http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a
遊戲
· 13. Steam Video Games
這是一個使用者行資料集,包含:user-id,game-title,behavior-name,value。包括“purchase”和“play”資料集。購買了,puchase的值為1,而“play”的值表示使用者播放音樂的時長。
· 下載連結:https://www.kaggle.com/tamber/steam-video-games/data
Jokes
· 14. Jester
該笑話資料集包含來自73,496個使用者,關於100個笑話的410萬連續rating資料(-10.00到+10.00)
· 下載連結:http://www.ieor.berkeley.edu/~goldberg/jester-data/
餐飲
·15. Chicago Entree
該資料集包含使用者與Entree Chicago餐廳推薦系統互動的記錄資料。
· 下載連結:http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data
動漫
·16. 動漫推薦資料庫
該資料集包含來自12,294個動漫的73,516個使用者的使用者偏好資料。每個使用者都可以將動畫新增到已完成的串列中併為其評分,該資料集把這些評級整理起來。
· 下載連結:https://www.kaggle.com/CooperUnion/anime-recommendations-database
其他資料集
· GroupLens資料集
· 下載連結:https://grouplens.org/datasets/
· LibRec資料集
· 下載連結:https://www.librec.net/datasets.html
· Yahoo Research資料集
· 下載連結:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r
· 斯坦福大型網路資料集彙編
· 下載連結:https://snap.stanford.edu/data/
往期精彩內容推薦
基於深度學習的文字分類6大演演算法-原理、結構、論文、原始碼打包分享
一文告訴你Adam、AdamW、Amsgrad區別和聯絡,助你實現Super-convergence的終極標的
純乾貨11 強化學習(Reinforcement Learning)教材推薦
最佳化策略5 Label Smoothing Regularization_LSR原理分析
模型彙總17 基於Depthwise Separable Convolutions的Seq2Seq模型_SliceNet原理解析
DeepLearning_NLP
深度學習與NLP
商務合作請聯絡微訊號:lqfarmerlq