筆者邀請您,先思考:
1 您閱讀過哪些經典的資料科學論文?請留言
這是回到學校的時間,這裡有一些論文讓你在這個學年忙碌。 所有論文都是免費的。 這份清單遠非詳盡無遺,但這些是資料科學和大資料方面的一些重要論文。
谷歌搜尋
-
PageRank – 這篇論文解釋了Google搜尋背後的演演算法。
Hadoop
-
MapReduce – 本論文介紹了處理大資料及的程式設計模型。 特別是,它是hadoop中使用的程式設計模型。
-
Google File System – hadoop的一部分是HDFS。 HDFS是論文中解釋的分散式檔案系統的開源版本。
NoSQL
這些是推動/開始NoSQL的兩篇論文。 每篇論文都描述了一種旨在大規模擴充套件的不同型別的儲存系統。
-
Amazon Dynamo
-
Google Bigtable
機器學習
-
資料挖掘中的10種演演算法| pdf download – 本文涵蓋了一些重要的機器學習演演算法(確切地說是10個)。
-
關於機器學習的一些有用的事情 – 本論文充滿了提示,技巧和見解,使機器學習更加成功。
Bonus Paper
-
隨機森林 – 最流行的機器學習技術之一。 它在Kaggle比賽中被大量使用,即使是獲勝者也是如此。
你覺得還有其他任何檔案應該列在名單上嗎?
原文連結:
http://101.datascience.community/2013/08/26/7-important-data-science-papers/
版權宣告:作者保留權利,嚴禁修改,轉載請註明原文連結。
資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專註於從資料中學習到有用知識。
平臺的理念:人人投稿,知識共享;人人分析,洞見驅動;智慧聚合,普惠人人。
您在資料人網平臺,可以1)學習資料知識;2)建立資料部落格;3)認識資料朋友;4)尋找資料工作;5)找到其它與資料相關的乾貨。
我們努力堅持做原創,聚合和分享優質的省時的資料知識!
我們都是資料人,資料是有價值的,堅定不移地實現從資料到商業價值的轉換!
點選閱讀原文,進入資料人網,即可下載論文。