導讀:谷歌首席決策科學家(Chief Decision Scientis)凱西柯茲科夫(Cassie Kozyrkov)在2018年非常高產,為大家寫了非常多關於人工智慧、大資料的文章。以下是他感覺她寫過最優秀30篇文章,這些文章主要關註:資料科學和分析、人工智慧、機器學習……
當然,除了給出文章連結之外,她還對文章給出了總結性極強的“妙語”。
一起來欣賞吧!
作者:Cassie Kozyrkov
編譯:ZoeY、睡不著的iris、楊威、蔣寶尚
來源:大資料文摘(ID:BigDataDigest)
01 資料科學與分析
《資料科學究竟是什麼?》:這篇文章快速介紹了資料科學、資料工程、統計學、分析學、機器學習和人工智慧。
資料科學是使資料有用的學科。
https://towardsdatascience.com/data-science-conversation-starters-84affd2347f6
▲2014年,推特對“資料科學家”的定義
《偉大的資料分析師都在做什麼?為什麼每個組織機構都需要他們?》:這篇文章主要介紹:優秀的分析師是保證高效的資料工作的先決條件。不要低估他們,他們的離職對你來說是非常危險的。
https://hbr.org/2018/12/what-great-data-analysts-do-and-why-every-organization-needs-them
資料科學的三個支柱分別有各自的優點。統計學家保證嚴謹,機器學習工程師改善效能表現,分析師提供速度。
《哈佛商業評論中的秘密段落》是對《哈佛商業評論》補充的思考內容。裡面的主題包括混合角色,研究的本質,蝙蝠訊號,資料騙子和偉大分析師們!
企業家需要註意:現在有很多冒充資料科學家的資料騙子。遺憾的是,目前還沒有十全十美的辦法可以辨別資料騙子。
http://bit.ly/quaesita_bsides
《人工智慧和資料科學的十大角色》:這篇文章介紹了不同的職位名稱和它們對應的級別。
如果你的第一份工作的職稱就是“研究員”,那麼你公司的職稱系統可能不是很完善。
https://hackernoon.com/top-10-roles-for-your-data-science-team-e7f05d90d961
02 機器學習/人工智慧概念
《可能是你讀過的最簡單的機器學習知識介紹》的主旨是,機器學習是以實踐用例為導向的,而不僅僅是文字說明。
機器學習是一種新的程式設計正規化,一種將你的想法傳達給電腦的方式。興奮的是它可以使你將不可說的想法表達出來。
https://hackernoon.com/the-simplest-explanation-of-machine-learning-youll-ever-read-bebc0700047c
《你是不是用錯了“人工智慧”這個詞?》:由於定義不明確,實際上我們都沒有正確地使用“人工智慧”這個詞。這個詞人人都在用,在本文中我提供了一份快速指南來介紹人工智慧、機器學習、深度學習、強化學習和類人工智慧。
如果你擔心會不會每個櫥櫃裡都潛伏著具擁有類似人類智慧的物種,放心吧,不會的,所有這些工業化的人工智慧應用程式都在忙著解決真正的商業問題。
http://bit.ly/quaesita_ai
《向孩子(或老闆)解釋監督學習》:希望讓所有人都熟悉一些基本術語,例如:實體、標簽、特性、模型、演演算法和監督學習。
不要被術語嚇倒。例如,“模型”其實只是“菜譜”的比較花哨的說法。
http://bit.ly/quaesita_slkid
《機器學習——是皇帝的新裝嗎?》:是一篇為初學者準備的可以檢視核心概念的文章,包括透過圖片和貓咪介紹演演算法和損失函式的概念。
不要因為機器學習太簡單而嫌棄它。槓桿也很簡單,但它們可以撬起世界。
https://towardsdatascience.com/data-science-conversation-starters-84affd2347f6
▲神經網路也可以稱為“瑜伽網路”,因為它的神奇力量可以幫助你無限拓展邊界
《無監督學習的啟發》:這篇文章講了無監督學習可以幫助你在資料中找到靈感。他們會將相似的東西以分組的形式呈現給你,結果就像是羅夏墨跡卡那樣。
你們可以把無監督學習看作是“物以類聚,人以群分”的數學版本。
http://bit.ly/quaesita_unsupervised
《可解釋的人工智慧卻無法傳播的原因》:許多人被帶有人工智慧字樣的的宣傳所吸引,他們認為這意味著可信度。但事實並非如此,陷入信任炒作可能意味著你將錯過人工智慧的一大優點:靈感。
如果你不相信任何你不理解的人事物,那麼你就應該炒掉所有的人類員工,因為沒人知道大腦(它擁有數千億的神經元!)是如何做決定的。
https://towardsdatascience.com/data-science-conversation-starters-84affd2347f6
03 如何在機器學習/人工智慧專案上保持不敗
《為什麼企業在機器學習專案中失敗了》:講述了許多企業沒有意識到“應用機器學習”與“機器學習演演算法研究”是兩個截然不同的學科。
想象一下,你想要開一家餐廳,卻僱傭了那些一輩子都在製造微波爐但從來沒下廚的人……那麼,會有什麼結果呢?
https://hackernoon.com/why-businesses-fail-at-machine-learning-fbff41c4d5db
▲你在做什麼生意?你的答案決定了你應該僱傭什麼樣的團隊
《尋找人工智慧實踐用例的建議》:先假設人工智慧是個騙局,然後進行的頭腦風暴,試圖尋找應用人工智慧的機會……
企業經常犯的一個錯誤是,想當然地認為機器學習是魔法,所以就不用多加思考該怎樣將任務做好。
https://hackernoon.com/imagine-a-drunk-island-advice-for-finding-ai-use-cases-8d47495d4c3f
《人工智慧的第一步可能會讓你大吃一驚》:這篇文章回答了啟動人工智慧專案的正確方法是什麼,是獲得人工智慧學位嗎?不是。是僱傭人工智慧專家嗎?也不是。是選擇一個很棒的演演算法嗎?也不是。是鑽研資料嗎?依然不是!
永遠不要要求一群博士“把機器學習應用到業務上,然後……好事就會發生。”
http://bit.ly/quaesita_first
▲“我想做什麼”
《你的人工智慧專案成功了嗎?》:提供了一份(現實的)在你為一個應用機器學習專案僱傭工程師或獲得資料之前,你應該仔細檢查的清單。
不要為“人工智慧”這個詞所限制。多想想它可以為你做什麼。
http://bit.ly/quaesita_realitycheck
《開始使用人工智慧?從這裡開始!》:是一份詳細的指南,闡述了決策者在一個應用機器學習/人工智慧專案中的作用和責任。
有能力完成和充分利用時間是兩碼事。我們習慣性地愛上我們已經為之付出的努力的人事物,即使它是一堆有毒的垃圾。
http://bit.ly/quaesita_dmguide
《當人工智慧出錯時,是誰的錯?》:闡述了機器學習、人工智慧的關鍵在於你是在用例子而不是文字說明來表達你的想法。要讓機器學習/人工智慧起作用,示例必須是相關的。
如果你使用的工具沒有經過安全驗證,那麼你造成的任何混亂都是你的鍋。人工智慧和其他任何工具一樣。
https://towardsdatascience.com/dont-trust-ai-10a7df520925
《資料驅動?再想想》:要做出資料驅動的決策,就必須以資料為主導。這個道理似乎很簡單,但在現實中卻鮮有人這樣執行,因為決策者缺乏這樣的觀念。
分析資料的途徑越多,越是容易產生確認偏差。而“解藥”就是提前制定決策標準。
https://towardsdatascience.com/data-science-conversation-starters-84affd2347f6
《資料科學是否是泡沫?》:發現越來越多的人自稱是“資料科學家”,但是整個行業似乎都在玩危險遊戲。
僱傭資料科學家等同於毒梟在自家後院養了一隻老虎。事實上你也不知道老虎有什麼用,就只知道毒梟都愛養老虎。
http://bit.ly/quaesita_bubble
《資料科學家領導》:教你如何訓練決策者掌握技能,領導成功的資料科學團隊。
崇尚數學亞文化的人容易表現出一副藐視一切的“軟”技能。熬夜證明某些定理或者用第六種語言程式設計都是虛張聲勢之舉。
https://towardsdatascience.com/data-science-leaders-there-are-too-many-of-you-37bff8088505
《重新思考資料科學中的快和慢》:講述了產品開發團隊如何協調快速迭代與進展緩慢的龐然深入研究過程的節奏,如何取捨?
靈感廉價,精確不易。
https://towardsdatascience.com/data-science-conversation-starters-84affd2347f6
《採訪:給予資料科學家的建議》:對於同行資料科學家問題的直白回答。主題包含:受歡迎的資源、職業、統計學教育和資料科學領導力。
有用的不見得複雜。資料質量比解決方案更重要。溝通能力勝過另一種程式語言。
http://bit.ly/mlconf_cassie
《關於Tensorflow,你需要知道這9件事》:如果你擁有許多的資料,或者你緊隨人工智慧領域的最新進展,那麼TensorFlow會是你的好夥伴。
有了TensorFlow Hub,不同於傳統方法,以更高效的方式幫你整合自己和他人的程式碼,或者說你自己的程式碼(否則稱之為專業軟體工程)。
https://towardsdatascience.com/data-science-conversation-starters-84affd2347f6
《什麼是不繁瑣的人工智慧?》:Kubeflow致力於為資料科學家擺脫一切不喜歡的瑣事。如同一把滑雪橇助你越過瑣事之丘。
祝賀你總算盼來為你打造的基礎設施,聽上去就像你不需要為自己製造一臺電腦一樣。
http://bit.ly/quaesita_kubeflow
《5小步概述資料科學》:來自谷歌2018 Cloud Next大會受歡迎的演講。5個影片概述,均不超過5分鐘。
炒作了半個世紀的人工智慧並未實現。為什麼會是現在呢?許多人未意識到如今的人工智慧應用講的是雲端計算的故事。
http://bit.ly/quaesita_ds5
《不要在統計學上浪費時間》:如何確定你是否需要掌握統計學,如果不知道,你該怎麼辦。
統計學是改變思維的科學。
http://bit.ly/quaesita_pointofstats
《不要從假設開始》:學習數學卻沒有理解其本質常犯的錯誤是隻做假設而不行動。看一下如何使用數理統計做決定。
假設像是蟑螂。當你看見一隻蟑螂時,代表不止一隻。通常附近還隱藏著更多的蟑螂。
http://bit.ly/quaesita_damnedlies
《統計學入門》:讓你迅速掌握統計學代表的含義和用通俗易懂的話語理解各類術語。
數學是在虛設世界中構建一個模型。如此你才得到了P值。
http://bit.ly/quaesita_statistics
《總體——你犯了什麼錯》:統計學方法只有在你需要的資訊(總體)與你擁有的資訊(樣本)不匹配的時候才能發揮作用。
從樣本到總體如同伊卡洛斯似的跳躍,在你不知道標的的情況下,結果將是一次大的碰撞。
http://bit.ly/quaesita_popwrong
《統計學理解自測》:能否透過小測驗來檢驗自己的統計學專業能力?如果光憑STAT101告訴你的東西,你還差的遠呢。
如果你掌握了真相,你就不需要統計學了。
http://bit.ly/quaesita_savvy
《Incompetence, delegation, and population》: 如果決策者技能不過關,那麼整個統計專案註定會失敗。 什麼時候統計學家應該和決策者撕逼,什麼時候應該順從指示呢?
如果你希望用資料說服他人,你就必須摒棄嚴謹,繪製漂亮的圖表
相關報道:
https://towardsdatascience.com/data-science-conversation-starters-84affd2347f6
註:本文中的部分連結需科學上網才能訪問