歡迎光臨
每天分享高質量文章

精選近期機器學習 GitHub 專案及 Reddit 熱門話題

(點選上方公號,快速關註我們)


英文:PRANAV DAR,轉自:資料派(ID:datapi),翻譯:蔣雨暢

介紹


你有沒有想過不懂畫畫甚至不知道如何拿畫筆也能成為一名藝術家?藉助計算機視覺技術,您現在可以做到這一點。更妙的是,機器學習社群非常棒,以至於執行此操作的程式碼已經開源了!這就是GitHub的強大功能,以及為什麼我鼓勵所有有抱負或成熟的資料科學家定期使用它。


GitHub一直是開源資料科學和機器學習的核心。無論您是為現有儲存庫做貢獻還是構建自己的儲存庫,您都可以獲得大量的知識。



下麵有一些非常酷的儲存庫 – 深度學習,GAN特定,自然語言處理(NLP)相關的文字匹配,以及用於擴充套件和重新構想現有影象的計算機視覺(如上所述)。這裡有適合每個人的東西!


來到Reddit,我們選擇了深度學習和人工智慧相關的討論。這些將幫助您評估和瞭解行業中某些技術的現狀以及將來的方向。


您可以檢視以下前6個月的頂級GitHub儲存庫和熱門Reddit討論(從4月開始):


  • 一月:

    https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/ 

  • 二月:

    https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018/ 

  • 三月:

    https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018/ 

  • 四月 :

    https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/ 

  • 五月:

    https://www.analyticsvidhya.com/blog/2018/06/top-5-github-reddit-data-science-machine-learning-may-2018/ 

  • 六月:

    https://www.analyticsvidhya.com/blog/2018/07/top-github-reddit-data-science-machine-learning-june-2018/ 


GitHub儲存庫

 

  • 影象修複


Github地址:

https://github.com/bendangnuksung/Image-OutPainting



這是本系列中最酷的儲存庫之一。“修複”最近一直是一個趨勢概念,但這項由斯坦福大學的幾位研究人員設計的技術,卻運用了相反的概念。“Outpainting” 這個概念擴充套件了GAN用於修複的用途,來估計和想象現有影象在超出可見範圍後,可能看起來的模樣。然後運用演演算法將影象擴充套件到現有邊界之外。正如您在上圖所示,結果非常出色。


此儲存庫使用Python中的Keras的開源實現。您可以從頭開始構建模型,也可以使用此儲存庫作者提供的模型。無論哪種方式,試試吧!


關於這個方法的詳細文章:


Become a Computer Vision Artist with Stanford’s Game Changing ‘Outpainting’ Algorithm (with GitHub link):

https://www.analyticsvidhya.com/blog/2018/07/become-computer-vision-artist-stanfords-outpainting-algorithm-github-keras/ 

 

  • 使用TensorFlow的文字分類模型


Github地址:

https://github.com/dongjun-Lee/text-classification-models-tf



這個儲存庫實現了它所說的 – 各種文字分類模型的TensorFlow實現。我喜歡這個儲存庫的是它包含已經討論過的每個模型的連結。這樣可以瞭解您正在做的事情,這非常有用。這裡實現的模型是:


  • 字級CNN

  • 字元級CNN

  • 非常深的CNN

  • 字級雙向RNN

  • 基於註意的雙向RNN

  • R-CNN

 

  • MatchZoo


Github地址:

https://github.com/faneshion/MatchZoo



雖然不是嚴格意義的上個月建立的庫,但最近這個儲存庫得到了一個重大更新。MatchZoo基本上是一個文字匹配工具包。它的建立是為了設計,比較和分享各種深層文字匹配模型。MatchZoo可以做的潛在任務包括檔案檢索,會話響應排名,問題回答和釋義識別等。


一些深度匹配方法有DRMM,MatchPyramid,MV-LSTM,aNMM,DUET等。你可以檢視儲存庫以獲取有關如何安裝和利用這個庫的詳細資訊。

 

  • GANimation


Github地址:

https://github.com/faneshion/MatchZoo



以上的面孔集合讓你對這個儲存庫感到興奮嗎?綠色邊框內是原始影象,其餘影象使用GANimation在解剖學上改變主體的面部表情。這是一種稍微複雜的方法,但如果您對深度學習感興趣,則可以進行探索。


作者提供了入門所需的一切 – 初學者指南,先決條件,資料準備資源,當然還有Python程式碼。你在等什麼?快進來!

 

  • GAN穩定性


Github地址:

https://github.com/LMescheder/GAN_stability



這個Python專案是這篇上個月在2018年國際機器學習會議上提出的論文的部分實驗程式碼:


Which Training Methods for GANs do actually Converge?

https://avg.is.tuebingen.mpg.de/publications/meschedericml2018 


對於任何對深度學習尤其是GAN感興趣的人來說,這是一個引人入勝的案例研究。


這個儲存庫入選的原因是它能讓您對在頂級機器學習會議中接受和呈現的論文中的研究和思考水平有了一個很好的瞭解。您還可以在下麵連結中檢視ICML 2018中的最佳論文:


The Best Research Papers from ICML 2018 – A Must-Read for Data Scientists

https://www.analyticsvidhya.com/blog/2018/06/best-research-papers-icml-2018/ 

 

Reddit討論

 

Source: Wikipedia 

 

  • 我應該實施哪些深度學習論文?


Reddit相關連結:

https://old.reddit.com/r/MachineLearning/comments/8vmuet/d_what_deep_learning_papers_should_i_implement_to/


如果您是深度學習的新手,這將成為您必讀的討論。許多深度學習專家在最近發表的論文中提供了他們的觀點(以及大量的連結),您應該閱讀並實踐這些論文。這將加強您所學到的知識,並使您具有與最新技術保持同步的額外優勢。


如果你是一個深度學習的老手,這將掃清你的概念或告訴你在這個多元化領域發生的所有事情。您永遠無法獲得足夠的知識,因此我建議您檢視所提供的所有資源。您還應該閱讀其他資料科學家提供的所有意見,這些意見將完善您自己的觀點。

 

  • 在Google Brain / FAIR / DeepMind等組織對科技的使用


Reddit相關連結:

https://old.reddit.com/r/MachineLearning/comments/8yvlzy/d_debate_about_science_at_organizations_like/


這個標題足以引起資料科學家的註意。這個討論產生於Twitter關於科技如何被大型技術組織使用的辯論。雖然辯論從悲觀的觀點開始,但它卻從那些與這些公司合作過的人那裡獲得了更多積極或自信的觀點。


您不僅要瞭解Google Brain等人的科學定義和使用方式,還要瞭解資料科學人員對行業當前科學狀況的看法。

 

  • 加深理論理解的一些好書


Reddit相關連結:

https://old.reddit.com/r/MachineLearning/comments/8wcjcm/d_what_are_some_good_books_to_get_more/


如果你想進入機器學習的研究方面,你需要瞭解事物如何運作的理論。Thin包括核心數學,機率等主題。該主題列出了一些關於各種機器學習概念的更高階的書籍。


這裡有大量的建議(幾乎100條評論!)和連結,所以你不能抱怨缺乏資源。從高階機器學習到強化學習的介紹,這個討論是頂級資源的金礦。

 

  • 討論人工智慧將如何影響當前和未來的工作


Reddit相關連結:

https://www.reddit.com/r/artificial/comments/8zx2mx/artificial_intelligence_will_create_as_many_jobs/


這是幾十年來一直在進行的討論,並且隨著最近機器學習和AI的興起而變得更加突出。儘管專家竭盡全力減輕恐懼,但這種擔憂仍然存在。請完整的閱讀這篇討論 – 它包含了來自AI愛好者和專家的意見,包括他們如何看待AI影響不同國家的工作。


還有大量的統計資料和連結共享,有助於衡量人工智慧的發展方向。請您也對整體討論提出寶貴的意見。你自己參與得越多,你對資料科學的信心就越大。

 

  • 人們在資料視覺化中犯的常見錯誤


Reddit相關連結:

https://www.reddit.com/r/datascience/comments/8wj1nr/play_your_charts_right_an_illustrated_collection/


資料視覺化是任何機器學習專案的關鍵方面。但它也有它自己的獨立應用程式,如儀錶板,報告等。商業智慧如今是一個蓬勃發展的領域,隨著越來越多的人進入它,他們需要意識到人們犯下的一些最常見的錯誤。給定的影象很好地說明瞭這一點。


這是您將在資料科學之旅中遇到的一個有趣但重要的主題。你不需要虔誠地堅持已經展示過的每一個觀點,但是瞭解整個領域的領導者如何思考這個觀點是一件好事。

 

結束筆記


這個月的文章更傾向於深度學習,但我試圖透過分享一些適合初學者的Reddit討論來保持平衡。我再說一遍——請嘗試為GitHub儲存庫和Reddit討論做出貢獻,因為這些將對您的職業生涯有很大的幫助。您閱讀和分享的越多,您自己的知識就越好。

【關於投稿】


如果大家有原創好文投稿,請直接給公號傳送留言。


① 留言格式:
【投稿】+《 文章標題》+ 文章連結

② 示例:
【投稿】
《不要自稱是程式員,我十多年的 IT 職場總結》:http://blog.jobbole.com/94148/


③ 最後請附上您的個人簡介哈~

看完本文有收穫?請轉發分享給更多人

關註「資料分析與開發」,提升資料技能

贊(0)

分享創造快樂