AI刪庫,程式員背鍋?
導讀:又一程式碼清庫的慘案發生了,不過這次要背鍋的是 AI。 近日,美國最大點評網站 Yelp 的工程師訓練的神經網路闖禍了。他們訓練了一個用來消除 bug 的神經網路,萬萬沒想到,該網路刪除一切,從根上徹底了實現“bug-free”R...
導讀:又一程式碼清庫的慘案發生了,不過這次要背鍋的是 AI。 近日,美國最大點評網站 Yelp 的工程師訓練的神經網路闖禍了。他們訓練了一個用來消除 bug 的神經網路,萬萬沒想到,該網路刪除一切,從根上徹底了實現“bug-free”R...
導讀:資料工作者經常會遇到各種狀況,比如你收集到的資料並不像你期待的那樣完整、乾凈。此前我們講解了用OpenRefine搞定資料清洗,本文進一步探討用pandas和NumPy插補缺失資料並將資料規範化、標準化。
前面主要為作者這一年編寫文章的合集,大家也可以拖動到中間位置開始正文部分! 2017年標簽:”海的彼岸,有我未曾見證的風采” 2018年標簽:”海的彼岸,吾在征途 0、簡述 1、2018年基本上都是在總結...
作者丨蘇劍林 單位丨廣州火焰資訊科技有限公司 研究方向丨NLP,神經網路 個人主頁丨kexue.fm 最近把最佳化演演算法跟動力學結合起來思考得越來越起勁了,這是最佳化演演算法與動力學系列的第三篇,我有預感還會有第四篇,敬請期待。 簡單來個...
導讀:NumPy(Numerical Python的簡稱)是高效能科學計算和資料分析的基礎包,提供了矩陣運算的功能。 在處理自然語言過程中,需要將文字(中文或其他語言)轉換為向量。即把對文字內容的處理簡化為向量空間中的向量運算。基於向量運算...
資料分析與機器學習中常需要大量的視覺化,因此才能直觀瞭解模型背地裡都幹了些什麼。而在視覺化中,matplotlib 算得上是最常用的工具,不論是對資料有個預先的整體瞭解,還是視覺化預測效果,matplotlib 都是不可缺失的模組。最近 M...
導讀 作者根據每週釋出總結的系列文章,彙總了2018年針對資料科學家/AI的最佳庫、repos、包和工具。本文對其進行了梳理,列舉了人工智慧和資料科學的七大Python庫。 本文作者Favio Vázquez從2018年開始釋出《資料科學和...
近日,有位粉絲向我請教,在爬取某網站時,網頁的原始碼出現了中文亂碼問題。之前關於爬蟲亂碼有很多粉絲的各式各樣的問題,今天與大家一起總結下關於網路爬蟲的亂碼處理。註意,這裡不僅是中文亂碼,還包括一些如日文、韓文 、俄文、藏文之類的亂碼處理,因...
首先感謝github網友製作的滑鼠拖拽,滾輪方法功能: 拖拽功能補丁連結: https://gist.github.com/t20100/e5a9ba1196101e618883 看一下資料長什麼樣: 用exce...
來自:丁奇 連結: https://www.infoq.cn/article/PKzT75BPcryCYJ_VuWrR 極客時間《MySQL 實戰 45 講》專欄 我們經常說,看一個事兒千萬不要直接陷入細節裡,...