導讀:Python是目前資料科學領域的王者語言,眾多科學家、工程師、分析師都使用它來完成資料相關的工作。由於Python具有簡單易學、語法靈活的特點,很多需要處理資料的人士想要學習,主要有兩大類:
-
財經類、統計類背景人員,他們的日常工作有大量資料需要處理、分析,但對於學習使用計算機領域的程式語言Python又感到無從下手。
-
一些想要學習Python的計算機人員,他們工作較忙,沒有太多時間透過網際網路去系統學習Python資料技術
針對這兩類人員的需求,近期出版上市的《利用Python進行資料分析》第2版是很好的選擇。下麵我們結合本書內容,大致介紹下如何利用Python進行資料分析。
01 Python資料分析流程及學習路徑
資料分析的流程概括起來主要是:讀寫、處理計算、分析建模和視覺化四個部分。在不同的步驟中會用到不同的Python工具。每一步的主題也包含眾多內容。
根據每個部分需要用到的工具,Python資料分析的學習路徑如下:
02 利用Python讀寫資料
Python讀寫資料,主要包括以下內容:
我們以一小段程式碼來看:
可見,僅需簡短的兩三行程式碼即可實現Python讀入EXCEL檔案。
03 利用Python處理和計算資料
在第一步和第二步,我們主要使用的是Python的工具庫NumPy和pandas。其中,NumPy主要用於向量化的科學計算,pandas主要用於表型資料處理。
▲NumPy
▲pandas
04 利用Python分析建模
在分析和建模方面,本書主要介紹了Statsmdels和Scikit-learn兩個庫。
.Statsmodels允許使用者瀏覽資料,估計統計模型和執行統計測試。可以為不同型別的資料和每個估算器提供廣泛的描述性統計,統計測試,繪圖函式和結果統計串列。
▲.Statsmodels
Scikit-leran則是著名的機器學習庫,可以迅速使用各類機器學習演演算法。
▲Scikit-leran
05 利用Python資料視覺化
資料視覺化是資料工作中的一項重要內容,它可以輔助分析也可以展示結果。本書主要介紹了Python眾多視覺化庫中最為主流的Matplotlib:
06 總結:為什麼要選這本書
《利用Python進行資料分析》第2版原作者是美國的資料科學家Wes McKinney,他畢業於麻省理工學院,是大名鼎鼎的Python資料技術類庫pandas的創始人,在多家投資銀行從事過資料科學類的工作。本書第一版由Wes McKinney寫於2010年,經過7年的技術發展,第一版中的部分技術已不再適用,因此他於2017年發表了本書的第二版,對書中的大量技術、程式碼、示例進行了更新。由於本書大受好評,國內旋即引進。
關於作者:徐敬一,是《利用Python進行資料分析》第2版的譯者,中國工商銀行的資料分析師,他在工作中大量使用各類Python資料技術,對於Python的數學科學技術棧十分瞭解,同時英語水平良好,使本書的翻譯質量得以保證。
延伸閱讀《利用Python進行資料分析》
轉載請聯絡微信:togo-maruko
點選文末右下角“寫留言”發表你的觀點
推薦語:適合剛學Python的資料分析師或剛學資料科學以及科學計算的Python程式設計者。閱讀本書可以獲得一份關於在Python下操作、處理、清洗、規整資料集的完整說明。
更多精彩
在公眾號後臺對話方塊輸入以下關鍵詞
檢視更多優質內容!
PPT | 報告 | 讀書 | 書單 | 乾貨
Python | 機器學習 | 深度學習 | 神經網路
區塊鏈 | 揭秘 | 高考 | 福利
推薦閱讀
Q: 你都在用Python做什麼?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:baiyu@hzbook.com
更多精彩,請在後臺點選“歷史文章”檢視