歡迎光臨
每天分享高質量文章

Python拉鉤資料採集與視覺化

全文簡介

本文是先採集拉勾網上面的資料,採集的是Python崗位的資料,然後用Python進行視覺化。主要涉及的是爬蟲&資料視覺化的知識。
爬蟲部分

先用Python來抓取拉勾網上面的資料,採用的是簡單好用的requests模組。主要註意的地方是,拉勾網屬於動態網頁,所以會用到瀏覽器的F12開發者工具進行抓包。抓包以後會發現,其實網頁是一個POST的形式,所以要提交資料,提交的資料如下圖:

真實網址是:lagou.com/jobs/position

在上圖也可以輕鬆發現:kd是查詢關鍵詞,pn是頁數,可以實現翻頁。

程式碼實現

PS:文末可以獲取原始碼

註意:抓取資料的時候不要爬取太快,除非你有其他的反爬措施,比如更換IP等,另外不需登入,我在程式碼加入了time模組,用於限制爬取速度。

資料視覺化

下載下來的資料長成這個樣子:

註意標題(也就是列明)是我自己新增的。

匯入模組並配置繪圖風格

PS:文末可以獲取原始碼

註意:匯入模組的時候其他都容易解決,除了wordcloud這個模組,這個模組我建議大家手動安裝,如果pip安裝的話,會提示你缺少C++14.0之類的錯誤,導致安裝不上。手動下載whl檔案就可以順利安裝了。

資料預覽

read_csv路徑不要帶有中文

data.tail()

學歷要求

data['學歷要求'].value_counts().plot(kind='barh',rot=0)
plt.show()

工作經驗

data['工作經驗'].value_counts().plot(kind='bar',rot=0,color='b')
plt.show()

Python熱門崗位

工作地點

data['工作地點'].value_counts().plot(kind='pie',autopct='%1.2f%%',explode = np.linspace(0,1.5,25))

plt.show()

工作地理圖

影片教程