全文簡介
先用Python來抓取拉勾網上面的資料,採用的是簡單好用的requests模組。主要註意的地方是,拉勾網屬於動態網頁,所以會用到瀏覽器的F12開發者工具進行抓包。抓包以後會發現,其實網頁是一個POST的形式,所以要提交資料,提交的資料如下圖:
真實網址是:https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob;=0…
在上圖也可以輕鬆發現:kd是查詢關鍵詞,pn是頁數,可以實現翻頁。
程式碼實現
PS:文末可以獲取原始碼
註意:抓取資料的時候不要爬取太快,除非你有其他的反爬措施,比如更換IP等,另外不需登入,我在程式碼加入了time模組,用於限制爬取速度。
下載下來的資料長成這個樣子:
註意標題(也就是列明)是我自己新增的。
匯入模組並配置繪圖風格
PS:文末可以獲取原始碼
註意:匯入模組的時候其他都容易解決,除了wordcloud這個模組,這個模組我建議大家手動安裝,如果pip安裝的話,會提示你缺少C++14.0之類的錯誤,導致安裝不上。手動下載whl檔案就可以順利安裝了。
資料預覽
read_csv路徑不要帶有中文
data.tail()
學歷要求
data['學歷要求'].value_counts().plot(kind='barh',rot=0)
plt.show()
工作經驗
data['工作經驗'].value_counts().plot(kind='bar',rot=0,color='b')
plt.show()
Python熱門崗位
工作地點
data['工作地點'].value_counts().plot(kind='pie',autopct='%1.2f%%',explode = np.linspace(0,1.5,25))
plt.show()
工作地理圖
掃描下方二維碼新增Green老師獲取