來自:開源最前線(ID:OpenSourceTop)
專案地址:https://github.com/CriseLYJ/awesome-python-login-model
如果你從事資料科學領域,那麼獲取資料對於你來說就不可或缺,網路爬蟲這一關你必須得過,而說到爬蟲,大多數人想到的就是Python,因為python不僅編寫除錯方便,而且能夠快速入門,最主要的是相關的類庫十分豐富
今天,要和大家推薦的這個專案就是和Python程式設計有關的,這個專案介紹瞭如何用 Python 登入各大網站,並用簡單的爬蟲獲取一些有用資料,目前該專案已經提供了知乎、B 站、和豆瓣等 18 個網站的登入方法。
模擬登陸基本採用的是直接登入或者使用selenium+webdriver的方式,有的網站直接登入難度很大,比如qq空間,bilibili等如果採用selenium就相對輕鬆一些。
每一個網站都會有對應的登入程式碼,有的還有資料的爬取程式碼。下麵我們以淘寶為例:
-
爬取淘寶各子標簽,按銷量排名商品資訊,按分類儲存至MongoDB
-
透過pandas進行資料分析
-
將商品在各省分佈、銷量排行、地圖分佈等透過matplotlib繪圖顯示
以上是淘寶爬蟲相關的檔案:
-
taobao.py為模擬登入
-
剩下的檔案為爬蟲
模擬登陸的程式碼如下:
Bilibili自動登入測試正常,成功率98%
如果你還想檢視更多示例,可以前往GitHub詳情頁,而且建立者也鼓勵廣大開發者提 Issue 或 Pull Requests。
目前該專案已經獲得 4246 個Star,635 個Fork(GitHub地址:https://github.com/CriseLYJ/awesome-python-login-model)