(點選上方快速關註並設定為星標,一起學Python)
來源:菜鳥學Python 連結:
https://mp.weixin.qq.com/s/PnKdH_wq2sWKr-Wq55fy-A
提起selenium想必大家都不陌生,作為一款知名的Web自動化測試框架,selenium支援多款主流瀏覽器,提供了功能豐富的API介面,經常被我們用作爬蟲工具來使用。但是selenium的缺點也很明顯,比如速度太慢、對版本配置要求嚴苛,最麻煩是經常要更新對應的驅動。
今天就給大家介紹另一款web自動化測試工具Pyppeteer,雖然支援的瀏覽器比較單一,但在安裝配置的便利性和執行效率方面都要遠勝selenium。
01.Pyppeteer簡介
介紹Pyppeteer之前先說一下Puppeteer,Puppeteer是谷歌出品的一款基於Node.js開發的一款工具,主要是用來操縱Chrome瀏覽器的 API,透過Javascript程式碼來操縱Chrome瀏覽器,完成資料爬取、Web程式自動測試等任務。
Pyppeteer其實是Puppeteer的Python版本,下麵簡單介紹下Pyppeteer的兩大特點,chromium瀏覽器和asyncio框架:
1).chromium
Chromium是一款獨立的瀏覽器,是Google為發展自家的瀏覽器Google Chrome而開啟的計劃,相當於Chrome的實驗版,Chromium的穩定性不如Chrome但是功能更加豐富,而且更新速度很快,通常每隔數小時就有新的開發版本釋出。
Pyppeteer的web自動化是基於chromium來實現的,由於chromium中某些特性的關係,Pyppeteer的安裝配置非常簡單,關於這一點稍後我們會詳細介紹。
2).asyncio
asyncio是Python的一個非同步協程庫,自3.4版本引入的標準庫,直接內建了對非同步IO的支援,號稱是Python最有野心的庫,官網上有非常詳細的介紹:
02.安裝與使用
1).極簡安裝
使用pip install pyppeteer命令就能完成pyppeteer庫的安裝,至於chromium瀏覽器,只需要一條pyppeteer-install命令就會自動下載對應的最新版本chromium瀏覽器到pyppeteer的預設位置。
如果不執行pyppeteer-install命令,在第一次使用pyppeteer的時候也會自動下載並安裝chromium瀏覽器,效果是一樣的。總的來說,pyppeteer比起selenium省去了driver配置的環節。
當然,出於某種原因,也可能會出現chromium自動安裝無法順利完成的情況,這時可以考慮手動安裝:首先,從下列網址中找到自己系統的對應版本,下載chromium壓縮包;
'linux': 'https://storage.googleapis.com/chromium-browser-snapshots/Linux_x64/575458/chrome-linux.zip'
'mac': 'https://storage.googleapis.com/chromium-browser-snapshots/Mac/575458/chrome-mac.zip'
'win32': 'https://storage.googleapis.com/chromium-browser-snapshots/Win/575458/chrome-win32.zip'
'win64': 'https://storage.googleapis.com/chromium-browser-snapshots/Win_x64/575458/chrome-win32.zip'
(左右滑動檢視)
然後,將壓縮包放到pyppeteer的指定目錄下解壓縮,windows系統的預設目錄。其他系統下的預設目錄可以參照下麵這幅圖:
2).使用
安裝完後就來試試效果。一起來看下麵這段程式碼,在main函式中,先是建立一個瀏覽器物件,然後開啟新的標簽頁,訪問百度主頁,對當前頁面截圖並儲存為“example.png”,最後關閉瀏覽器。前文也提到過,pyppeteer是基於asyncio構建的,所以在使用的時候需要用到async/await結構。
執行上面這段程式碼會發現並沒有瀏覽器彈出執行,這是因為Pyppeteer預設使用的是無頭瀏覽器,如果想要瀏覽器顯示,需要在launch函式中設定引數“headless =False”,程式執行結束後在同一目錄下會出現擷取到的網頁圖片:
03.實戰非同步基金爬取
我們前面一直在說Pyppeteer是一款非常高效的web自動化測試工具,其本質原因是由於Pyppeteer是基於asyncio構建的,它的所有屬性和方法幾乎都是coroutine物件,因此在構建非同步程式的時候非常方便,天生就支援非同步執行。
下麵就來對比順序執行和非同步執行的效率究竟如何:
1).基金爬取
我們把天天基金網中的開放式基金凈值資料爬取作為本次的實驗任務,下麵這張圖是一支基金的歷史凈值資料,這個頁面是js載入的,沒辦法透過requests直接獲取內容資訊,因此可以考慮使用模擬瀏覽器操作的方式進行資料抓取。(事實上基金凈值資料的獲取是有API介面的,本次任務只是為了演示,不具備實用價值)
為了使效果更加明顯,我們此次爬取基金串列頁(下圖)前50支基金的近20個交易日的凈值資料。
2).順序執行
程式構建的基本思路是新建一個browser瀏覽器和一個頁面page,依次訪問每個基金的凈值資料頁面並爬取資料。核心程式碼如下:
程式碼中的get_data()函式用於凈值資料頁面解析和資料的轉化,get_all_codes()函式用於獲取全部開放式基金的基金程式碼(共6000餘個)。雖然程式也使用了async/await的結構,但是對多個基金的凈值資料獲取都是在callurl_and_getdata()函式中順序執行的,之所以這樣寫是因為pyppeteer中的方法都是coroutine物件,必須以這種形式構建程式。
為了排除開啟瀏覽器的耗時幹擾,我們僅統計訪問頁面和資料抓取的用時,其結果為:12.08秒。
3).非同步執行
下麵我們把程式改造一下,功能函式都不變,主要是把對fundlist的迴圈執行改裝成async的task物件。核心程式碼如下:
耗時的統計區間仍然從瀏覽器開啟後開始計算,其執行用時為:2.18秒,相比順序執行要快了6倍。可以想象,如果需要爬取的工作量比較大,順序執行需要10個小時的話,非同步執行可能只需要不到2個小時,最佳化效果可謂非常明顯了。
有興趣的同學可以動手試試這個庫。
朋友會在“發現-看一看”看到你“在看”的內容