最近想在工作相關的專案上做技術改進,需要全而準的車型資料,尋尋覓覓而不得,所以就只能自己動手豐衣足食,到網上獲(竊)得(取)資料了。
汽車之家是大家公認的資料做的比較好的汽車網站,所以就用它吧。(感謝汽車之家的大大們這麼用心地做資料,仰慕)
俗話說的好,“十爬蟲九python”,作為一隻java狗,我顫顫巍巍地拿起了python想要感受一下scrapy的強大。。。
在寫這個爬蟲之前,我用urllib2,BeautifulSoup寫了一個版本,不過效率太差,而且還有記憶體上限溢位的問題,作為python小白感覺很無力,所以用scrapy才是正道。
嗯,開搞。
-
安裝python,版本是2.7
-
安裝scrapy模組, 版本是1.4.0
汽車之家車型資料爬蟲[https://github.com/LittleLory/codePool/tree/master/python/autohome_spider]:這是我工程的程式碼,以下內容需要參照著程式碼來理解,就不貼程式碼在這裡了。
Scrapy中文檔案:這是Scrapy的中文檔案,具體細節可以參照檔案。感謝Summer同學的翻譯。
Xpath教程:解析頁面資料要用到xpath的語法,簡單瞭解一下,在做的過程中遇到問題去查一下就可以了。
scrapy工程的初始化很方便,在shell中的指定目錄下執行scrapy start startproject 專案名稱
,就自動化生成了。
執行這步的時候遇到了一個問題,丟擲了異常
"TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1"
,解決方法是執行sudo pip install twisted==13.1.0
,應該是依賴庫版本不相容。
工程初始化後,scrapy中的各個元素就被構建好了,不過構建出來的是一副空殼,需要我們往裡邊寫入我們的爬蟲邏輯。
初始化後的目錄結構是這樣的:
-
spiders:爬蟲目錄,爬蟲的爬取邏輯就放在個目錄下邊
-
items.py:資料物體類,在這裡定義我們爬到的資料結構
-
middlewares.py:爬蟲中介軟體(我自己翻譯的哈),在這裡定義爬取前、爬取後需要處理的邏輯
-
pipelines.py:資料管道,爬取後的資料物體會經過資料管道的處理
-
settings.py:配置檔案,可以在這裡配置爬蟲的爬取速度,配置中介軟體、管道是否開啟和先後順序,配置資料輸出的格式等。
瞭解過這些檔案的作用後就可以開始寫爬蟲了。
首先,確定要爬取的標的資料。
我的標的是獲取汽車的品牌、車系、車型資料,先從品牌開始。
在汽車之家的頁面中尋覓一番後,找到了一個爬蟲的切入點,汽車之家車型大全。這個頁面裡有所有品牌的資料,正是我的標的。不過在觀察的過程中發現,這個頁面裡的品牌資料是在頁面向下滾動的過程中延遲載入的,這樣我們透過請求這個頁面不能獲取到延遲載入的那部分資料。不過不要慌,看一下延遲載入的方式是什麼樣的。
開啟瀏覽器控制檯的網路請求面板,滾動頁面來觸發延遲載入,發現瀏覽器發送了一個非同步請求:
複製請求的URL看看:
-
http://www.autohome.com.cn/grade/carhtml/B.html
-
http://www.autohome.com.cn/grade/carhtml/C.html
-
http://www.autohome.com.cn/grade/carhtml/D.html
找到規律了,每一次載入的URL,都只是改變了對應的字母,所以對A到Z分別請求一次就取到了所有的品牌資料。
開啟http://www.autohome.com.cn/grade/carhtml/B.html看下,發現頁面的資料很規整,是按照品牌-廠商-車系的層級組織的。嗯,正合我意,那就開爬吧。
在spiders目錄下邊,新建一個brand_spider.py檔案,在檔案中定義BrandSpider類,這個類繼承了scrapy.Spider類,這就是scrapy的Spider類。在BrandSpider中,需要宣告name變數,這是這個爬蟲的ID;還需要宣告start_urls,這是爬蟲的起點連結;再定義一個parse方法,裡面實現爬蟲的邏輯。
parse方法的入參中,response就是對start_urls中的連結的請求響應資料,我們要爬取的品牌資料就在這裡面,我們需要從response中提取出來。從response提取資料需要使用xpath語法,參考上邊的xpath教程。
提取資料之前,需要先給品牌資料定義一個物體類,因為需要把品牌資料存到資料物體中並落地到磁碟。在items.py檔案中定義一個BrandItem類,這個類繼承了scrapy.Item類,類中宣告了爬取到的、要落地的品牌相關資料,這就是scrapy的Item類。
定義好品牌物體後,在parse方法中宣告一個BrandItem實體,然後透過reponse.xpath方法取到想要的品牌ID、品牌url、品牌名稱、圖示url等資料,並設定到BrandItem實體中,最後透過yield來聚合爬取到的各個品牌資料並傳回,傳回的資料會進入pipeline。
爬取到的資料接著被pipeline.py檔案中定義的Pipeline類處理,這個類通常是對傳入的Item物體做資料的清洗、排重等工作,可以定義多個Pipeline,依次對Item處理。由於暫時沒有這方面的需要,就不改寫這個檔案,保持預設狀態就好。經過pipeline的處理後,資料進入資料集。
對於爬取到的車型資料,我想以csv的格式輸出,並且輸出到指定目錄下,此時需要修改settings.py檔案。
在settings.py中新增FEED_FORMAT = 'csv'
和FEED_URI = 'data/%(name)s_%(time)s.csv'
兩項,目的是指定輸出格式為csv,輸出到data目錄下,以”爬蟲名稱_爬取時間.csv“格式命名。
品牌資料的爬蟲編寫完成了,在專案根目錄下執行scrapy crawl brand
,不出意外的話,在執行了brand爬蟲後,會在data目錄下出現一個新的csv檔案,並且裝滿了品牌資料。
不過需要註意一個問題,就是當爬蟲高頻地請求網站介面的時候,有可能會被網站識別出來並且遮蔽掉,因為太高頻的請求會對網站的伺服器造成壓力,所以需要對爬蟲限速。
在settings.py中新增DOWNLOAD_DELAY = 3
,限制爬蟲的請求頻率為平均3秒一次。
另外,如果爬蟲傳送的請求頭中沒有設定user agent也很容易被遮蔽掉,所以要對請求頭設定user agent。
在專案根目錄下新建user_agent_middlewares.py
檔案,在檔案中定義UserAgentMiddleware
類,繼承了UserAgentMiddleware
類。在UserAgentMiddleware
中宣告user_agent_list,存放一些常用的user agent,然後重寫process_request方法,在user_agent_list中隨機選取user agent寫入請求頭中。
車系爬蟲與上邊的品牌爬蟲類似,實現在spiders/series_spider.py中。
車型爬蟲稍微複雜一些,實現在spiders/model_spider.py中。車型爬蟲要從頁面中解析出車型資料,同時要解析出更多的URL新增到請求佇列中。而且,車型爬蟲爬取的頁面並不像品牌資料頁面那麼規整,所以要根據URL的特徵以及頁面中的特徵來調整解析策略。因此在這裡用到了CrawlSpider和Rules,具體參照Spider檔案。
以上就實現了一個簡單的汽車之家的車型資料爬蟲,其中用到了scrapy中的部分元素,當然還有很多元素沒有涉及到,不過對於一個簡單爬蟲來說足矣。
在用xpath解析頁面的時候,寫出來的xpath陳述句很可能與預期不符,而且除錯起來很麻煩,我是用以下方式來提高效率的:
-
使用chrome上的XPath Helper外掛。安裝好外掛,開啟標的頁面,按command+shift+x(mac版的快捷鍵)開啟外掛面板,在面板裡輸入xpath陳述句,就能看到取到的結果了:
-
使用scrapy shell除錯。在工程目錄下執行
scrapy shell http://www.xxxxx.xx
,之後就會進入python的互動終端,這時就可以進行除錯了。執行print response.xpath('xxxxx')
來驗證xpath陳述句是否符合預期。
作者:littlelory