50 行程式碼教你爬取貓眼電影 TOP100 榜所有資訊-知識星球

來源：程式人生

ID：coder_life

今天，手把手教你入門 Python 爬蟲，爬取貓眼電影 TOP100 榜資訊。

作者 | 丁彥軍

對於 Python 初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天，練習 Python 的手把手系列，手把手教你入門 Python 爬蟲，爬取貓眼電影 TOP100 榜資訊，將涉及到基礎爬蟲架構中的 HTML 下載器、HTML 解析器、資料儲存器三大模組：

HTML 下載器：利用 requests 模組下載 HTML 網頁；
HTML 解析器：利用 re 正則運算式解析出有效資料
資料儲存器：將有效資料透過檔案或者資料庫的形式儲存起來

一、構造 HTML 下載器

import requests
from requests.exceptions import RequestException

essay-headers = {'User-Agent':'Mozilla/5.0 '}

def get_one_page(url):
    try:
        res = requests.get(url,essay-headers = essay-headers)
        if res.status_code == 200:
            return res.text
        return None
    except RequestException:
        return None

二、構造 HTML 解析器

def parse_one_page(html):
    pattern = re.compile('
.*?board-index.*?>(\d+)

.*?data-src=”(.*?)”.*?name”> +‘.*?>(.*?).*?star”>(.*?).*?releasetime”>(.*?)’
+‘.*?integer”>(.*?).*?fraction”>(.*?).*?’,re.S)
items = re.findall(pattern,html)
for item in items:
yield{
‘index’: item[0],
‘image’: item[1],
‘title’: item[2],
‘actor’: item[3].strip()[3:],
‘time’: item[4].strip()[5:],
‘score’: item[5] + item[6]
}

註意事項：

在函式中本來該 return 的地方用 yield，如果用 return，在第一輪迴圈就會跳出，結果檔案只會有一部電影。如果用 yield，函式傳回的就是一個生成器，而生成器作為一種特殊的迭代器，可以用 for——in 方法，一次一次的把 yield 拿出來；
re.findall(pattern,string[,flags])：搜尋整個 string，以串列的形式傳回能匹配的全部子串，其中引數是匹配樣式，如 re.S 表示點任意匹配樣式，改變“.”的行為。

三、構造資料儲存器

def write_to_file(content):
    with open ('result.txt', 'a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False) + '\n')
        f.close()

註意事項：

為什麼 ensure_ascii=False？原因是 json 預設是以 ASCII 來解析 code 的，由於中文不在 ASCII 編碼當中，因此就不讓預設 ASCII 生效；
要寫入特定編碼的文字檔案，請給 open()函式傳入 encoding 引數，將字串自動轉換成指定編碼。細心的童鞋會發現，以’w’樣式寫入檔案時，如果檔案已存在，會直接改寫（相當於刪掉後新寫入一個檔案）。如果我們希望追加到檔案末尾怎麼辦？可以傳入’a’以追加（append）樣式寫入。

接下來就是構造主函式，初始化各個模組，傳入入口 URL，按照執行流程執行上面三大模組：

def main(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

if __name__ == '__main__':
    p = Pool()
    p.map(main,[i*10 for i in range(10)])

註意事項：

為了提高速度，我們引入 Pool 模組，用多執行緒併發抓取

執行程式碼後，結果如下：

本文中介紹了基礎爬蟲架構主要的的三個模組（HTML 下載器、HTML 解析器、資料儲存器），無論大型還是小型爬蟲都不會脫離這三個模組，也希望大家透過這個小小的練習對整個爬蟲有個清晰的認識，歡迎大家一起談論學習交流。

《Python人工智慧和全棧開發》2018年07月23日即將在北京開課，120天衝擊Python年薪30萬，改變速約~~~~

*宣告：推送內容及圖片來源於網路，部分內容會有所改動，版權歸原作者所有，如來源資訊有誤或侵犯權益，請聯絡我們刪除或授權事宜。

– END –

更多Python好文請點選【閱讀原文】哦

↓↓↓

50 行程式碼教你爬取貓眼電影 TOP100 榜所有資訊

相關推薦

熱門標籤

熱門文章

分享創造快樂