如何用Python爬取LOL官網全英雄面板-知識星球

你沒有看錯，沒錯今天小編帶你爬取LOL官網全英雄面板的圖片

不要失望，也不要難過

接下咱們來講講怎麼爬取LOL官網

本次案例使用到的模組

import requests
import re
import json

安裝模組：

pip install requests
#re、json都是自帶的不需要安裝

獲取JS原始碼獲取英雄的ID

首先讓咱們找到每個英雄面板的地址，F12開啟開發者工具頁面選擇器，選中圖片自動找尋到圖片的地址

龍的傳人李青的圖片地址：

http://ossweb-img.qq.com/images/lol/web201310/skin/big64003.jpg

神僧李青圖片地址：

http://ossweb-img.qq.com/images/lol/web201310/skin/big64011.jpg

不難發現其中的規律：

big64003.jpg

big64011.jpg

很明顯 64是英雄的ID地址 003是面板順序

找到JS原始碼，你會發現英雄的ID地址並不是按照順序排列下來的！

def getLOLImages():
    url_js = 'http://lol.qq.com/biz/hero/champion.js'
    #獲取JS原始碼 str bytrs位元組
    res_js = requests.get(url_js).content
    #轉碼
    html_js = res_js.decode()
    #正則表達
    req = '"keys":(.*?),"data"'
    list_js = re.findall(req,html_js)
    # str → dict
    dict_js = json.loads(list_js[0])
    print(dict_js)

很多不明白這個正則運算式怎麼寫，這裡簡單的說明一下：

前面是 “keys”：後面是，“data” 然後我們需要提取的是中間的部分，那麼不管它們是啥，我們就是.?* 萬用字元全部匹配出來。

後面就不詳細講解了，本篇文章最後，小編會帶上詳細的影片講解

拼接URL地址、獲取下載圖片的地址

    pic_list = []
    for key in dict_js:
        #print(key)
        for i in range(20):
            num = str(i)
            if len(num) == 1:
                hreo_num = "00"+num
            elif len(num) == 2:
                hreo_num = "0"+num
            numstr = key+hreo_num
            url = "http://ossweb-img.qq.com/images/lol/web201310/skin/big"+numstr+".jpg"
            print(url)
            pic_list.append(url)

            list_filepath = []
            path = "圖片儲存地址"
            #print(dict_js.values())
            for name in dict_js.values():
                for i in range(20):
                    file_path = path + name + str(i) + '.jpg'
                    list_filepath.append(file_path)
                    #print(list_filepath)

下載圖片

    n = 0               
    for picurl in pic_list:
        res = requests.get(picurl)
        n+=1

        if res.status_code ==200:

            print("正在下載%s"%list_filepath[n])

            with open(list_filepath[n],'wb') as f:
                f.write(res.content)