歡迎光臨
每天分享高質量文章

Python3爬取B站影片彈幕【文字+影片】

需要準備的環境:

1、一個B站賬號,需要先登入,否則不能檢視歷史彈幕記錄

2、聯網的電腦和順手的瀏覽器,我用的Chrome

3、Python3環境以及request模組,安裝使用命令,換源比較快:

pip3 install  request -i http://pypi.douban.com/simple 

爬取步驟:

1.登入後開啟需要爬取的影片頁面,開啟開發者工具臺,Chrome可以使用F12快捷鍵,選擇network監聽請求 

2.點選檢視歷史彈幕,獲取請求 

其中rolldate後面的數字表示該影片對應的彈幕號,傳回的資料中timestamp表示彈幕日期,new表示數目

4.在檢視歷史彈幕中任選一天,檢視,會發出新的請求

dmroll ,時間戳,彈幕號,表示獲取該日期的彈幕,1507564800 表示2017/10/10 0:0:0

該請求傳回xml資料

5.使用正則運算式獲取所有彈幕訊息,匹配樣式

(.*?)‘  

6.拼接字串,將所有彈幕儲存到本地檔案即可

with open(‘content.txt’, mode=’w+’, encoding=’utf8′) as f:    f.write(content) 

7.參考程式碼如下,將彈幕按照日期儲存為單個檔案…因為太多了…

8.最終效果


影片講解