宣告:本專案旨在學習Scrapy爬蟲框架和MongoDB資料庫,不可使用於商業和個人其他意圖。若使用不當,均由個人承擔。
PornHubBot
PornHubBot專案主要是爬取全球最大的小電影網站PornHub的影片標題、時長、mp4連結、封面URL和具體的PornHub連結
專案爬的是PornHub.com,結構簡單,速度飛快
爬取PornHub影片的速度可以達到500萬/天以上。具體視個人網路情況,因為我是家庭網路,所以相對慢一點。
10個執行緒同時請求,可達到如上速度。若個人網路環境更好,可啟動更多執行緒來請求,具體配置方法見 [啟動前配置]
有需要Python學習資料的小夥伴嗎?小編整理一套Python資料和PDF,感興趣者可以關註小編後私信學習資料(是關註後私信哦)反正閑著也是閑著呢,不如學點東西啦
環境、架構
-
開發語言: Python2.7
-
開發環境: MacOS系統、4G記憶體
-
資料庫: MongoDB
-
主要使用 scrapy 爬蟲框架
-
從Cookie池和UA池中隨機抽取一個加入到Spider
-
start_requests 根據 PorbHub 的分類,啟動了5個Request,同時對五個分類進行爬取。
-
並支援分頁爬取資料,並加入到待爬佇列。
使用說明
啟動前配置
-
安裝MongoDB,並啟動,不需要配置
-
安裝Scrapy
-
安裝Python的依賴模組:pymongo、json、requests
根據自己需要修改 Scrapy 中關於 間隔時間、啟動Requests執行緒數等得配置
啟動
python PornHub/quickstart.py
執行截圖
資料庫說明
資料庫中儲存資料的表是 PhRes。以下是欄位說明:
PhRes 表:
-
video_title:影片的標題,並作為唯一標識.
-
link_url:影片調轉到PornHub的連結
-
image_url:影片的封面連結
-
video_duration:影片的時長,以 s 為單位
-
quality_480p: 影片480p的 mp4 下載地址
程式碼:GitHub:xiyouMc/WebHubBot