當前位置：知識星球 > 後端 > 正文

小電影網站Python爬蟲，一天可爬取500萬以上的國產自拍影片

2018-09-25 分類：後端閱讀(418) 評論(0)

宣告：本專案旨在學習Scrapy爬蟲框架和MongoDB資料庫，不可使用於商業和個人其他意圖。若使用不當，均由個人承擔。

PornHubBot

PornHubBot專案主要是爬取全球最大的小電影網站PornHub的影片標題、時長、mp4連結、封面URL和具體的PornHub連結

專案爬的是PornHub.com，結構簡單，速度飛快

爬取PornHub影片的速度可以達到500萬/天以上。具體視個人網路情況,因為我是家庭網路，所以相對慢一點。

10個執行緒同時請求，可達到如上速度。若個人網路環境更好，可啟動更多執行緒來請求，具體配置方法見 [啟動前配置]

有需要Python學習資料的小夥伴嗎?小編整理一套Python資料和PDF，感興趣者可以關註小編後私信學習資料（是關註後私信哦）反正閑著也是閑著呢，不如學點東西啦

環境、架構

開發語言: Python2.7
開發環境: MacOS系統、4G記憶體
資料庫: MongoDB
主要使用 scrapy 爬蟲框架
從Cookie池和UA池中隨機抽取一個加入到Spider
start_requests 根據 PorbHub 的分類，啟動了5個Request，同時對五個分類進行爬取。
並支援分頁爬取資料，並加入到待爬佇列。

使用說明

啟動前配置

安裝MongoDB,並啟動，不需要配置
安裝Scrapy
安裝Python的依賴模組：pymongo、json、requests

根據自己需要修改 Scrapy 中關於間隔時間、啟動Requests執行緒數等得配置

啟動

python PornHub/quickstart.py

執行截圖

資料庫說明

資料庫中儲存資料的表是 PhRes。以下是欄位說明:

PhRes 表：

video_title:影片的標題,並作為唯一標識.
link_url:影片調轉到PornHub的連結
image_url:影片的封面連結
video_duration:影片的時長，以 s 為單位
quality_480p: 影片480p的 mp4 下載地址

程式碼：GitHub：xiyouMc/WebHubBot

贊(0)

標籤：iOS MongoDB Python 爬蟲

相關推薦

分享創造快樂