採集豆瓣影評
流程如下:
-
建立一個Scrapy專案;
-
定義提取的Item;
-
編寫爬取網站的 spider 並提取 Item;
-
編寫 Item Pipeline 來儲存提取到的Item(即資料)。
-
提取資料庫資料,處理展示
-
建立專案,終端輸入
-
專案結構(不包括後續配置)
-
scrapy中cookies的寫法,可以與request中cookie的寫法對比下
這裡我用了兩種方法解決這個問題,第一個是加cookie,效果不太理想,我換了第二種採用登入的方式。
-
由於在登入過程中可能需要輸入驗證碼,目前採用把驗證碼圖片儲存至本地手動輸入
(藉助一些打碼平臺可以實現自動識別驗證碼輸入,收費)
詞雲和分佈圖展示
本來是想用至尊寶做一個詞雲圖的,找了好久沒找到素材,就用了之前我的一張桌布
話說,詞雲圖好像並不能看出什麼~而分佈圖表達的結果也並不直觀,那就代表本次的結果沒有什麼卵用,個人覺得是因為資料量太小了,而且詞雲圖本身對資料展示的結果只能看出高頻詞而已…
時光無法回頭,人生也不能重來,珍惜眼前人。
千萬不要得到的時候在毀,失去的時候在悔!
作者:_知幾
源自:https://ask.hellobi.com/blog/zhiji/11170
宣告:文章著作權歸作者所有,如有侵權,請聯絡小編刪除
Github地址:https://github.com/ReainL/douban_qrs