歡迎光臨
每天分享高質量文章

爬蟲非專業八級模擬考試

(點選上方公眾號,可快速關註一起學Python)

作者:麻瓜程式設計       連結:

https://mp.weixin.qq.com/s/hYDF_rnVwadw0aZuEVXcqg

我就不信有滿分飄過的學霸!

請聽題:

 

點選下方空白區域檢視答案

正確答案 B


最大的爬蟲就是搜尋引擎。Google作為世界上最大的搜尋引擎,其爬蟲流量也遙遙領先於其他各類搜尋引擎爬蟲,佔所有爬蟲流量的3.87%

 

點選下方空白區域檢視答案

正確答案 C


企業工商註冊資訊不是個人資料,資料來源都是國家公示網站,所公示內容是依法公開的內容。

對於敏感的個人資訊,比如爬取社保、身份證號、淘寶交易記錄,是違法的。

 

 

 

點選下方空白區域檢視答案

正確答案 A


資料來自淺黑科技:關於爬蟲,這裡有一份《中國焦慮圖鑒》

 

點選下方空白區域檢視答案

正確答案 C


使用打碼平臺是最快解決問題的方法

 

點選下方空白區域檢視答案

正確答案 B


經過分析,發現迷之字元規律的出現在 span 標簽內,所以就把 span 標簽的內容幹掉好了。

 

點選下方空白區域檢視答案

正確答案 C


美團這裡用到的是 background 拼湊。數字其實是圖片,根據不同的background偏移,顯示出不同的字元。

既然人眼可以看出數字是多少,那麼程式也可以識別。可以用 tesseract-ocr 進行圖片識別。

 

點選下方空白區域檢視答案

正確答案 B


這裡去哪兒的策略是先用四個i標簽渲染,再用兩個b標簽去絕對定位偏移量,改寫故意展示錯誤的i標簽,最後在視覺上形成正確的價格。

找到規律,根據元素偏移量去計算正確的數字和位數,替換掉錯誤的價格即可。

 

 

點選下方空白區域檢視答案

正確答案 AC


使用 Selenium + chromedriver 或者抓 API 介面都可以,這裡不推薦 PhantomJS 是因為框架不再維護了。但可能一些老的教程還在用。

 

點選下方空白區域檢視答案

正確答案 AB


抓包 mitmproxy 或者 APK 反編譯都可以。Requests 肯定是請求不到的了。

 

10. 簡答題:這張圖還可以再往下補充的進攻和防守輪迴是什麼?

 

點選下方空白區域檢視答案

參考答案


其實可以補充的有很多了,真實世界比這張圖複雜很多,在這裡提供兩個思路:

一輪:

反爬的防守:識別出來selenium爬蟲,進行資料投毒,給假資料。

爬取的進攻:Android模擬器,模擬正常使用者,或者再換一個http client

又一輪:

爬取的進攻:模擬正常使用者行為,點選其他功能或者頁面

反爬的防守:爬取的限速限流

 

    贊(0)

    分享創造快樂