(點選上方公眾號,可快速關註一起學Python)
作者:麻瓜程式設計 連結:
https://mp.weixin.qq.com/s/hYDF_rnVwadw0aZuEVXcqg
我就不信有滿分飄過的學霸!
請聽題:
點選下方空白區域檢視答案
▼
正確答案 B
最大的爬蟲就是搜尋引擎。Google作為世界上最大的搜尋引擎,其爬蟲流量也遙遙領先於其他各類搜尋引擎爬蟲,佔所有爬蟲流量的3.87%
點選下方空白區域檢視答案
▼
正確答案 C
企業工商註冊資訊不是個人資料,資料來源都是國家公示網站,所公示內容是依法公開的內容。
對於敏感的個人資訊,比如爬取社保、身份證號、淘寶交易記錄,是違法的。
點選下方空白區域檢視答案
▼
正確答案 A
資料來自淺黑科技:關於爬蟲,這裡有一份《中國焦慮圖鑒》
點選下方空白區域檢視答案
▼
正確答案 B
經過分析,發現迷之字元規律的出現在 span 標簽內,所以就把 span 標簽的內容幹掉好了。
點選下方空白區域檢視答案
▼
正確答案 C
美團這裡用到的是 background 拼湊。數字其實是圖片,根據不同的background偏移,顯示出不同的字元。
既然人眼可以看出數字是多少,那麼程式也可以識別。可以用 tesseract-ocr 進行圖片識別。
點選下方空白區域檢視答案
▼
正確答案 B
這裡去哪兒的策略是先用四個i標簽渲染,再用兩個b標簽去絕對定位偏移量,改寫故意展示錯誤的i標簽,最後在視覺上形成正確的價格。
找到規律,根據元素偏移量去計算正確的數字和位數,替換掉錯誤的價格即可。
點選下方空白區域檢視答案
▼
正確答案 AC
使用 Selenium + chromedriver 或者抓 API 介面都可以,這裡不推薦 PhantomJS 是因為框架不再維護了。但可能一些老的教程還在用。
點選下方空白區域檢視答案
▼
正確答案 AB
抓包 mitmproxy 或者 APK 反編譯都可以。Requests 肯定是請求不到的了。
10. 簡答題:這張圖還可以再往下補充的進攻和防守輪迴是什麼?
點選下方空白區域檢視答案
▼
參考答案
其實可以補充的有很多了,真實世界比這張圖複雜很多,在這裡提供兩個思路:
一輪:
反爬的防守:識別出來selenium爬蟲,進行資料投毒,給假資料。
爬取的進攻:Android模擬器,模擬正常使用者,或者再換一個http client
又一輪:
爬取的進攻:模擬正常使用者行為,點選其他功能或者頁面
反爬的防守:爬取的限速限流
長按二維碼向我轉賬
受蘋果公司新規定影響,微信 iOS 版的贊賞功能被關閉,可透過二維碼轉賬支援公眾號。