Welcome to the D-age
對於網路上的公開資料,理論上只要由服務端傳送到前端都可以由爬蟲獲取到。但是 Data-age 時代的到來,資料是新的黃金,毫不誇張的說,資料是未來的一切。基於統計學數學模型的各種人工智慧的出現,離不開資料驅動。資料採集、清洗是最末端的技術成本,網路爬蟲也是基礎採集指令碼。但是有幾個值得關註的是:
-
對於實時變化的網路環境,爬蟲的持續有效性如何保證
-
資料採集、清洗規則的適用範圍
-
資料採集的時間與質量–效率
-
爬與反爬的恩怨
-
爬蟲的法律界限
法律的邊界,技術無罪
對於上面幾個關註點,我最先關註的便是爬蟲的法律界限 ,我曾經諮詢過一個律師:
Q: 老師,我如果用爬蟲爬取今日頭條這種型別網站的千萬級公開資料,算不算違法呢?
A: 爬取的公開資料不得進行非法使用或者商業利用
簡單的概括便是爬蟲爬取的資料如果進行商業出售或者有獲利的使用,便構成了“非法使用”。而一般的爬蟲程式並不違法,其實這是從法律專業的一方來解讀,如果加上技術層面的維度,那麼應該從這幾方面考慮:
-
爬取的資料量
-
爬取資料的型別(資料具有巨大的商業價值,未經對方許可,任何人不得非法獲取其資料並用於經營行為)
-
爬取的資料用途 (同行競爭?出售?經營?分析?實驗?…)
-
是否遵循網站的 robots.txt 即 機器人協議
-
爬取行為是否會對對方網站造成不能承受的損失(大量的爬取請求會把一個小型網站拖垮)
其實爬蟲構成犯罪的案例是開始增多的,相關新聞:
-
當爬蟲遇上法律會有什麼風險?
(https://www.sohu.com/a/256579233_161795)
-
程式員爬蟲竟構成犯罪?
(https://baijiahao.baidu.com/s?id=1609682215455337498