關於Python爬蟲種類、法律、輪子的一二三-知識星球

Welcome to the D-age

對於網路上的公開資料，理論上只要由服務端傳送到前端都可以由爬蟲獲取到。但是 Data-age 時代的到來，資料是新的黃金，毫不誇張的說，資料是未來的一切。基於統計學數學模型的各種人工智慧的出現，離不開資料驅動。資料採集、清洗是最末端的技術成本，網路爬蟲也是基礎採集指令碼。但是有幾個值得關註的是：

法律的邊界,技術無罪

對於上面幾個關註點，我最先關註的便是爬蟲的法律界限 ，我曾經諮詢過一個律師：

Q: 老師，我如果用爬蟲爬取今日頭條這種型別網站的千萬級公開資料，算不算違法呢？
A: 爬取的公開資料不得進行非法使用或者商業利用

簡單的概括便是爬蟲爬取的資料如果進行商業出售或者有獲利的使用，便構成了“非法使用”。而一般的爬蟲程式並不違法，其實這是從法律專業的一方來解讀，如果加上技術層面的維度，那麼應該從這幾方面考慮：

其實爬蟲構成犯罪的案例是開始增多的，相關新聞:

關於Python爬蟲種類、法律、輪子的一二三