Hawk是一款開源圖形化的爬蟲和資料清洗工具,GitHub Star超過2k+,前幾代版本介紹如下:
Hawk3: 終於等到你: 圖形化開源爬蟲Hawk 3釋出!
Hawk2: 120項最佳化: 超級爬蟲Hawk 2.0重磅釋出!
Hawk1: 如何從網際網路採集海量資料?租房,二手房,薪酬…
Hawk從2015年開源,但Hawk5則帶來了其歷史上最大的更新,解決諸多bug,提供開放的任務市場,手機app嗅探和更強大的除錯系統。 因此我們直接跳過Hawk4,釋出Hawk5。
那麼Hawk5帶來哪些讓人興奮的更新呢? 大招在最後!
Hawk5對介面做了進一步的完善和微調,使用更人性化:
斷點續跑和自動儲存
Hawk早期版本不穩定,使用者正在編輯任務或處理資料時,Hawk撲街了!
Hawk5能自動儲存任務,資料表,甚至當前執行的位置!一旦關閉或崩潰,不要怕!資料一條沒丟,重啟後,還能從上次中斷繼續執行!就像斷點續傳一樣,顫抖吧筒子們!
自動回補資料
這是另一革命性功能,由於訪問網站經常會超時或不可訪問,想一次性抓取且不重不漏是非常困難的。
Hawk5支援批次補資料。當發生異常時,Hawk會將異常和背景關係寫入資料表,之後即可智慧重新執行,將資料不重不漏地回補回來。
豐富的檔案,自動更新和多國語言
Hawk5中,說明檔案獲得了極大的增強,除了豐富和細緻的線上檔案之外:
https://ferventdesert.github.io/Hawk/
還在各個模組下方提供圖文並茂的說明,當你不知道該按鈕的作用時,滑鼠放在該按鈕上保持3秒就有貼心提示出現!
更貼心的是,設計完任務後,一鍵即可生成手把手說明檔案。新手按部就班即可重現該任務!
Hawk5進一步地提供了多國語言,能方便地在中文,English或其他任何語言切換,只要在執行目錄增加對應的語言檔案即可。
同時,Hawk的自動更新機制,能夠讓迭代更加敏捷,有新版本的Hawk即可一鍵更新,媽媽再也不用擔心Hawk出現bug了!
全域性引數
早期的Hawk,多工間協同比較複雜,子任務也不能徹底解決該問題。
Hawk5中提供了全域性引數系統,可以在任何模組中,使用大括號取用你已經配置的引數,並能在多個引陣列間切換。
這有什麼用呢?舉個慄子,當二手房抓取時,每個城市們頁面格式和地址都不相同, 需要手工切換多個引數。使用全域性引數後,切換配置組即可一鍵在不同城市間切換!
除錯系統和UI互動改進
早期Hawk在配置錯誤時,一條資料都出不來,卡住的不僅是Hawk,還有使用者的心。
Hawk5提供了更加方便的除錯系統,每個模組是否正常工作,會以綠色方格提醒,一目瞭然。當任務的某個模組出現異常時會及時提示。
超級複製,可以透過shift鍵,選擇多個模組,在多個任務間複製。你甚至還能將Hawk自動嗅探出的網頁XPath結構一鍵複製為python程式碼,極大地簡化爬蟲工程師的工作!
是否已經被網站封鎖?總共進行了多少次請求?全域性統計系統能夠方便的顯示當前總的web請求數,異常數,超時數,當錯誤數達到閾值時,更能自動暫停所有的任務!
除此之外,新版的Hawk更是改進了UI設計,例如XPath轉換器,能夠透過關鍵字快速定位,幾次點選即可獲取真實XPath。
社會化協作:任務市場
以前所有的Hawk使用者只能各自為政,無法共享和溝通。
在新的Hawk中,你可以瀏覽任務市場,直接載入遠端任務和瀏覽資料,並方便地組合其他人的任務。像BT站一樣,作者釋出資料清洗工程後,所有的Hawk使用者就會立即受益!
以前想抓取全國二手房很複雜,且不能應對網站改版。在Hawk市場只要輕輕點選載入任務即可,所見即所得,一鍵將資料匯出到Excel。
這是Hawk本次更新的最重要的功能,它極大地改善了Hawk社會化協作,基於GitHub。由於賬號系統的限制,目前還不能在軟體中直接上傳任務(未來會提供),如果你希望向主倉庫貢獻任務,可提交git的pull request。
在AI時代,透過大量使用者使用Hawk的行為和任務市場的積累,我們能夠透過強化學習等技術,自動讓AI學出資料清洗和轉換演演算法,讓Hawk變得更加智慧。
無限想象:自動搶票,翻譯,圖片識別…
如果你只以為Hawk就是個爬蟲,那就錯了,Hawk是個通用的流式計算客戶端。未來Hawk市場,不僅會有共享的任務,更會引入第三方外掛機制,極大地擴充套件Hawk流式計算的版圖。
目前正在開發中的瀏覽器驅動外掛,能夠讓Hawk自動控制瀏覽器,模擬點選,翻頁等一系列操作,你要做的只是做一遍後匯入到Hawk。透過配置資料清洗流,能夠實現自動搶票,鍵盤輸入等一系列功能。
Hawk5的手機遠端嗅探功能,能方便的抓取手機app的資料,相關教程會在近期放出。
未來的外掛能夠更方便地呼叫百度識圖,翻譯轉換以及各類服務儲存API,讓更多使用者能夠透過Hawk拖拽就能實現豐富的資料處理,並匯出成任何格式。
我們對Hawk的理念,是開源,去中心化和社會化協作。它沒有公司去運營,沒有中心伺服器,只依賴了免費的GitHub倉庫,使用檔案和教程都是機器自動生成的。但它也在各種艱難中一路走來,但我們對Hawk的願景,是讓資料流變得更加智慧,讓資料工作者變得更加地敏捷方便。
感謝閱讀,點選原文連結,直達Hawk檔案。如果Hawk給你提供了幫助,歡迎轉發本文給更多的朋友,並歡迎給本專案的GitHub點個star!
已傳送
朋友將在看一看看到
分享你的想法…
分享想法到看一看