作者:探碼科技, 原文鏈接: http://nbbskj.com/dyson/651
面對互聯網海量的信息,政府機關、企事業單位和研究機構都迫切希望獲取與自身工作相關的有價值信息,如何方便快捷地獲取這些信息就變得至關重要 了。如果采用原始的手工收集處理方式,費時費力且毫無效率,面對越來越多的信息資源,工作強度和難度可想而知。因此,政府和企業都需要一種能夠提供高質量和高效運作的信息采集解決方案。
Dyson 網絡數據采集系統針對不同行業用戶的需求,適用于多源數據采集,定制化開發并私有化部署的大規模網絡數據采集系統。提供從數據采集,爬蟲撰寫,任務調度,數據清洗合并到數據存儲一站式服務,讓政府和企業能夠快速獲取海量的目標數據。
Dyson 網絡數據采集系統整個部署后工作流程如下:
通過對既有數據源進行分類整理、欄目劃分、字段拆解,形成一個完整的數據源分析報告,以及對采集到的信息數據進行智能分析最終通過數據源的分析,發現數據之間的關系、規律和取值范圍,為數據采用任務做準備。
采用Docker微服務模式掛載每個采集爬蟲程序,通過實時任務調度系統對微服務進行任務調度,實時數據采集,實時錯誤監控。
編寫數據清洗正則,對多源異構數據進行清洗和合并操作,將采集的數據打包導出或者API形式對接到業務平臺。
可視化展示采集任務的實時數據。
采集頁面欄目的增加、刪除、修改以及欄目數據源查看。
爬蟲任務可增加、刪除、修改;同時可以手工啟動或停止爬蟲程序,設置每個爬蟲程序的定時啟動、停止時間。