在《定制化大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)采集的一站式解決方案》一文中,已經(jīng)介紹過關(guān)于Dyson大數(shù)據(jù)采集平臺的工作流程,以及展示了部分的案例實圖。本文將詳解探碼Dyson大數(shù)據(jù)采集平臺的詳細功能。
Dyson 網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)適用于多源數(shù)據(jù)采集,可以定制化開發(fā)并私有化部署的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)。系統(tǒng)提供從數(shù)據(jù)采集,爬蟲撰寫,任務(wù)調(diào)度,數(shù)據(jù)清洗合并到數(shù)據(jù)存儲一站式服務(wù),讓政府和企業(yè)能夠快速獲取海量的目標數(shù)據(jù)。
系統(tǒng)整體功能
系統(tǒng)可做公開互聯(lián)網(wǎng)數(shù)據(jù)采集、全文檢索、操作日志,同時考慮到實施中可能會與多個其他系統(tǒng)數(shù)據(jù)對接,因此提供數(shù)據(jù)交換和數(shù)據(jù)治理的相應(yīng)功能支持,預(yù)留相應(yīng)API接口。本系統(tǒng)提供豐富的配置選項,可根據(jù)實際業(yè)務(wù)進行靈活調(diào)整。
采集系統(tǒng)主要包含了以下功能:
- 一是采集任務(wù)的統(tǒng)籌計劃、自動執(zhí)行、統(tǒng)一管理、執(zhí)行情況的趨勢分析。
- 二是提供靈活的任務(wù)自動化編排引擎,可進行靈活配置,對采集任務(wù)進行細粒度管理。
- 三是提供豐富的接口,保證數(shù)據(jù)采集的具備高拓展性。
- 四是提供詳細的監(jiān)管操作日志,對任務(wù)執(zhí)行可追溯。
- 五是對采集結(jié)果進行智能化分析篩查。
系統(tǒng)可以執(zhí)行的任務(wù):
- 概況:系統(tǒng)支持展示系統(tǒng)用戶管理信息、創(chuàng)建任務(wù)數(shù)、運行任務(wù)數(shù)、出錯任務(wù)數(shù)以及采集任務(wù)運行趨勢圖,支持自定義采集任務(wù)概況展示內(nèi)容;系統(tǒng)支持根據(jù)某個用戶來切換相應(yīng)的任務(wù),直觀展示該任務(wù)的時間波狀圖 ;?
- 采集任務(wù)管理:系統(tǒng)具備采集任務(wù)組創(chuàng)建、采集任務(wù)創(chuàng)建、任務(wù)編輯刪除、任務(wù)查看查詢、任務(wù)啟動停止、任務(wù)導(dǎo)入導(dǎo)出等功能;系統(tǒng)支持根據(jù)采集任務(wù)名稱、接口分類、采集任務(wù)狀態(tài)、創(chuàng)建時間 、創(chuàng)建人員等條件搜索相應(yīng)的數(shù)據(jù)采集接口;系統(tǒng)支持根據(jù)信息更新頻次,設(shè)置每周、每天或間隔執(zhí)行 ,也可自定義設(shè)置執(zhí)行時間;系統(tǒng)支持對不同類型事件數(shù)據(jù)資源進行分類存儲和檢索。
- 可根據(jù)人員日常操作習慣,設(shè)置數(shù)據(jù)采集規(guī)則,如打開網(wǎng)頁、點擊元素、輸入文本、循環(huán)、提取數(shù)據(jù)、鼠標懸浮、判斷等;
- 能夠?qū)Σ杉蝿?wù)進行測試,檢查配置是否正確;
- 支持從頁面中提取數(shù)據(jù)固化到數(shù)據(jù)庫, 可將采集的頁面整體生成采集;
- 通過編程,對獲取的數(shù)據(jù)進行字段格式化、字段合并,支持觸發(fā)器判斷并根據(jù)判斷結(jié)果進行數(shù)據(jù)存儲、數(shù)據(jù)更新、數(shù)據(jù)清洗去重。
- 系統(tǒng)支持接口分類管理,集中展示接口類型,調(diào)用時間、調(diào)用人員、調(diào)用結(jié)果等信息;?
- 支持數(shù)據(jù)接口適配,實現(xiàn)從一個渠道端請求接口數(shù)據(jù)到服務(wù)標準請求數(shù)據(jù)之間的轉(zhuǎn)換;
- 提供每個任務(wù)采集數(shù) 據(jù)的查看功能及相應(yīng)數(shù)據(jù)的導(dǎo)出功能,可導(dǎo)出為Excel、Json、CSV等格式;
- 開放數(shù)據(jù)提供接口,外部系統(tǒng)可通過接口獲取本系統(tǒng)數(shù)據(jù)。
- 系統(tǒng)支持對數(shù)據(jù)采集任務(wù)的執(zhí)行情況、信息的采集情況及采集網(wǎng)站的請求情況進行統(tǒng)一的監(jiān)控;?
- 能夠暴露API 接口,讓外部程序可調(diào)用日志;?
- 提供接口服務(wù)調(diào)用的記錄等相關(guān)監(jiān)控數(shù)據(jù);
- 設(shè)置郵件接收,可實時接收采集數(shù)據(jù)出錯、匯總報告郵件。
- 對不同渠道數(shù)據(jù)進行智能去重合并處理;
- 將網(wǎng)頁中的內(nèi)容同步采集,并提供采集附件等功能。
探碼Dyson數(shù)據(jù)采集系統(tǒng)具有實時的數(shù)據(jù)采集、海量的存儲和計算能力、全流程的采集服務(wù)能力,從而打破數(shù)據(jù)孤島、打通業(yè)務(wù)數(shù)據(jù)與用戶行為數(shù)據(jù)、可視化分析,助力用戶實現(xiàn)實時分析、一站式分析,實現(xiàn)企業(yè)數(shù)據(jù)化運營。