作者:探碼科技, 原文鏈接: http://nbbskj.com/bigdata/7
基礎(chǔ)平臺技術(shù)數(shù)據(jù)處理流程圖是以數(shù)據(jù)處理過程為導(dǎo)向,選擇合適的技術(shù)架構(gòu)平臺解決方案,最終實現(xiàn)數(shù)據(jù)處理的整體流程架構(gòu)。
作為數(shù)據(jù)處理的最底層數(shù)據(jù)源,主要是三大類數(shù)據(jù):
主要內(nèi)容的滿足應(yīng)用需求所需要的數(shù)據(jù),作為監(jiān)察系統(tǒng)所需要的是實時流式數(shù)據(jù)(交易系統(tǒng)實時數(shù)據(jù))和批量塊(結(jié)算系統(tǒng)批量數(shù)據(jù)),數(shù)據(jù)類型的是文件數(shù)據(jù)和關(guān)系型文本數(shù)據(jù)。此類數(shù)據(jù)量占總數(shù)據(jù)只有10%,傳統(tǒng)基于小型機的關(guān)系型數(shù)數(shù)據(jù)處理系統(tǒng)可以處理此類數(shù)據(jù),基于大數(shù)據(jù)平臺技術(shù)的實時處理計算系統(tǒng)也可以處理此類數(shù)據(jù)。
主要是應(yīng)用系統(tǒng)衍生的行為產(chǎn)生的數(shù)據(jù),即與監(jiān)察系統(tǒng)相關(guān)的企業(yè)行為數(shù)據(jù),互聯(lián)網(wǎng)產(chǎn)生的關(guān)聯(lián)數(shù)據(jù)等等,數(shù)據(jù)類型的是XML, html, log, tag...。此類數(shù)據(jù)量占總數(shù)據(jù)量是30%,傳統(tǒng)基于小型機的關(guān)系型數(shù)據(jù)處理系統(tǒng)可以處理此類數(shù)據(jù)的一小部分結(jié)構(gòu)化數(shù)據(jù);大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)只能由目前新興的大數(shù)據(jù)平臺技術(shù)進行處理。
主要是運行機器時時刻刻產(chǎn)生的大量日志數(shù)據(jù)(syslog日志數(shù)據(jù)),互聯(lián)網(wǎng)網(wǎng)絡(luò)爬蟲爬取大量非結(jié)構(gòu)化文本數(shù)據(jù)等等。這些數(shù)據(jù)在以往傳統(tǒng)架構(gòu)的解決方案中,由于數(shù)據(jù)量巨大都被忽略了,此類數(shù)據(jù)量占總數(shù)據(jù)量是60%;目前新興的大數(shù)據(jù)平臺技術(shù)完全可以采集分析處理這些數(shù)據(jù),揭示數(shù)據(jù)背后的關(guān)聯(lián)關(guān)系。
基礎(chǔ)數(shù)據(jù)平臺主要的數(shù)據(jù)采集源是關(guān)系型數(shù)據(jù)庫的實時交易數(shù)據(jù)和監(jiān)察數(shù)據(jù),以及其他輔助數(shù)據(jù),數(shù)據(jù)類型主要涵蓋了結(jié)構(gòu)化的關(guān)系型數(shù)據(jù),半結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的文檔、圖片影像等數(shù)據(jù)。
三類數(shù)據(jù)通過統(tǒng)一的數(shù)據(jù)采集處理平臺,進行數(shù)據(jù)的采集、清洗、預(yù)加工等處理后,分別進入傳統(tǒng)的關(guān)系型數(shù)據(jù)庫架構(gòu)處理平臺和大數(shù)據(jù)架構(gòu)計算平臺。
進入傳統(tǒng)的關(guān)系型數(shù)據(jù)庫架構(gòu)處理平臺的數(shù)據(jù)經(jīng)過數(shù)據(jù)倉庫的加工處理,通過高性能的小型機處理系統(tǒng)對外提供實時數(shù)據(jù)處理和歷史數(shù)據(jù)處理,實現(xiàn)統(tǒng)一數(shù)據(jù)訪問接口,滿足業(yè)務(wù)應(yīng)用需求。
進入大數(shù)據(jù)架構(gòu)計算平臺的數(shù)據(jù)完全可以通過實時計算處理平臺和歷史計算處理平臺,實現(xiàn)傳統(tǒng)架構(gòu)下的數(shù)據(jù)加工處理。并且可以通過ETL數(shù)據(jù)交換處理平臺實現(xiàn)兩個平臺之間的數(shù)據(jù)交換,共享數(shù)據(jù),充分發(fā)揮每個平臺的優(yōu)勢,更好的服務(wù)上層應(yīng)用。
大數(shù)據(jù)技術(shù)架構(gòu)還提供了數(shù)據(jù)挖掘分析處理平臺、復(fù)雜網(wǎng)絡(luò)處理平臺和自然語言處理平臺,實現(xiàn)對行為數(shù)據(jù)和機器數(shù)據(jù)進行全量數(shù)據(jù)建模分析,分析發(fā)現(xiàn)監(jiān)察風(fēng)險,充分利用數(shù)據(jù),挖掘更深的關(guān)系網(wǎng)絡(luò)。
大數(shù)據(jù)技術(shù)架構(gòu)提供統(tǒng)一運維管理、服務(wù)調(diào)度平臺,是所有平臺統(tǒng)一管理,更好利于平臺的管理。
加工處理后的數(shù)據(jù)通過系統(tǒng)提供統(tǒng)一的數(shù)據(jù)接口處理層,對外提供數(shù)據(jù)訪問和各類應(yīng)用訪問,最終實現(xiàn)應(yīng)用系統(tǒng)的方便統(tǒng)一調(diào)用每個平臺的數(shù)據(jù)。
報表展示工具是一個以工作流為核心的、強調(diào)面向解決方案而非工具組件的BI套件,整合了多個開源項目,目標(biāo)是和商業(yè)BI相抗衡。它偏向于與業(yè)務(wù)流程相結(jié)合的BI解決方案,側(cè)重于大中型企業(yè)應(yīng)用。它允許商業(yè)分析人員或開發(fā)人員創(chuàng)建報表,儀表盤,分析模型,商業(yè)規(guī)則和 BI 流程。