作者:探碼科技, 原文鏈接: http://nbbskj.com/bigdata/242
基礎平臺技術數據處理流程圖是以數據處理過程為導向,選擇合適的技術架構平臺解決方案,最終實現數據處理的整體流程架構。
作為數據處理的最底層數據源,主要是三大類數據:
主要內容的滿足應用需求所需要的數據,作為監察系統所需要的是實時流式數據(交易系統實時數據)和批量塊(結算系統批量數據),數據類型的是文件數據和關系型文本數據。此類數據量占總數據只有10%,傳統基于小型機的關系型數數據處理系統可以處理此類數據,基于大數據平臺技術的實時處理計算系統也可以處理此類數據。
主要是應用系統衍生的行為產生的數據,即與監察系統相關的企業行為數據,互聯網產生的關聯數據等等,數據類型的是XML, html, log, tag...。此類數據量占總數據量是30%,傳統基于小型機的關系型數據處理系統可以處理此類數據的一小部分結構化數據;大量半結構化和非結構化數據只能由目前新興的大數據平臺技術進行處理。
主要是運行機器時時刻刻產生的大量日志數據(syslog日志數據),互聯網網絡爬蟲爬取大量非結構化文本數據等等。這些數據在以往傳統架構的解決方案中,由于數據量巨大都被忽略了,此類數據量占總數據量是60%;目前新興的大數據平臺技術完全可以采集分析處理這些數據,揭示數據背后的關聯關系。
基礎數據平臺主要的數據采集源是關系型數據庫的實時交易數據和監察數據,以及其他輔助數據,數據類型主要涵蓋了結構化的關系型數據,半結構化的數據和非結構化的文檔、圖片影像等數據。
三類數據通過統一的數據采集處理平臺,進行數據的采集、清洗、預加工等處理后,分別進入傳統的關系型數據庫架構處理平臺和大數據架構計算平臺。
進入傳統的關系型數據庫架構處理平臺的數據經過數據倉庫的加工處理,通過高性能的小型機處理系統對外提供實時數據處理和歷史數據處理,實現統一數據訪問接口,滿足業務應用需求。
進入大數據架構計算平臺的數據完全可以通過實時計算處理平臺和歷史計算處理平臺,實現傳統架構下的數據加工處理。并且可以通過ETL數據交換處理平臺實現兩個平臺之間的數據交換,共享數據,充分發揮每個平臺的優勢,更好的服務上層應用。
大數據技術架構還提供了數據挖掘分析處理平臺、復雜網絡處理平臺和自然語言處理平臺,實現對行為數據和機器數據進行全量數據建模分析,分析發現監察風險,充分利用數據,挖掘更深的關系網絡。
大數據技術架構提供統一運維管理、服務調度平臺,是所有平臺統一管理,更好利于平臺的管理。
加工處理后的數據通過系統提供統一的數據接口處理層,對外提供數據訪問和各類應用訪問,最終實現應用系統的方便統一調用每個平臺的數據。???????
通過整合數據和應用先進的分析技術提高生產力,制造商可以提高效率,提高產品質量。在新興市場,制造商可以通過抓住市場份額,提高利潤率,開始建立競爭優勢。在發達市場,化學公司可以使用大數據來降低成本,并在產品和服務方面提供更大的創新。