大數據平臺定義
大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用于大數據的技術,包括大規模并行處理(MPP)數據庫,數據挖掘電網,分布式文件系統,分布式數據庫,云計算平臺,互聯網,和可擴展的存儲系統。
大數據平臺是為了計算現今社會所產生的越來越大的數據量。以存儲、運算、展現作為目的的平臺。
行業大數據應用面對的挑戰
- 硬件無法更根數據規模的指數級增長
- 復雜數據算法與業務模型銜接
- 過于分散和原始成為大數據應用的障礙
- 諸多大數據并行計算架構的選擇
- 大數據應用實現路徑從哪兒開始
- 專業人才匱乏
大數據平臺產品架構分類
大數據平臺概覽
?
?
大數據交換匯集平臺
?
?
如上圖可以看到大數據交換匯集平臺劃分為三大模塊:首先是原始數據源,特點是分散、種類多樣化、時效性差異大;其次是大數據采集交換區,特點是多種技術手段,平臺化系統,快速部署,統一管理;最后是數據湖為大數據應用提供全兼容數據存儲。
?
大數據交換匯集平臺架構
ETL核心架構
豐富的ETL構件庫
?
大數據交換平臺特點
為數據集成、數據整合、數據中心建設、基于復雜數據流的數據處理提供穩定高效的數據支撐。
大數據治理平臺
?
元數據標準管理
?
不同政府部門根據自身的業務特點,對數據元中的對象類詞或特性詞進行限定,生成新的數據元。例如,對于數據元“年”,財政部門可以將其擴展為“財政年度”;又如,對于數據元“姓名”,稅務部門可以將其擴展為“納稅人名稱”。需要注意的是,擴展后的數據元與原數據元相比,在定義、數據類型、數據格式、值域等屬性上不能出現不一致或矛盾的現象。
數據元管理功能:
(1)提供對數據元進行新增,修改,刪除,導出,導入等功能;
(2)支持分數據元類目對數據元進行管理和維護;
(3)提供對數據元類目進行新增,修改,刪除操作,用戶可以根據自己需要自定義數據元類目,然后對數據元進行管理;
(4)支持按照數據元名稱、標記等不同維度對數據元進行查找,方便用戶對數據元的定義、格式等關鍵信息進行了解。
?段碼數據標準管理
?
段碼管理主要是對信息類的編碼進行管理,它分為:前段碼和后段碼;其中,前段碼的分配需要辦理人員向管理人員提出需求后,交由管理人員統一分配,避免信息重復。后段碼為信息類進行審核并發布后,在后段碼管理中對信息類的后段碼信息進行查詢。
前段碼由5位數字組成,后段碼由7位數字和字母組成,其中前2位主要區分不同的部門,由省級目錄管理者分配編號,第3位為大寫字母,標識信息類所屬類型,由各部門定義,第4位為大寫字母,標識信息類主體類型,第5~7位由數字組成,由順序號001~999組成;
?
信息類管理
?
信息類,描述一個數據對象(如建設審批項目),在不同單位、不同系統間,肯定具有不同的名稱定義。為了盡量消除這種定義的差異性,通過信息類管理,把同一信息(信息類)的不同構成定義(信息項)進行對應,對于定義是否保持一致性進行審核。這也是【數據一致性】的關鍵管理功能。
如:創建一個信息類“項目審批信息”,其中包含的信息項有“名稱、類別、建設單位、建設規模、投資概算、資金來源、建設地點、批準文號”等。
功能定義:
- 信息類生產者在管理界面新增/修改信息
- 審核人員對其進行審核或回退
- 執行回退時,該信息類交由生產者重新修改
- 執行審核后,則可對其進行發布,發布完成后可供創建數據庫表使用
數據資源目錄
?
支持逐級對不同的目錄類型(如主題目錄,資源形態目錄等)的目錄進行新增、修改、刪除等操作,并支持對目錄進行編號以及對目錄類型的增加、修改、刪除等功能。從目錄標準管理,到目錄檢索。
信息類授權
?
主要是對部門能查看信息類的范圍進行授權,配置的相關部門將在資源檢索中查看到相關信息。如:管理人員選中授權部門勾選一個或多個信息類進行保存后,選中的授權部門在資源檢索中能夠查看到授權時勾選的信息類信息。
質量管理系統——規則定義
?
制定統一的數據質量校驗體系,統一數據質量度量、數據質量邏輯處理、執行的規范化步驟,可提升整體數據質量。對不滿足要求的數據,可快速分析出數據的問題并閉環處理。
數據質量校驗規則是為源系統中存在的數據質量問題建立標準數據規范,從而得到有效的、可用的數據;支持選擇需要建立規則的業務數據,創建業務規則;支持創建通用規則,包括:完整性校驗、一致性校驗、數據正確性校驗、準確性校驗(是否允許為空、數據長度);支持可按照不同目錄下信息類的數據項,根據業務邏輯要求,進行條件配置;
質量管理系統
?
通過制定的規則、基礎數據、數據映射關系,創建需要執行的質量校驗任務;任務管理支持可按任務名稱、任務目錄、狀態進行多維度查詢;支持啟停操作和刪除操作;采用規則引擎的方式針對數據進行清洗處理。
根據規范的校驗問題的處理流程,對規則校驗未通過的數據提供問題數據質量閉環管理功能;在問題治理人員的臺賬中顯示未通過規則校驗的數據,問題治理人員對數據進行處理了,并對該問題進行回復。
問題數據治理管理支持可按(執行任務所屬的部門、任務ID、任務處理狀態、處理時間)進行多維度查詢;能夠根據查詢條件,多維度的查詢想到分析的數據;能夠通過系統數據,輸出數據質量報告;實時分析數據質量趨勢;實時分析數據質量占比(成功數、失敗數);可根據使用習慣,按照(柱狀圖、趨勢圖、原型圖等)多種查詢模式;
數據臺賬
?
- 支持按照目錄分類,按照部門,按照表結構查詢經過清洗后的合格的數據,包含結構化數據和非結構化數據。
- 支持自定義列表,選擇需要展示的列名,點擊確認后,列表只顯示選擇的列名進行展示。
- 支持數據的導出:支持選擇單個或多個分類,支持選擇單個或多個表進行數據的導出。
大數據可視化平臺
大數據可視化平臺功能支持:UI編輯、組件庫、事件聯動、模型數據過濾條件設置、組件渲染、容器監聽、主題管理、布局模板、任務管理。
?
大數據可視化平臺軟件架構
大數據可視化平臺帶來的價值
?
1、快速搭建部署
- 利用豐富強大的UI,快速搭建前端分析界面和分析流程
- 完全可以在幾天之內基本實現客戶的大數據藍圖
- 縮短周期,降低成本,最大限度提升成功率
?
2、立體數據動態呈現
- 實時流狀大數據動態呈現、智能分析
- 適用于網絡流量監控、交通疏導等對數據實時性要求較高的應用領域
?
3、靈活搭配提升費效比
- 可通過輕量級解決方案實現靈活的大數據可視化
- ?數據展示、數據處理、元數據管理相互松耦合
4、基于GIS全方位呈現
- 數據延伸至空間地理維度
- 實現數據的空間分布展示
- 數據保持動態實時性
?
5、支持移動端數據
- 支持大數據可視化的移動端部署
- 實現與后臺的無縫對接
- 實現離線數據分析
- 輕松擺脫對固網的依賴