作者:探碼科技, 原文鏈接: http://nbbskj.com/blog/580
隨著企業信息化建設的發展,企業建立了眾多的信息系統以進行內外部業務的工作,但是隨著信息系統的增加,各自孤立工作的信息系統將會造成大量的冗余數據和業務人員的重復勞動。企業該如何完成企業內部ERP、CRM、SCM、數據庫、數據倉庫,以及其它重要的內部系統之間數據無縫共享和交換?如何實現外部數據的采集與鏈接?ETL和數據集成兩種技術如何選擇?
ETL原本是作為構建數據倉庫的一個環節,負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。現在也越來越多地將ETL應用于一般信息系統中數據的遷移、交換和同步。
ETL中三個字母分別代表的是Extract、Transform、Load,即抽取、轉換、加載。(1)數據抽取:從源數據源系統抽取目的數據源系統需要的數據;(2)數據轉換:將從源數據源獲取的數據按照業務需求,轉換成目的數據源要求的形式,并對錯誤、不一致的數據進行清洗和加工。(3)數據加載:將轉換后的數據裝載到目的數據源。
百度百科釋義:“數據集成是把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。”簡單來說, 數據集成是將來自不同網站的數據聚合和管理到單個同類工作流程的過程。該過程包括數據訪問,轉換,映射,質量保證和數據融合。
數據集成是個統稱, 可以通過ETL的方法收集數據。 數據集成包含了:ETL、主數據管理、數據質量監控、元數據管理、數據生命周期管理共五大功能模塊。
數據集成是包含ETL、主數據管理等大數據技術的融合,為組織提供了存儲在多個數據源中數據的統一視圖,而提取、轉換和加載(ETL)技術就是數據集成的早期嘗試。數據集成技術更加能夠應對企業持續變化的需求和大數據時代下不斷涌現的新型挑戰。
數據集成是信息系統集成的基礎和關鍵,現在,越來越多的現代企業已經意識到商業數據集成在企業日常運作和管理中的重要性,全球著名的IT企業如0racle、IBM, 數據開發環境單一,工具環境無關性差等缺點。而且隨著應用的不斷深入,對Microsoft和Sybase等都針對自己的產品提出了數據倉庫的數據集成解決方案。
探碼科技為各行業提供數據集成服務,自主研發的智能采集系統是集網絡數據采集,是一款基于ETL技術的數據集成工具,可通過Web頁面進行數據ETL任務的開發、調度、監控,并具有極好的擴展性和可靠性。探碼數據集成平臺適配各類數據源,提供無侵入式的增量獲取功能,具有高速的數據集成能力。集分析和可視化為一體,確保您從網絡數據中獲得最大的洞察力和價值。
?