作者:探碼科技, 原文鏈接: http://nbbskj.com/tech-blog/491
數(shù)據(jù)ETL即是對(duì)不同源、不同類型的數(shù)據(jù),通過(guò)收集、治理、轉(zhuǎn)換到分享、使用的過(guò)程。這里包含數(shù)據(jù)源、數(shù)據(jù)集成、數(shù)據(jù)呈現(xiàn)三部分內(nèi)容。
Skyvia是一個(gè)比較值得研究的案例,這個(gè)案例簡(jiǎn)單的描述了數(shù)據(jù)集成處理的整個(gè)生命周期,的ETL執(zhí)行過(guò)程: Connection, Integration, Query, Connect, Backup
Skyvia的數(shù)據(jù)集成方式: 從目標(biāo)數(shù)據(jù)源,到目標(biāo)數(shù)據(jù)源,以導(dǎo)入任務(wù)的方式啟動(dòng),每一次導(dǎo)入可以手動(dòng)完成或者自動(dòng)通過(guò)Schadule實(shí)現(xiàn)自動(dòng)化。
而且支持集成的數(shù)據(jù)源可以很多類型:
下面通過(guò)了解Kiba的使用過(guò)程,實(shí)現(xiàn)Ruby方式的數(shù)據(jù)ETL,?Kiba lets you define and run such high-quality ETL (Extract-Transform-Load) jobs using Ruby.
Data + Ruby的數(shù)據(jù)ETL解決方案
多源數(shù)據(jù)集成情況
數(shù)據(jù)導(dǎo)入
ETL流程
另外,數(shù)據(jù)的ETL過(guò)程可以集成機(jī)器學(xué)習(xí),使數(shù)據(jù)處理更加智能化,機(jī)器學(xué)習(xí)一張圖: