作者:探碼科技, 原文鏈接: http://nbbskj.com/blog/686
大數據時代這個詞被提出已有10年左右了,越來越多的企業已經完成了數字化轉型,或在轉型中。其普及原因一是因為大數據價值在越來越多的場景中被挖掘,二是因為大數據平臺的搭建門檻也越來越低:借助開源的力量或尋求技術專業經驗豐富的服務商,就可以搭建起一個“物有所值”的大數據平臺。但是,還是會經常客戶那里收到的最常見問題之一是“我如何構建我的數據平臺?”
探碼科技作為專業的大數據技術服務提供商,致力于為政企提供數據采集、數據分析、數據應用和數據可視化等全產業鏈綜合服務。本文將從公司的技術以及經驗,講解構建大數據平臺的快速指南。
對于大多數據組織而言,構建大數據平臺不再是可有可無的,而是必須擁有的,許許多多的公司從數據中收集可行性見解的能力在競爭中都是脫穎而出的。
盡管如此,從白手起家,從預算、資源等需要搭建一個數據平臺談何容易。每家公司數據旅程都有不同階段,因此更難確定優先投資平臺的哪些部分。與任何新解決方案一樣,需要確定:1)?圍繞產品能夠交付和無法交付的內容設定預期; 2)?規劃長期和短期的投資回報率。
為了讓事情變得簡單一些,我們概述了需要包含在數據平臺中的必備步驟,以及團隊與工具供選擇。
首先要進行數據集成,否則將無法完成處理、存儲、轉化和應用數據。通過web數據采集、系統/設備數據采集、本地文件上傳、API接口調用等方式將各類原始數據集成,為構建一個自由獨立的數據倉庫/數據湖/數據中臺而準備。同時,隨著數據基礎設施變得越來越復雜,也會面臨著從各種來源攝取結構化和非結構化數據的挑戰性任務。這通常稱為提取轉換加載 (ETL) 和提取加載轉換 (ELT) 的提取和加載階段。
這里匯集了一些流行的開源采集工具:Fivetran、Singer、Stitch、Airbyte、Apache Kafka,不是非專業人士,采用開源工具還是有點難度。因此即使在當今市場上開源的數據采集工具盛行的情況下,企業還是要慎重選擇:是自建技術團隊完成數據產品建設還是選擇專業經驗豐富的技術服務商來完成呢?
數據采集完成后,需要一個地方來存儲和處理數據了。隨著云計算的發展,云原生數據倉庫、數據湖和數據中臺已經占領了市場,相對于許多本地解決方案,提供了更易于訪問和負擔得起的數據存儲選項。
無論選擇使用數據倉庫、數據湖、數據中臺還是兩者的某種組合,都完全取決于業務需求。同時,如果不投資云存儲和計算的情況下構建可擴展、靈活的數據平臺是極具有挑戰性。
數據轉換和建模通常可以互換使用,但它們是兩個截然不同的過程。當轉換數據時,是正在獲取原始數據并使用業務邏輯對其進行清理,以便為分析和報告準備好數據;當對數據建模時,是正在創建數據的可視化表示以存儲在數據倉庫中。
如果企業無法使用這些數據,那么采集存儲和轉化的這些數據也無法為業務服務。如果數據平臺是一本書,那么商業智能分析層將是封面,充滿引人入勝的標題、視覺效果以及數據實際視圖將展示內容的摘要。事實上,這一層通常是最終用戶在描繪數據平臺時所想到的,并且有充分的理由:它使數據具有可操作性和智能性,沒有它,數據就缺乏意義。
數據大多的應用是根據業務流程驅動SaaS 化軟件開發,包括CMS(內容管理系統)、CRM(客戶關系管理系統)、ERP(進銷存管理)、支付系統、郵件系統等等,打通API接口,導入數據,實現數據的真正價值,完成數據服務全流程。
根據以上步驟,構建大數據平臺其實并不難,當然這是建立在擁有專業的技術團隊或者服務商之上的。這也是只是初步構建的方案,后續的平臺維護、二次開發、數倉開發、數據價值產出等等才是大數據落地的重要組成,建議企業應盡早選擇合適的供應商。