作者:探碼科技, 原文鏈接: http://nbbskj.com/bigdata/6
對于傳統手段實現的數據分析平臺,利用的主要是結構化數據進行統計分析。這部分功能在大數據平臺上完全可以實現,而且大數據平臺采用的分布式架構設計,利用分布式計算完成相同的工作內容所需時間更短,市場上已經有大量案例證明。
對于多元數據融合存儲,大數據平臺利用新的技術架構,使用非關系型數據庫HBase實現Key/Value鍵值對的形式存儲,利用唯一主鍵作為標識,將多元數據整合為一張寬表進行存儲。利用新的技術,實現對字段的靈活讀取和調用,保證對各業務系統的數據支撐。
Hadoop采用分布式架構,實現動態擴展,系統隨著應用需求與容量的不斷增長,支持水平擴展,不需對系統架構進行變更,只做硬件擴容,并部署服務軟件,即可滿足系統容量擴展要求。系統擴容時,系統平臺增加新節點之后,系統自動在所有節點之間均衡數據。系統后臺根據忙閑程度,自動發起,占用很少系統資源,無需人工干預,實現數據均衡分布。系統可以通過增加集群節點的方式提高系統性能,性能提升實現線性增長。
傳統手段處理的主要是結構化數據,結構化數據是在企業業務應用中使用最多的一部分數據,也是其中比重最小的一部分數據;與之相比,非結構化數據含金量高但價值密度低,例如系統日志數據、用戶的點擊行為等,這些數據的量級是結構化數據的幾十倍。在大數據平臺出現之前,沒有人談論大數據。數據應用主要是結構化數據,多采用IBM、HP等老牌廠商的小型機或服務器設備。采用傳統方法處理這些價值密度低的非結構化數據,被認為是不值得的,因為其產出實在是有限。Hadoop平臺出現之后,提供了一種開放的、廉價的、基于普通商業硬件的平臺,其核心是分布式大規模并行處理,從而為非結構化數據處理創造條件。
對于非結構化數據的存儲和處理,大數據技術不再局限于傳統的二維表結構,可以利用矩陣、向量以及圖的形式進行存儲和計算,能夠提供更加豐富的數據分析手段,包括行為計算 、自然語言處理、圖像計算、關聯關系計算等,更好的幫助企業挖掘數據價值。
傳統手段采用抽樣分析的手段進行數據統計分析,分析結果主要是面向群體的統計報表,維度是有限制的,而且統計的數據是一定周期內的,結果往往已經是過時的了。而利用大數據,這種狀況將不再發生。大數據在全量數據之上進行數據分析,利用機器學習技術和算法建模,實現對數據的實時分析,能夠幫助企業完全勾勒出每個個體客戶的DNA,新的Key/Value形式的存儲結構擺脫了對維度的限制,可以更加方便的進行數據挖掘分析。
充分了解客戶是有效的與客戶達成生意合作的關鍵。真正了解您的客戶,意味著您可以結合客戶的個性化特點,給出有針對性的建議或顯示廣告。亞馬遜已然將這一點做到了極致,他們為客戶推薦的產品絕不是一個巧合。亞馬遜的推薦引擎完全是基于客戶在過去一段時間的購買行為所做的:客戶的購物車中所收藏的商品、客戶喜歡的商品、其它用戶瀏覽或購買的商品。亞馬遜使用的該算法,為每位客戶定制了專屬的個人主頁。利用該策略是:該公司在其第三財政季度期間銷售增長27%,達到了131.8億美元,而去年同期的銷售額則為96億美元。