作者:探碼科技, 原文鏈接: http://nbbskj.com/Big-DB/331
大數據是信息時代技術創新的產物,大數據與云計算、物聯網等新技術相結合,正日益深刻地改變著人們的生產生活方式。大數據產業的出現和發展是現代信息技術與互聯網時代海量信息發展到一定階段的必然結果,必將對當今社會的信息技術、商業模式和相關的法律法規產生深刻影響。大數據經歷了基礎理論研究和產業應用探索,與行業應用結合已成為大數據發展的新機遇。
在大數據環境下,數據量達到了PB級甚至EB級。大數據存儲一方面需要提供超大容量的存儲空間,另一方面需要支持對海量數據的智能檢索和分析。為了兼容各種類型的大數據應用,大數據存儲需要提供混合的數據存儲模型,支持文件、對象、鍵值、塊等多種訪問接口,作為大數據技術的基礎。
? ? ? ? ? ??
隨著大數據業務的發展,除了面向強關系型的結構化查詢語言(SQL)數據庫之外,面向各類應用的接口靈活、功能豐富且高效的NoSQL數據庫也得到了蓬勃發展。在應用類型多樣、數據種類繁多的大數據平臺中,融合關系型數據庫、列數據庫、內存數據庫、圖數據庫等多種數據庫的混合數據庫架構,能夠滿足多種場景下的數據處理需求,是大數據發展的必然趨勢。
當前,各行業、企業、系統、平臺都累積了海量的數據,這些數據結構不同且相對獨立,在沒有建立起關聯關系的情況下,難以展現出數據的優勢。將這些多源異構數據進行關聯和融合,挖掘數據之間的相關性,能夠為數據分析奠定堅實的基礎,最大限度地發揮數據價值,是大數據平臺的關鍵所在。
隨著“互聯網+ ”戰略的實施,各產業尤其是傳統產業,紛紛進行互聯網化轉型。在“互聯網+ ”的浪潮下,面向多個行業,深挖行業知識詳情,構建行業知識庫,形成完整的行業知識體系,能有效推動數據應用與價值落地,是產業互聯網發展的關鍵。
數據挖掘越來越多地應用到各個行業應用領域,使用數據挖掘技術而打造用戶深度標簽,已經逐漸成為大數據挖掘的熱點。通過針對大數據場景的數據挖掘,深入分析用戶行為,打造多層次、多角度的用戶深度標簽。深度標簽是大數據挖掘的核心技術之一,它使得大數據應用更加精準,業務能夠更加貼近用戶,更好地滿足用戶的需求。
? ? ? ? ? ??
Datale大數據應用平臺是一款基于Hadoop開源計算框架,集成了Apache社區幾十個成熟的Hadoop子項目,整合了數據ETL和流程管理功能模塊,融合了十幾個可直接調用的應用模版而最終形成的面對大數據進行存儲、計算、查詢、挖掘四大應用方向的基礎平臺產品。面對各行業用戶的大數據應用場景提供了穩定、高效、安全、低成本、可擴展、易使用、快速部署、便于維護的整體解決方案。產品完全兼容各種x86架構的硬件服務器和所有主流Linux操作系統,可以無縫對接上層多種主流應用產品,如SAS、Pentaho、Talend、Tableau、R Studio等先進的商業智能和數據挖掘工具。
在大數據庫中,存在多種數據庫,如融合關系型數據庫、列數據庫、內存數據庫、圖數據庫。在眾多數據庫中,需要提出面向不同存儲過程和計算需求的混合數據庫模型,這樣可以滿足多種場景下的數據處理需求,解決單一數據庫模型無法滿足大規模數據訓練、高頻高實時性計算、網狀結構計算等不同場景下的數據處理問題。
? ? ? ? ? ?
海量數據計算使用非關系型數據庫(NoSQL)來支持;網狀結構數據的機器學習訓練依靠圖數據庫(Neo4j)來支持;高頻高實時性計算對接內存數據庫 ? ?(Redis);小規模頂層數據查詢與展現對接關系型數據庫(SQL)。
根據用戶上網行為、使用機器學習和模式識別等算法,如樹狀增強型樸素貝葉斯(TAN)分類算法等,推斷用戶的性別、年齡等基礎人口屬性,并打造消費偏好、消費能力等其他深度標簽,用于支持用戶行為分析的大數據應用。
基于分布式爬蟲進行數據采集。爬蟲DTSpider基于開源技術 WebMagic與內存數據庫技術Redis而研發,搭建在云主機上,提供行業知識庫數據采集解決方案。
? ? ? ? ? ? ?
行業知識庫面向如電商、新聞、影視等不同的垂直行業,分別構建樹狀知識體系,能夠直接對接標簽能力應用。例如,電商行業的樹狀知識體系,可按照商品類別進行構建,如圖書、服飾、運動健康等。
? ? ? ? ? ?
面向互聯網公開數據和企業自有數據等多種數據類型,分別構建數據采集能力,并定義了統一的數據采集接口與存儲接口,解決了多源異構數據的采集與存儲的相關問題。
在基層分局進行一次采集與清洗,在業務平臺進行二次采集與存儲。經過規則匹配預處理,從DPI中抽離并編碼得到業務所需的數據,以標簽形式傳輸(二次采集)并入庫至業務平臺,提供給PaaS層的生成數據能力,最終對接軟件即服務(SaaS)層的數據應用。
? ? ? ? ? ??
? ? ? ?
大數據的二次采集采用實時或離線模式。實時流處理模式是通過 K-V 查詢接口,以流處理模式,逐條傳輸、ETL、融合并入庫至業務平臺。離線批處理模式是通過安全文件傳送協議(SFTP)傳輸接口,將數據離線批量采集至業務平臺緩存中,再進行批量抽取、加載、轉換(ETL)、融合并入庫至業務平臺。
作為快速發展的新興產業,大數據已經上升到國家戰略層面,成為整個社會最有價值的資產。大數據已經滲透到各個行業領域,其行業應用具有廣闊的發展空間。
?