作者:探碼科技, 原文鏈接: http://nbbskj.com/bigdata/3
“數據爆炸”已經出現。大數據會使全球制造業、政府、零售商、金融機構獲得很多數據,并由此產生巨大的商業價值。例如全球個人用戶使用地理信息數據的商業價值就高達6000億美元,美國醫療行業數據價值每年可達3000億美元。
最早提出“大數據時代已經到來”的機構是全球知名咨詢公司麥肯錫。
2011年,麥肯錫在題為《海量數據,創新、競爭和提高生成率的下一個新領域》的研究報告中指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素; 而人們對于海量數據的運用將預示著新一波生產率增長和消費者盈余浪潮的到來。
維基百科對于“數據”一詞的定義是:“數據(Data)是載荷或記錄信息的按一定規則排列組合的物理符號,可以是數字、文字、圖像,也可以是計算機代碼。對信息的接收始于對數據的接收,對信息的獲取只能通過對數據背景的解讀。數據背景是接收者針對特定數據的信息準備,即當接收者了解物理符號序列的規律,并知道每個符號和符號組合的指向性目標或含義時,便可以獲得一組數據所載荷的信息。亦即數據轉化為信息,可以用公式‘數據+背景=信息’表示。”
數據與信息的區別在于: 數據是對信息數字化的記錄; 信息是指把數據放置在一定的背景下,對數字進行解釋、賦予意義。
在進入信息時代之后,人們趨向把所有存儲在計算機上的信息,無論是數字還是音樂、視頻、圖片,都統稱為數據。正因為數據承載著信息,所以在應用過程當中,這些數據就不再僅僅是對客觀現象的記錄或紛繁無序的數值,而是帶著特殊意義和價值。人們通過對這些數據的交換、整合、分析,來解釋各種現象背后的原因,同時預測事物的發展趨勢,這樣一來,數據就成為了“知識”,可以說,數據正是知識的來源。當下的政府、醫療衛生、公共安全、環境氣象、交通道路等等各個行業都在利用數據指導決策、預測趨勢。
涂子沛所著的《大數據》用專門的章節講述“商務智能的前世今生”,并梳理了近年來人類社會活動當中數據搜集、處理和分析這一行為的發展過程。1970年,IBM研究院的埃德加·科德發明了關系型數據庫,成為軟件發展歷史上一個跨越性的里程碑,也是大數據處理技術最為原始的起步。1992年,被稱為數據倉庫之父的比爾·恩門出版了《數據倉庫之構建》,將數據倉庫定義為:一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理中的決策制定。再之后,“聯機分析”出現,人類開始把分離的數據庫相聯,進行多維度的分析。于是,以關系型數據庫為基礎的運營式信息系統出現。聯機分析是對數據倉庫中數據信息的一種挖掘與運用操作,是將數據轉化為信息和知識最主要的手段。如果說聯機分析是對數據的一種透視性的探測,數據挖掘的主要目的則是發現潛藏在數據表面之下的歷史規律和對未來進行預測。
進入21世紀之后,數據可視化成為數據挖掘的另一項結果性要求,通過把復雜的數據轉化為直觀的圖形,并呈現給最普通的用戶,使之成為淺顯易懂、人皆可用的工具和手段。在不斷發展與演變的基礎之上,云計算和大數據出現。
大數據是指那些大小已經超出了傳統意義上的尺度,一般的軟件工具難以捕捉、存儲、管理和分析的數據。人類對于數據的計量單位已經從位、字節、千字節、兆字節、太字節走向了澤字節甚至堯字節。麥肯錫全球研究所認為,我們并不需要給“什么是大數據”一個具體的尺寸,因為隨著技術的進步,這個尺寸本身就在不斷增大,而且對于各個不同的領域,“大”的定義也不盡相同,無需統一。自從人類有印刷術以來,過往上千年所有的印刷材料只相當于200PB;而在2011年全球數據使用量已達到了1.8ZB(1ZB約為1PB的100萬倍)。據市場研究公司IDC的統計,全球數字信息在未來幾年將呈現驚人增長,預計到2020年總量將是現在的44倍,全球數據使用量將達到大約35.2ZB(1ZB=10億TB)。大數據技術正是從海量的、多樣化的數據中,快速獲得有價值信息的能力。
人類所有的知識,可以劃分為三個大類: 自然科學、社會科學和人文藝術。其中,自然科學最為“精確”;?社會科學研究的是社會現象,探討的是人和社會的關系,在追求精確的同時又因為關系到個性化極強的“人”和變化無窮的“心理”影響而常常出現“測不準”的現象,因此也被稱為“準科學”;人文藝術則主要包括文學、藝術和哲學,并不強調精確。而營銷屬于社會科學的大范疇之類,廣告又與人文藝術相關聯,因此才被稱為是科學與藝術的結合,是一種交叉性的學科。
2007年,雅虎的首席科學家沃茨博士在《自然》上發表了一篇題為《21世紀的科學》的文章,認為得益于計算機技術和海量數據庫的發展,個人在真實世界的活動得到了前所未有的記錄,這種記錄為社會科學的定量分析提供了極為豐富的數據。由于能夠測得更準、計算得更加精確,他認為社會科學將脫下“準科學”的外衣,真正走進科學的殿堂。對于營銷來說,也是同樣。一直以來,營銷的科學性正是因為運用了自然科學中的數據收集手段,嚴謹地記錄、搜集和分析消費者的各項數據和行為軌跡,同時又采納了社會心理學的方法,透過現象去解釋人的內心世界。這種主客觀的結合讓營銷能夠無限接近真實的推測市場需求的方向,讓生產者與消費者能夠達到和諧交換。因此,數據與營銷之間存在著密不可分的關系。當聯機分析、數據挖掘出現之后,人類獲取知識的手段也有了跨越式的發展。營銷與廣告學科也在此時能夠綜合運用各種數據與信息進行交互式的分析,日臻成熟。然而隨著大數據時代的到來給社會科學、營銷學帶來巨大全新可能的同時,也使得原本的營銷體系和理論模型有效性出現了崩塌。