作者:探碼科技, 原文鏈接: http://nbbskj.com/bigdata/222
2017第二屆全球大數(shù)據(jù)峰會由GBDC(全球大數(shù)據(jù)聯(lián)盟)主辦、成都市經(jīng)濟和信息化委員會、天府新區(qū)成都管委會支持,于2017年5月11日至12日在世紀(jì)城天堂洲際酒店(成都)圓滿落幕。本屆峰會主題為創(chuàng)新·衍生,作為2017 成都全球創(chuàng)新創(chuàng)業(yè)交易會的專項活動之一,由政府牽頭,市場化運作,針對政企面對面深度對話,全產(chǎn)業(yè)鏈覆蓋,進一步推動大數(shù)據(jù)的創(chuàng)新應(yīng)用、深度挖掘大數(shù)據(jù)價值、助力產(chǎn)業(yè)升級和共贏發(fā)展。
隨著互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展和智能終端的大量普及,數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,給許多行業(yè)帶來了嚴(yán)峻挑戰(zhàn)和巨大機遇,整個信息社會已經(jīng)進入了大數(shù)據(jù)時代。一般意義上,大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)機器和軟硬件工具進行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。而網(wǎng)絡(luò)大數(shù)據(jù)是指“人、機、物”三元世界在網(wǎng)絡(luò)空間(Cyberspace)中交互、融合所產(chǎn)生的并可在互聯(lián)網(wǎng)上獲取的大數(shù)據(jù)。當(dāng)前網(wǎng)絡(luò)大數(shù)據(jù)規(guī)模和復(fù)雜度正在快速增長。根據(jù)IDC數(shù)據(jù),2011年網(wǎng)絡(luò)大數(shù)據(jù)總量為1.8ZB,預(yù)計2020年將達到35ZB。大規(guī)模、高復(fù)雜度的網(wǎng)絡(luò)大數(shù)據(jù),給現(xiàn)有的硬件體系架構(gòu)和軟件處理算法帶來巨大挑戰(zhàn)。
在萬物互聯(lián)的今天,數(shù)據(jù)本身作為企業(yè)的資產(chǎn),如何運用起來將是核心議題,互聯(lián)網(wǎng)是一個巨大的和迅速發(fā)展的信息資源,但大多數(shù)信息都是以無結(jié)構(gòu)的文本形式存在,使得信息聚合非常困難,Web數(shù)據(jù)抓取是一個從目標(biāo)網(wǎng)頁中摘取某些數(shù)據(jù)形成統(tǒng)一的本地數(shù)據(jù)庫的一個過程,這個過程所需要的不僅僅是網(wǎng)頁爬行器(爬蟲)與網(wǎng)頁解析器(HTML解析器)。一個復(fù)雜的數(shù)據(jù)抽取過程需要應(yīng)付種種障礙,例如會話識別,HTML表單,客戶端腳本,并發(fā)連接限制,以及數(shù)據(jù)整合問題等等。
Web大數(shù)據(jù)的復(fù)雜性主要體現(xiàn)在數(shù)據(jù)類型的復(fù)雜性和數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性。首先,隨著數(shù)據(jù)類型不斷增多,數(shù)據(jù)采集、清洗、存儲和處理的技術(shù)需要相應(yīng)地進行變革。例如,社交網(wǎng)絡(luò)的發(fā)展使得短文本取代長文本,成為網(wǎng)絡(luò)上最主要的信息傳播媒介。當(dāng)處理這些微博消息、個性簽名、個人狀態(tài)等短文本時,傳統(tǒng)的文本挖掘方法,如主題模型、檢索算法及語義、情感分析算法會遇到很多困難。
其次,傳統(tǒng)意義上的數(shù)據(jù)對象是結(jié)構(gòu)化數(shù)據(jù),能夠存儲到關(guān)系型數(shù)據(jù)庫中。但隨著數(shù)據(jù)產(chǎn)生方式的多樣化,特別是互聯(lián)網(wǎng)的發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)逐漸成為大數(shù)據(jù)的主流形式。以文本、圖像、視頻、網(wǎng)頁等為代表的數(shù)據(jù)結(jié)構(gòu),給數(shù)據(jù)分析與挖掘工作帶來挑戰(zhàn)。
Web大數(shù)據(jù)的不確定性主要體現(xiàn)在數(shù)據(jù)的不確定性和模型的不確定性。首先,原始數(shù)據(jù)存在數(shù)據(jù)類型和數(shù)據(jù)結(jié)構(gòu)上的不確定性,采集得到的數(shù)據(jù)還存在采集粒度、數(shù)據(jù)質(zhì)量等的不確定性。這些數(shù)據(jù)的不確定性給數(shù)據(jù)采集、清洗、存儲、挖掘和檢索等各個環(huán)節(jié)帶來挑戰(zhàn),每個環(huán)節(jié)幾乎都需要采用新的方法應(yīng)對數(shù)據(jù)不確定性的挑戰(zhàn)。
其次,數(shù)據(jù)的不確定性要求對數(shù)據(jù)的處理方式能夠提出新的模型方法,并在模型表達能力和模型復(fù)雜程度之間找到平衡。從理論上講,在一定的結(jié)構(gòu)規(guī)范下,應(yīng)將數(shù)據(jù)的每一種狀態(tài)都加以刻畫,這也是“可能世界模型”的核心思想。但在實際應(yīng)用中,考慮到計算和存儲能力的限制,往往采用簡化的模型刻畫不確定性數(shù)據(jù)的特性,如獨立性假設(shè)、同分布假設(shè)等。
?