作者:探碼科技, 原文鏈接: http://nbbskj.com/web-bigdata/546
在上文中,我們提到結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別,同時(shí)也提到了非結(jié)構(gòu)化數(shù)據(jù)的現(xiàn)狀。在過去幾年,大數(shù)據(jù)更加關(guān)注如何處理海量、多源、異構(gòu)數(shù)據(jù),并從中獲得價(jià)值,而其中絕大部分是結(jié)構(gòu)化數(shù)據(jù)。不可否認(rèn),這些數(shù)據(jù)的體量足夠巨大,然而如今必須意識到這些數(shù)據(jù)只是冰山一角——結(jié)構(gòu)化數(shù)據(jù)僅占全部數(shù)據(jù)量的20%,其余80%都是以文件形式存在的非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),包括各種辦公文檔、圖片、視頻、音頻、設(shè)計(jì)文檔、日志文件、機(jī)器數(shù)據(jù)等。
另一方面,新興技術(shù)的快速發(fā)展也提高了行業(yè)對非結(jié)構(gòu)化數(shù)據(jù)的重視程度。比如物聯(lián)網(wǎng)、工業(yè)4.0、視頻直播等領(lǐng)域產(chǎn)生了更多的非結(jié)構(gòu)化數(shù)據(jù),而人工智能、機(jī)器學(xué)習(xí)、語義分析、圖像識別等技術(shù)方向需要大量的非結(jié)構(gòu)化數(shù)據(jù)來開展工作,包括數(shù)據(jù)系統(tǒng)也在不斷向非結(jié)構(gòu)化數(shù)據(jù)延伸。
這給Web數(shù)據(jù)采集提了個(gè)醒:網(wǎng)絡(luò)數(shù)據(jù)采集必須全面,除了對結(jié)構(gòu)化數(shù)據(jù)的采集,剩余80%的非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)才是網(wǎng)絡(luò)數(shù)據(jù)采集的重點(diǎn)。
結(jié)構(gòu)化數(shù)據(jù)的采集對于計(jì)算機(jī)和程序猿來說都是非常簡單快速的工作 :
相對而言,對非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)的采集非常值得重視同時(shí)也比較困難。那么又該如何爬取網(wǎng)頁中的非結(jié)構(gòu)數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)呢?在這里,筆者總結(jié)了網(wǎng)頁非結(jié)構(gòu)化數(shù)據(jù)爬取的“三大關(guān)鍵點(diǎn)”。
對各種來源(如RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)等)的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集,借助網(wǎng)絡(luò)爬蟲或網(wǎng)站API,從網(wǎng)頁獲取非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù),將其統(tǒng)一結(jié)構(gòu)化為本地?cái)?shù)據(jù)。
由于非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的特殊性,在爬取完數(shù)據(jù)后還需要對采集的原始數(shù)據(jù)進(jìn)行“清洗、歸類、注釋、關(guān)聯(lián)、映射”等一系列操作后,提高數(shù)據(jù)的質(zhì)量,為后期數(shù)據(jù)分析奠定基礎(chǔ)。
非結(jié)構(gòu)化數(shù)據(jù)的儲存區(qū)別于結(jié)構(gòu)化數(shù)據(jù)的關(guān)系庫儲存,非結(jié)構(gòu)化數(shù)據(jù)的儲存,一般是以加大文件為主,并且內(nèi)部需要較高的讀寫速度,通常需要用通用的服務(wù)器來控制費(fèi)用。
無論是對結(jié)構(gòu)化數(shù)據(jù)采集還是非結(jié)構(gòu)化數(shù)據(jù)的采集,都是一個(gè)比較復(fù)雜的技術(shù)問題,在此筆者也只是簡單描述了一些采集的關(guān)鍵點(diǎn),想要徹底搞明白采集的原理和步驟,可能需要進(jìn)行系統(tǒng)的教學(xué)才能實(shí)現(xiàn)。所以很多公司考慮到技術(shù)缺失問題,都通過尋找專業(yè)的第三方數(shù)據(jù)團(tuán)隊(duì),來完成網(wǎng)絡(luò)數(shù)據(jù)的采集,這是個(gè)不錯(cuò)的解決辦法。探碼作為第三方專業(yè)的Web數(shù)據(jù)采集團(tuán)隊(duì),也曾幫助很多公司高效完成了網(wǎng)絡(luò)數(shù)據(jù)的采集,除了20%的常規(guī)數(shù)據(jù),也保證了剩余的80%數(shù)據(jù)的爬取、處理與存儲。
?
?
相關(guān)閱讀:
如何選擇正確的數(shù)據(jù)采集方式,從而使你的數(shù)據(jù)分析更加精準(zhǔn)!
數(shù)據(jù)集成消除“數(shù)據(jù)孤島”-釋放數(shù)據(jù)價(jià)值
Web數(shù)據(jù)集成:徹底改變您使用網(wǎng)絡(luò)數(shù)據(jù)的方式
?
?
?
?