作者:探碼科技, 原文鏈接: http://nbbskj.com/web-bigdata/360
2017年,探碼科技開(kāi)發(fā)一個(gè)金融行業(yè)投融資交易大數(shù)據(jù)平臺(tái),在項(xiàng)目進(jìn)行前期,需要對(duì)資料的搜集準(zhǔn)備和數(shù)據(jù)源的整理,最后整理出來(lái)了很多需要采集的數(shù)據(jù)源,為了進(jìn)一步落實(shí)數(shù)據(jù)源的數(shù)據(jù)量、是否有采集價(jià)值、采集價(jià)值有多大等一列問(wèn)題,探碼科技研發(fā)了一套探碼Web數(shù)據(jù)源采集分析系統(tǒng)。
Web數(shù)據(jù)源采集分析要么對(duì)網(wǎng)站訪客行為的分析,即包括:網(wǎng)站流量報(bào)告,也可能包括電子郵件回應(yīng)率、直接郵件活動(dòng)資料、銷售與客戶資料、使用者效能資料如點(diǎn)擊熱點(diǎn)地圖、或者其他自訂需求資訊等等,然后進(jìn)行行為分析,最終形成網(wǎng)絡(luò)數(shù)據(jù)報(bào)告,以此來(lái)了解和優(yōu)化網(wǎng)站;要么是爬取整個(gè)網(wǎng)站數(shù)據(jù)源資料、欄目、項(xiàng)目等進(jìn)行數(shù)據(jù)源的采集,然后進(jìn)行分析形成信息數(shù)據(jù)報(bào)告,最終用在:產(chǎn)生潛在的客戶列表;從競(jìng)爭(zhēng)對(duì)手中收集企業(yè)所需信息;抓取新興業(yè)務(wù)數(shù)據(jù);建立企業(yè)的產(chǎn)品目錄;整合行業(yè)信息,輔助經(jīng)營(yíng)決策;確定新客戶,增加新訂單;挖掘老客戶,獲取利益……總之,Web頁(yè)面內(nèi)容所顯示的即可采集進(jìn)行分析形成可視化為企業(yè)所用。
探碼Web數(shù)據(jù)源采集分析系統(tǒng)主要采用Ruby on Rails + vue.js + Bootstrap實(shí)現(xiàn)數(shù)據(jù)源分析系統(tǒng)的后臺(tái)和前端展示的搭建。根據(jù)各行業(yè)的需求可將整體分為多個(gè)模塊多種形式進(jìn)行可視化。其主要的步驟:1、從目標(biāo)Web文檔中獲得待采集信息;2、判斷待采集信息類型是否是所需數(shù)據(jù),3、剔除無(wú)用的、重復(fù)的信息數(shù)據(jù),按照所需信息數(shù)據(jù)進(jìn)行過(guò)濾校驗(yàn);4、保存所需數(shù)據(jù)。
探碼Web數(shù)據(jù)源采集分析系統(tǒng)——采集
其特征是利用云計(jì)算服務(wù)器協(xié)同工作,能快速采集大量數(shù)據(jù),而且也避免了一臺(tái)計(jì)算機(jī)硬件資源的瓶頸,另外對(duì)數(shù)據(jù)采集的要求越來(lái)越高,傳統(tǒng)post采集不能解決的技術(shù)問(wèn)題也逐步被解決,以探碼Kapow/Dyson采集器為代表的新一代智能采集器,能模擬人的思維,模擬人的操作,從而徹底解決了ajax等技術(shù)難題,因?yàn)榫W(wǎng)頁(yè)一般都是設(shè)計(jì)來(lái)給人瀏覽的,所以能模擬人的智能采集器工作起來(lái)就非常順利,不論后臺(tái)技術(shù)是什么,當(dāng)數(shù)據(jù)最終顯示在人的面前的時(shí)候,智能采集器就開(kāi)始提取。這最終把計(jì)算機(jī)的能力發(fā)揮到了極致,使得計(jì)算機(jī)可以代替人做所有網(wǎng)頁(yè)數(shù)據(jù)采集的工作。同時(shí)利用大數(shù)據(jù)云采集技術(shù),把計(jì)算機(jī)的計(jì)算能力也發(fā)揮到了極致。
探碼Web數(shù)據(jù)源采集分析系統(tǒng)——分析
主要是通過(guò)對(duì)既有數(shù)據(jù)源進(jìn)行分類整理、欄目劃分、字段拆解,形成一個(gè)完整的數(shù)據(jù)源分析報(bào)告,以及對(duì)采集到的信息數(shù)據(jù)進(jìn)行智能分析最終通過(guò)數(shù)據(jù)源的分析,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系、規(guī)律和取值范圍,為數(shù)據(jù)采用任務(wù)做準(zhǔn)備。
1、全方位的采集
只要是Web頁(yè)面可以看見(jiàn)的內(nèi)容都可以采集,采集的內(nèi)容數(shù)據(jù)包括文字、圖片、flash動(dòng)畫(huà)、視頻等各類內(nèi)容;
2、可實(shí)現(xiàn)復(fù)雜的對(duì)象的采集
可實(shí)現(xiàn)正文和回復(fù)內(nèi)容的同時(shí)采集,一級(jí)頁(yè)面二級(jí)頁(yè)面內(nèi)容也可輕松實(shí)現(xiàn)合并,采集的內(nèi)容可以是分散在多個(gè)頁(yè)面內(nèi),結(jié)果可以是復(fù)雜的父子表結(jié)構(gòu);
3、采集速度比普通采集快
探碼Web數(shù)據(jù)源采集分析系統(tǒng)采用前沿先進(jìn)的技術(shù),可運(yùn)行多條線程同時(shí)抓取采集,采集速度比普通采集快上很多倍;
4、精準(zhǔn)度高,覆蓋面廣
只要能在Web頁(yè)面中可以看到的內(nèi)容,幾乎都可以按照需要的格式、所需信息數(shù)據(jù)進(jìn)行采集。
5、數(shù)據(jù)可視化,結(jié)果輸出多樣化
采集的信息數(shù)據(jù)可采用探碼TMDash可視化,呈現(xiàn)給企業(yè),簡(jiǎn)單易讀易懂。
互聯(lián)網(wǎng)時(shí)代,先進(jìn)的大數(shù)據(jù),人工智能和深度學(xué)習(xí)等技術(shù)實(shí)現(xiàn)了互聯(lián)網(wǎng)平臺(tái)的數(shù)據(jù)接口,探碼Web數(shù)據(jù)源采集分析系統(tǒng)能提供專業(yè)的數(shù)據(jù)采集服務(wù),精準(zhǔn)采集分析所需信息數(shù)據(jù)。
注:Web數(shù)據(jù)源采集系統(tǒng)的原理類似于搜索引擎的爬蟲(chóng),是合法的。