作者:探碼科技, 原文鏈接: http://nbbskj.com/web-bigdata/383
? ? ? ?目前信息技術(shù)不斷發(fā)展,數(shù)據(jù)庫技術(shù)日益成熟,Big Data技術(shù)不斷崛起,很多企業(yè)數(shù)據(jù)飛速增長,除去數(shù)據(jù)本身的信息,數(shù)據(jù)之間還蘊藏著大量的對企業(yè)管理、企業(yè)發(fā)展、企業(yè)的利益有決策性的作用。同時,隨著Web的迅速普及,網(wǎng)站的數(shù)量越來越多,也越來越多的企業(yè)和個人都習(xí)慣在網(wǎng)站上發(fā)布信息,查找信息,獲取信息。
? ? ? ?問題就來了,一個網(wǎng)站不可能匯集到企業(yè)所需的所有的信息,就要從多個網(wǎng)站采集挖掘所需信息。由于各個專業(yè)素養(yǎng)不一致,網(wǎng)站濫用縮寫詞,慣用語,數(shù)據(jù)輸入錯誤,重復(fù)記錄,丟失值,拼寫變化,不同的計量單位等等一系列問題導(dǎo)致產(chǎn)生了不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù),這三大類數(shù)據(jù)又稱為臟數(shù)據(jù)。所以企業(yè)在得到最有用的數(shù)據(jù)之前,需要對臟數(shù)據(jù)進行清洗,消除這三大類的臟數(shù)據(jù),提高數(shù)據(jù)的可用性,保證數(shù)據(jù)的質(zhì)量,實現(xiàn)數(shù)據(jù)的高效查詢與利用。
? ? ? ?探碼基于Web中采集到的數(shù)據(jù),檢測并消除數(shù)據(jù)源中存在的屬性錯誤和重復(fù)與相似的記錄問題,研發(fā)出一種通用的數(shù)據(jù)清洗系統(tǒng),從而保證數(shù)據(jù)的可信度和可用性。
? ? ? ?關(guān)于探碼Web數(shù)據(jù)清洗系統(tǒng),根據(jù)項目實施經(jīng)驗,總結(jié)出來的具體實施流程。
? ? ? ?關(guān)于Web數(shù)據(jù)清洗,主要時為了提高數(shù)據(jù)的可用性與可信度。目前數(shù)據(jù)清洗主要應(yīng)用于這幾個領(lǐng)域:數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)質(zhì)量管理。
? ? ? ?首先,數(shù)據(jù)倉庫是為了支持決策分析的數(shù)據(jù)集合,數(shù)據(jù)挖掘是建立在數(shù)據(jù)倉庫基礎(chǔ)上的增值技術(shù)。數(shù)據(jù)清洗對于數(shù)據(jù)倉庫應(yīng)用和數(shù)據(jù)挖掘應(yīng)用來說,是獲取可靠、有效數(shù)據(jù)的一個基本步驟,是基礎(chǔ)中的基礎(chǔ)。其次,數(shù)據(jù)質(zhì)量管理是貫穿數(shù)據(jù)生命周期的全過程,覆蓋質(zhì)量評估,數(shù)據(jù)去噪,數(shù)據(jù)監(jiān)控,數(shù)據(jù)探查,數(shù)據(jù)清洗,數(shù)據(jù)診斷等方面。數(shù)據(jù)質(zhì)量管理必須做到數(shù)據(jù)的完整性、唯一性、一致性、準確性和合法性,做到這些,就需要數(shù)據(jù)質(zhì)量處理數(shù)據(jù)標準化、匹配、生存和質(zhì)量監(jiān)測。最后,數(shù)據(jù)必須具備適當?shù)馁|(zhì)量,以解決業(yè)務(wù)要求問題。
? ? ? ?采用云主機提供商Ucloud的云主機或者阿里云,保證7*24小時運行。
? ? ? ?探碼主要是采用的技術(shù)前沿先進的技術(shù)框架,實現(xiàn)Web前端展示,展示處爬蟲程序抓取的數(shù)據(jù),利于清洗。
? ? ? ?數(shù)據(jù)清洗系統(tǒng)主要由兩部分組成: