作者:探碼科技, 原文鏈接: http://nbbskj.com/blog/548
在過去的十幾年里,互聯網已經成為我們生活中不可否認的力量,從我們的購物方式甚至到大腦的思考模式都在變化。近年來,許多企業把網絡大數據作為潛在的數據來源,尋找新的發展模式。
例如:票務軟件通過爬蟲鐵路售票軟件12306、各航空公司售票官網獲取低價車票或機票;供應商通過對主流電商平臺行業產品的價格進行實時爬取,實現競品價格實時監控與預警;企業通過對用戶的消費數據進行爬取,進行用戶數據畫像,精準定位潛在客戶……無論是尋求業務突破的傳統行業還是希望提高管理效率的政府或企業,都意識到了網絡大數據的意義。
當然,你或許已經有了一些想法,但在你打算啟動網絡數據采集計劃之前需要思考以下11個問題。
Q 1:我想提供什么產品或服務?
Q 2:我想要生成什么類型??的分析或報告?
Q 3:消費數據的最終用戶是誰?
?
任何類型的數據分析都要以這三個問題的答案為切入點。只是盯著數據,希望它能夠給你的業務/管理帶來啟發往往是沒有效果的。相反,首先確定業務問題會更加明智——以解決問題為目標,可以找到最好的數據處理方法。
這樣的策略同樣適用于從網絡中爬取數據:網絡大數據涉及的范圍極其多,如果你不知道自己在尋找什么,你將永遠找不到它。可以通過網絡爬蟲采集的數據類型包括:
?
每種數據類型的采集、分析方式都有所不同,因此,你首先應該了解清楚你的產品和用戶產生的數據類型以及你需要解決的問題。
Q 4:你在尋找什么樣的信息(文字/圖像/視頻)?
Q 5:這些信息通常發布在哪里?
Q?6:這些網站多久刷新一次,您的數據需要有多新鮮?
Q 7:是否有任何法律或技術要求阻止您訪問數據?
?
這一系列問題涉及到你想要從中提取數據的網站,以及這些數據的類型。有些網站很容易通過開放API或手動抓取訪問;?在其他情況下,網絡抓取工具可能很難訪問數據,或者可能非法操作(詳細了解網絡抓取的合法性)。
在這組要求中,你還需要查看信息更新的頻率,以及確定你是否需要數據的最新版本。這需要回歸到你的數據需求 - 如果你需要培訓AI代理,你可能對大量歷史數據更感興趣;?如果你需要最新的相關新聞消息,你需要關注網頁的刷新頻率。
Q 8:提取的數據將存儲在何處(云,內部部署,外部數據庫等)?
Q?9:您打算如何查詢數據?
Q?10:數據的最佳格式是什么(JSON,XML,Excel,無架構)
Q?11:您打算使用哪些其他分析,可視化或其他軟件?
?
在了解了你自己的數據需求與如何選擇爬取網站后,就應該深入了解技術方面的問題:接下來將思考如何爬取、分析數據以便解決你的問題,以及通過哪些技術來實現網絡大數據的爬取和處理。
不同結構的數據,在爬取的過程中需要不同的爬取條件,應提前解決。你計劃使用的數據可視化工具可能會限制文件格式和數據庫。文本分析和nlp采樣可能更受益于無模式的數據結構,而sql數據庫可能更適合商業智能分析。
所以提前考慮這些事情是非常有必要的,因為它們會嚴重影響你用于從網絡提取數據的工具和技術類型。當然你也可以在提取數據后將數據形式轉化為需要的格式,但事先考慮這些因素可以為你節省很多麻煩。
在解決上述11個問題后,相信你已經對自己的網絡數據采集需求有了全面的了解。接下來你可能對于如何選取采集方式有一定的困惑,這三篇文章將逐一的幫您分析你所需要的數據類型以及數據采集方式:
結構化數據與非結構化數據有什么區別?
網絡數據的采集重點
如何選擇正確的數據采集方式
PS:如果你有任何的網絡數據采集方面的疑惑,都可以隨時聯系我們,我們的專業人員會為你解答!