作者:探碼科技, 原文鏈接: http://nbbskj.com/blog/418
本文通過Dyson Web數(shù)據(jù)采集器實(shí)現(xiàn)對Betalist的網(wǎng)絡(luò)數(shù)據(jù)爬取,并通過簡單的統(tǒng)計(jì)分類,對近年來發(fā)布在Betalist的創(chuàng)業(yè)項(xiàng)目進(jìn)行了統(tǒng)計(jì)分析。?
目標(biāo):對https://betalist.com/markets(Betalist該網(wǎng)頁上的數(shù)據(jù)進(jìn)行分析
使用工具:Ruby & Atom
(1)網(wǎng)站信息的采集(command+A/command+C/command+V)到atom的頁面中
(2)正則化刪除前面的圖標(biāo)
(3)通過正則化對其進(jìn)行排版的處理(換行處理)
(4)更改成為字典的形式(在英文單詞前后添加引號,數(shù)字和英文)
(5)至此,成功轉(zhuǎn)化為字典的形式,下一步對整個字典進(jìn)行排序,獲得top 30
工具:python&pycharm?
(6)提取top 30 字典中的value,形成新的列表(list)
2.對數(shù)據(jù)進(jìn)行可視化處理并進(jìn)行分析
使用工具:python & matplotlib & pycharm?
?
?
綜上可得分析:
?