作者:探碼科技, 原文鏈接: http://nbbskj.com/web-bigdata/378
? ? ? ?隨著互聯(lián)網(wǎng)技術(shù)高速的發(fā)展,網(wǎng)民的數(shù)量呈指數(shù)上升,社交網(wǎng)絡(luò)進(jìn)入了強(qiáng)調(diào)用戶參與和體驗(yàn)的時(shí)代。所謂社交網(wǎng)絡(luò)是一種在信息網(wǎng)絡(luò)上由社會(huì)個(gè)體集合及個(gè)體之間的連接關(guān)系構(gòu)成的社會(huì)性結(jié)構(gòu)。社交網(wǎng)絡(luò)的誕生使得人類使用互聯(lián)網(wǎng)的方式從簡(jiǎn)單的信息搜索和網(wǎng)頁(yè)瀏覽轉(zhuǎn)向網(wǎng)上社會(huì)關(guān)系的構(gòu)建與維護(hù),以及基于社會(huì)關(guān)系的信息創(chuàng)造、交流與共享。它不但豐富了人與人的通訊交流方式,也對(duì)社會(huì)群體的形成與發(fā)展方式帶來了深刻的變革。
? ? ? ?移動(dòng)互聯(lián)網(wǎng)時(shí)代,UGC(用戶產(chǎn)生內(nèi)容)不斷發(fā)展,社交網(wǎng)絡(luò)(Social Network)已經(jīng)不斷普及并深入人心,用戶可以隨時(shí)隨地在網(wǎng)絡(luò)上分享內(nèi)容,由此產(chǎn)生了海量的用戶數(shù)據(jù)。面對(duì)大數(shù)據(jù)時(shí)代的來臨,復(fù)雜多變的社交網(wǎng)絡(luò)其實(shí)有很多實(shí)用價(jià)值。
? ? ? ?先看一組數(shù)據(jù):微信每分鐘395833人登錄微信,19444人在進(jìn)行視頻或語(yǔ)音聊天;新浪微博每分鐘發(fā)出(或轉(zhuǎn)發(fā))64814篇微博;Facebook用戶每天共享的東西超40億;Twitter每天處理的數(shù)據(jù)量超3.4億;Tumblebr博客作者每分鐘發(fā)布2.7萬(wàn)個(gè)新帖;Instagram用戶每天共享3600張新照片。。。。。。
? ? ? ?由此可以看出,社交網(wǎng)絡(luò)生成的用戶數(shù)據(jù)的價(jià)值已遠(yuǎn)遠(yuǎn)大于平臺(tái)本身。相對(duì)于搜索、電商等大數(shù)據(jù),社交用戶行為數(shù)據(jù)傳導(dǎo)路徑更短,具有更高的價(jià)值。
? ? ? ?那么在社交網(wǎng)站的整個(gè)生態(tài)系統(tǒng)中,這些社交網(wǎng)絡(luò)大數(shù)據(jù)能帶來哪些價(jià)值呢?
? ? ? ?隨著移動(dòng)互聯(lián)的發(fā)展,各種同質(zhì)化異化的社交網(wǎng)絡(luò)平臺(tái)的不斷涌現(xiàn),QQ、微信、新浪微博、Facebook、Twitter、Instagram等等,雖然都是網(wǎng)絡(luò)社交平臺(tái),但是交流的側(cè)重點(diǎn)又不一樣,因此產(chǎn)生了大量的社會(huì)學(xué)、傳播學(xué)、行為學(xué)、心理學(xué)、人類學(xué)、輿論學(xué)等眾多領(lǐng)域的社交數(shù)據(jù)。各行業(yè)的企業(yè)都傾注了大量的心血在這些數(shù)據(jù)進(jìn)行挖掘分析,從而更加比較精確地把握事態(tài)的動(dòng)向,找準(zhǔn)營(yíng)銷對(duì)象。
? ? ? ?典型的案例之一:社交網(wǎng)絡(luò)大數(shù)據(jù)顛覆美國(guó)總統(tǒng)競(jìng)選定律
? ? ? ?號(hào)稱“世界上最民主的國(guó)家”的美國(guó),有著這樣的總統(tǒng)選舉鐵律:誰(shuí)花的錢越多,贏得選舉的幾率就越大。但是,2012年美國(guó)總統(tǒng)奧巴馬的再次當(dāng)選創(chuàng)造了一個(gè)奇跡:在他獲勝前的 70 年時(shí)間里,還沒有一位美國(guó)總統(tǒng)能夠在全國(guó)失業(yè)率高于 7.4% 的情況下連任成功;而在整個(gè)競(jìng)選過程中,奧巴馬團(tuán)隊(duì)的花銷不到3 億美金,競(jìng)爭(zhēng)對(duì)手羅姆尼花了近 4 億美金卻仍然敗選!
? ? ? ?隨著社交網(wǎng)絡(luò)大數(shù)據(jù)的多元化發(fā)展,各個(gè)領(lǐng)域?qū)ι缃痪W(wǎng)絡(luò)大數(shù)據(jù)的需求呈現(xiàn)出巨大的增長(zhǎng)趨勢(shì)。因此如何將這些數(shù)據(jù)運(yùn)用起來,才是各領(lǐng)域?qū)W者專家企業(yè)最為關(guān)心的事。基于社交網(wǎng)絡(luò)大數(shù)據(jù)的技術(shù)——探碼大數(shù)據(jù)處理平臺(tái),采用先進(jìn)的網(wǎng)絡(luò)爬蟲技術(shù),分布式計(jì)算能力,針對(duì)定制的目標(biāo)數(shù)據(jù)源進(jìn)行網(wǎng)絡(luò)信息的數(shù)據(jù)采集、數(shù)據(jù)提取、數(shù)據(jù)挖掘、數(shù)據(jù)處理,從而為各種信息服務(wù)系統(tǒng)提供數(shù)據(jù)輸入。在社交網(wǎng)絡(luò)大數(shù)據(jù)的應(yīng)用上,力圖為使用者提供更加便捷和直觀的數(shù)據(jù)分析結(jié)果。
? ? ? ?對(duì)來自社交網(wǎng)絡(luò)平臺(tái)的數(shù)據(jù)附上時(shí)空標(biāo)志,去偽存真,盡可能收集異源甚至是異構(gòu)的數(shù)據(jù),必要時(shí)還可與歷史數(shù)據(jù)對(duì)照,多角度驗(yàn)證數(shù)據(jù)的全面性和可信性。
? ? ? ?要達(dá)到低成本、低能耗、高可靠性目標(biāo),通常要用到冗余配置、分布化和云計(jì)算技術(shù),在存儲(chǔ)時(shí)要按照一定規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類,通過過濾和去重,減少存儲(chǔ)量,同時(shí)加入便于日后檢索的標(biāo)簽。
? ? ? ?基于對(duì)用戶的結(jié)構(gòu)和行為特征深入挖掘,通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來實(shí)現(xiàn)隱藏中的有用數(shù)據(jù)。
? ? ? ?有些社交網(wǎng)絡(luò)的數(shù)據(jù)涉及上百個(gè)參數(shù),其復(fù)雜性不僅體現(xiàn)在數(shù)據(jù)樣本本身,更體現(xiàn)在多源異構(gòu)、多實(shí)體和多空間之間的交互動(dòng)態(tài)性,難以用傳統(tǒng)的方法描述與度量,處理的復(fù)雜度很大,需要將高維圖像等多媒體數(shù)據(jù)降維后度量與處理,利用上下文關(guān)聯(lián)進(jìn)行語(yǔ)義分析,從大量動(dòng)態(tài)而且可能是模棱兩可的數(shù)據(jù)中綜合信息,并導(dǎo)出可理解的內(nèi)容。
? ? ? ?社交網(wǎng)絡(luò)數(shù)據(jù)分析是基于社交網(wǎng)站的海量數(shù)據(jù)而衍生出來的服務(wù)型產(chǎn)品,但是同時(shí)它們反過來也為社交網(wǎng)站提供了巨大的參考價(jià)值。社交網(wǎng)站可以根據(jù)對(duì)社交數(shù)據(jù)的分析結(jié)果,進(jìn)一步開發(fā)出適合用戶需求的應(yīng)用和功能,從而將用戶黏著在自己的平臺(tái)上。利用社交數(shù)據(jù)分析工具,提供個(gè)性化的用戶畫像,從以下幾個(gè)維度進(jìn)行分析:
? ? ? ?從以上幾個(gè)維度分析社交網(wǎng)絡(luò)平臺(tái),得出結(jié)果可以看出用戶的愛好特征消費(fèi)情況動(dòng)態(tài)特征等等各種行為,從而更加了解用戶更加的懂用戶的需求。對(duì)于對(duì)用戶推送的信息更加精準(zhǔn),同時(shí)能做到更加精準(zhǔn)的數(shù)字運(yùn)營(yíng)。
? ? ? ?在“大數(shù)據(jù)”的浪潮中,基于社交網(wǎng)絡(luò)大數(shù)據(jù)的應(yīng)用,將會(huì)為企業(yè)帶來更多的收益,推動(dòng)大數(shù)據(jù)分析在各行各業(yè)中的應(yīng)用和推廣,將會(huì)為企業(yè)和社會(huì)帶來“大價(jià)值”。同時(shí),深度的數(shù)據(jù)挖掘中最敏感的問題仍然是用戶隱私的問題。社交網(wǎng)站從一誕生起就與這個(gè)問題相伴相生,隨著大數(shù)據(jù)時(shí)代的到來,隱私問題顯得越發(fā)重要。在未來掘金社交數(shù)據(jù)的道路上,一方面要為用戶提供更加精準(zhǔn)便捷的良好服務(wù),另一方面也要注重對(duì)用戶隱私的保護(hù)。只有符合用戶需求和用戶安全的商業(yè)利益,才能成為可持續(xù)的商業(yè)利益。