數塔.Datale基于收錄的全國3000萬+企業大數據,為政府、園區、金融機構及中小企業提供專業的企業大數據智能服務。
導航: |
數塔.Datale
基于機器學習的企業評價系統
成都探碼科技有限公司
?
目錄
數塔.Datale基于機器學習的企業評價系統
數塔.Datale是一個基于大數據采集、機器學習、模型算法、知識圖譜、數據洞察的企業大數據平臺。
數塔.Datale基于收錄的全國3000萬+企業大數據,為政府、園區、金融機構及中小企業提供專業的企業大數據智能服務。從企業查詢、成長性評價、投資價值分析、行業洞察、指數排名等業務場景出發,幫助機構及園區大幅提升信息管理水平。
打造服務政府部門的企業評價決策支撐平臺,服務園區機構的企業指數排名及企業洞察平臺!
從2014年中央經濟工作會議首次明確提出“大眾創業、萬眾創新”,到2015年正式寫入《政府工作報告》,近兩年來,創業、創新已成為社會發展的一個主題詞。2016年,在全球融資總額整體下降的大趨勢下,我國融資總額逆勢增長,漲幅為10%。2017上半年國內共發生2786例投資事件,融資總額達3252億元,平均投資額度創歷史新高。但是也發現幾個問題,部分地區出現雙創虛熱,質量跑不過數量的線下;部分地區出現付出多、回報少的主體獲得感低。少數地方在“雙創”中出現的“浮、漂、虛”的現象值得高度警惕。如果通過大數據征信、風險、評價預警等平臺,可以及時預判,使政府和機構在開展“雙創”工作更加精準和有效。
同時,近年來政府對金融科技行業的監管更加嚴格了,行業亂象被清理,政府、企業、包括個人均越來越重視數據保護。市場上對私業務被監管、限制,對公業務需求則在持續穩定的增長。這對探碼科技的發展來說是一個非常好的趨勢,契合我們一直堅持做企業大數據智能評價服務的核心戰略。
市場對企業端智能大數據服務需求猛增。而基于此的大數據增值服務也將迎來黃金時代。在未來,大數據產業的核心競爭力將不再是數據,更多集中到對數據的分析、挖掘結果處理上,如何應用它給業務帶來價值。
經市場調查研究發現以下現狀:
一、由于企業謊報隱瞞企業信息,導致政府、園區機構等難以清楚的掌握企業的運營風險及經營財務指標(包含企業成長能力、現金流、償債能力等各項指標),也因此難以掌握企業經營狀況,評估企業穩健發展的可能性。
二、企業在申報項目時,無法準確的評估項目的可行性以及相關聯項目的在同地區同行業排位水平。這些痛點最終導致政府對企業的扶持難度增大,優質項目難以抉擇,園區機構投資風險增大。
第一是如何獲得精準的目標客戶,對于中小企業來說獲得客戶很大部分都是依靠黃頁,地毯式掃樓,或者朋友介紹,這存在的一個問題就是效率低而且成本高;
第二是如何有效地對老客戶進行維護,企業BRM上冗雜的信息缺少優化的工具,難以從中篩選出有限營銷線索;
第三是如何提升業務能力,客戶的獲取以及老客戶的維護難,直接導致了業務能力的下降;
第四是如何提升企業在行業當中的品牌競爭力。
對于個人用戶可以查到企業的工商信息、股東法人信息、訴訟失信信息,以及招聘、市場活動信息等;
對于2B企業通過分析和挖掘全網在線企業數據信息,再結合企業內部的BRM系統,為2B企業精準挖掘潛在企業客戶;
對于金融機構提供征信查詢,同時還可以查到人和人、人和公司、公司和公司之間的關系;
對于政府、園區提供企業排名指數、成長價值平臺報告、多維度企業發展潛力分析報告。
該項目,通過信息聚合、過程優化及資源優化,通過探碼Datale智能Web大數據采集、機器學習、模型算法、知識圖譜、時序分析等高新技術,使用數塔企業大數據,能縮短企業挖客的時間,提高獲客的精準與效率,降低成本,改善服務,提高企業的市場應變能力和競爭能力;控制金融機構投資的風險,提供政府政策決策的支撐。
在大數據的發展浪潮下,成都探碼科技有限公司通過大數據技術創新,自主研發業內領先的數塔?Datale大數據企業評價系統。數塔?Datale大數據企業評價系統深入研究大數據平臺技術和應用技術,為滿足頂層大數據應用需求,自主開發大數據能力,實現企業大數據外部與內部CRM的大數據分析挖掘存儲,打造了ID關聯模型、用戶深度標簽、行業知識庫、分布式爬蟲、數據可視化等平臺即人工智能技術的企業大數據SAAS平臺,并以標準化應用程序編程接口(API)的形式支持頂層數據的相關應用,打造企業成長價值評價系統、政府決策支撐平臺、企業精準獲客工具、企業輿情監控平臺、行業指數排名工具、開發API信息查詢6款企業大數據核心功能。
數塔?Datale大數據企業評價系統技術架構下圖所示,其底層平臺基于開源技術搭建,融合了離線批處理、內存計算、流計算等多種計算模型,以及關系型數據庫、列數據庫、內存數據庫、圖數據庫等多種數據庫模型,向上提供計算和存儲能力;并結合機器學習、知識圖譜、時序分析等技術在大數據開放能力層,研發了企業畫像、ID圖譜、用戶標簽等多種大數據分析挖掘技術,并結合第三方的地理信息系統(GIS)等能力,面向多個行業領域,向應用層以API 的形式提供多種數據服務。
?數大數據企業評價系統技術架構圖
數塔?Datale大數據企業評價系統主要研發了企業畫像、混合數據庫、ID關聯模型、用戶深度標簽、行業知識庫、統一數據采集與存儲等幾項關鍵技術。
融合關系型數據庫、列數據庫、 內存數據庫、圖數據庫,并提出面向不同存儲過程和計算需求的混合數據庫模型,可以滿足多種場景下的數據處理需求,解決單一數據庫模型無法滿足大規模數據訓練、高頻高實時性計算、網狀結構計算等不同場景下的數據處理問題。
如圖所示,海量數據計算使用非關系型數據庫(NoSQL)來支持;網 狀結構數據的機器學習訓練依靠圖數據庫(Neo4j)來支持;高頻高實時性計算對接內存數據庫(Redis);小規模頂層數據查詢與展現對接關系型數據庫(SQL)。
混合數據庫模型
具體來說,包含4點內容:
(1)能夠實現有一定實時性需求的、傳統千萬級及以下的數據查詢與 展現業務,并基于傳統關系型數據庫MySQL來構建。通過加載數據預讀取算法,MySQL的單機處理能力可以達到秒級訪問5000萬條多維數據的水平,能夠滿足一般的數據查詢業務需求。
(2)對于千萬級以上的數據查詢業務,已超出單臺MySQL的支持水平,更適宜轉化成離線查詢業務,直接使用非關系型數據庫HBase來支持。此時數據查詢的范圍可擴展至數十億甚至上百億,系統仍可平穩輸出查詢結果,前提是付出分布式離線計算的延時代價。
(3)對于在深度包檢測技術(DPI)數據的 K-V 查詢過程中需同步完成標簽數據在數塔本地服務器的ETL工作的場景,任何傳統磁盤輸入輸出(IO)基本都無法支持該高頻數據存取操作,則借助內存數據庫Redis 來完成。Redis可在典型的單臺計算資源下支持100毫秒級的數據ETL操作,并且可以與 K-V 查詢進行無縫銜接,輕松應對每日2億條標簽數據入庫。
(4)對于圖狀數據結構,如數塔平臺中典型的企業大數據SAAS平臺,則適合從邊和節點的角度進行數據存儲、表達和計算,無論行數據庫還是列數據庫都不再適合,因此采用圖數據庫Neo4j來支持。
目前,數塔?Datale大數據行業應用平臺支持1000萬級多維數據的秒級查詢展現,10億級多維數據的24 h內基礎演算,10毫秒級的數據流處理,并可秒級完成10億級邊、1000萬級節點的子圖查詢運算。
基于圖計算技術構建ID關聯模型,采用圖數據庫進行數據存儲和模型計算,實現DPI數據內的多種用戶ID關聯,解決了企業大數據內部與外部數據有效關聯和拼接的問題。利用機器學習技術學習專家打分,模仿專家對企業價值評價的決策過程。建立評價模型,通過自動高效地對上傳數據的企業進行多維度、全方位解析,反映企業價值、企業成長性與成長趨勢。它是一種對企業的持續分析與動態評價。最終形成一套企業成長性評價報告,是基于大數據與機器學習技術建立起企業成長性評價模型的結果體現,形成企業的深度畫像。
企業投資價值報告
根據用戶上網行為、使用機器學習和模式識別等算法,如樹狀增強型樸素貝葉斯(TAN)分類算法等,推斷用戶的性別、年齡等基礎人口屬性,并打造消費偏好、消費能力等其他深度標簽,用于支持用戶行為分析的大數據應用。
目前,數塔?Datale大數據企業評價系統已構建超過10個行業的總計6000余類用戶深度標簽。
通過整合數據采集、數據存儲、數據形式化、數據表達等環節,打造完善的行業知識庫,為各行業網絡大數據的解析提供必要的支持。其中,行業知識庫的構建包含以下環節:
(1)基于分布式爬蟲進行數據采集
如圖所示,分布式爬蟲DTSpider基于開源技術WebMagic與內存數據庫技術Redis而研發,搭建在云主機上,提供行業知識庫數據采集解決方案。
分布式爬蟲DTSpider
(2)面向垂直行業構建知識體系
如圖所示,行業知識庫面向如電商、新聞、影視等不同的垂直行業,分別構建樹狀知識體系,能夠直接對接標簽能力應用。例如,電商行業的樹狀知識體系,可按照商品類別進行構建,如圖書、服飾、運動健康等。
行業知識庫
(3)深挖垂直行業知識詳情
基于從頁面抓取的標題和正文,經自然語言處理得到知識詳情,例如電商庫存量單位(SKU)名稱、價格、參數、評論等。
目前,數塔?Datale大數據企業評價系統的行業知識庫整體字典規模超過1億。
面向企業填報數據、互聯網公開數據和企業自有數據等多種數據類型,分別構建數據采集能力,并定義了統一的數據采集接口與存儲接口,解決了多源異構數據的采集與存儲的相關問題。
(1)探碼Web大數據采集
探碼Web大數據采集系統基于云計算的大數據采集。主要特征是利用許多云計算服務?協同工作,能快速采集大量數據,而且也避免了一臺計算機硬件資源的瓶頸,另外對數據采集的要求越來越高,傳統post采集不能解決的技術問題也逐步被解決,以探碼Kapow/Datale采集?為代表的新一代智能采集?,能模擬人的思維,模擬人的操 作,從而徹底解決了ajax等技術難題,因為網頁一般都是設計來給人瀏覽的,所以能模擬人的智能采集?工作起來就非常順利,不論后臺技術是什么,當數據最終顯示在人的面前的時候,智能采集?就開始提取。這最終把計算機的能力發揮到了極致,使得計算機可以代替人做所有網頁數據采集的工作。并且利用大數據云采集技術,把計算機的計算能力也發揮到了極致。目前這一采集技術得到
了越來越廣泛的應用。各行各業只要是需要從網絡上獲取一些 數據或者信息,都可以使用此類技術。整體框架如圖所示。
?
數塔?Datale是一個基于探碼科技Datale智能大數據Web采集、機器學習、模型算法、知識圖譜、時序分析等人工智能技術的企業大數據工具平臺。