采用分布式網絡數據采集系統為某省科技廳實現企業庫、政策庫、項目庫的建設,從而建設科技數據統計分析平臺。
案例展示
隨著 “大數據”的發展,科技管理工作呈現出管理主體多樣性和科研需求個性化的趨勢。在“數據”本身成為一種公共資源的情況下,科技管理需要一種創新的模式來滿足時代發展的需求,“數據”將在這種發展中起到支撐作用,為科技管理工作和社會科研工作提供分析、決策與評估依據,進一步提升全社會的科技創新能力。同時,“數據”在實現政府決策科學化,推動政府治理能力現代化方面也發揮著重要作用。
該平臺的建設將加快信息化與科技業務的深度融合,有利于全區經濟社會發展與改革要求,有利于科技管理工作更加高效,有利于優化科技服務水平。平臺建成后將推動形成基于大數據的科學決策,實現精細化科技管理,增強科技創新引領能力。
政務數據資源是國家數據資源的重要組成。加快推動政務數據共享工作,是轉變政府職能、創新社會管理的重要舉措,有利于全面釋放數據紅利。《自治區加快推進“數字政府”建設工作方案》中明確要求加強數據資源規劃、采集、存儲、共享、開放,加強數據治理,提升數據質量和價值,構建全區共建共享的大數據資源體系。
需求對象:各省地市州區縣科技信息化中心、經濟信息中心、雙創辦、科技成果轉化處
需求目標:
科技廳統計與分析平臺Demo截圖
本次項目深入了解科技管理信息系統和科技統計工作的業務特性,全面梳理基礎數據,整理全套規范樣表。分析各項指標,理清數據關聯性,制定數據清洗規范。建設科技數據平臺框架,整合不同類型數據源,打通業務系統數據接口,建立數據匯聚通道。通過構建統一的科技數據交換、存儲、共享、應用接口等標準體系,構建匯聚式一體化的科技數據倉。
六大子系統,十四個功能模塊
本項目涉及到科技廳內外部各種多源數據,需通過“數據共享交換系統”實現: 數據共享交換、目錄管理服務、共享數據管理、共享業務管理。具體有以下幾個方式實現:
探碼分布式網絡數據采集系統介紹:系統實現數據從采集,處理到應用的全生命周期管理;另類數據,網頁解析及采集自動化。針對互聯網數據抓取、處理、分析、挖掘,并靈活迅速地抓取網頁上散亂分布的信息,通過智能數據中心提供存儲與計算,利用網頁應用服務器和開放平臺服務器進行大數據存儲、管理以及挖掘服務,平臺服務器居中調節,實現大數據的智能化分析,準確挖掘出所需數據。
通過詳細的需求分析,該省科技廳數據統計分析平臺其核心目的是建設科技數據倉,采用探碼分布式網絡數據采集平臺,建設了政策庫、企業庫、項目庫等科技數據倉,基于科技數據倉的數據實現以下建設內容:
通過探碼采集系統采集本省各類的科技申報政策,儲存建立龐大的本省科技政策庫。
通過對企業公開數據的采集,以及調用權威工商平臺的API接口數據,建設含有企業工商信息、經營狀況、知識產權信息、法律糾紛、品牌傳播等信息的本地區企業庫。
通過人工的初步分析,制定相應的算法對政策數據進行分類。同時結合平臺智能文字處理系統對采集到的政策信息逐條進行解讀,保存政策的基本條件(包括企業資產、所在地區,法人,所屬產業,經營范圍),用于企業和政策的基本匹配。分級保存政策的一級,二級,三級條件,逐步引導用戶完善企業信息,更準確地匹配相關政策,給企業的決策提供最可靠的幫助。
企業與政策基本屬性關系表,保存公司通用的基本屬性,如注冊資金,注冊地址,注冊時間等關鍵屬性。基本關系表在公司或政策信息進入數據庫的同時自動完成填寫,并根據公司或政策的相應變動。
系統控制臺管理模塊完成該科技廳數據統計分析平臺的啟動、停止、備份、恢復,以及重新啟動、注銷登錄用戶等功能,實現對企業庫、政策庫、項目庫的管理。
?