是一款基于網絡數據采集技術,打造的食品、藥品、保健品、化妝品、醫療器械全維度大數據服務平臺
隨著食品藥品監管政務公開工作的不斷推進,政府實施食品藥品監管數據資源目錄管理,制定數據標準,編制數據開放目錄,制定總局數據資源年度開放計劃,并積極響應公眾開放需求,依托國家公共信息資源統一開放平臺和總局政府網站,穩步推進食品藥品監管數據開放。
探碼食品藥品監管信息大數據服務平臺主要數據源于政府食品藥品安全監管數據以及第三方數據和補充數據。據統計,截止2019年8月食品藥品監管信息數據共443,1915條數據。
其中食品監管信息數據共159,8842條,包括134,5215條產品抽檢數據;18,5753條食品數據;18,816條特殊食品數據以及49058條廣告數據。
產品抽檢數據包括:國家食品安全監督抽檢(合格產品)22415條;國家食品安全監督抽檢(不合格產品)1139039條;國家保健食品安全監督抽檢(合格產品)130條;國家保健食品安全監督抽檢(不合格產品)3681條;省級食品安全監督抽檢(合格產品)4163條;省級食品安全監督抽檢(不合格產品)175787條。
食品數據包括:食品生產許可獲證企業(SC)162204條;食品生產許可獲證企業(QS)22297條;食品添加劑生產許可獲證企業1252條。
特殊食品數據包括:國家保健食品16732條;進口保健食品780條;嬰幼兒配方乳粉產品配方1269條;特殊醫學用途配方食品35條。
廣告數據包括:保健食品廣告49028條;全國收回或撤銷保健食品廣告30條。
藥品監管信息數據共283,3073條,包括6828條全國藥品抽檢數據、134,8272條藥品數據;64,7012條醫療器械數據;259960條化妝品數據;18,4117條廣告數據以及38,6884條其他相關數據。
藥品數據包括:國產藥品165425條;藥品注冊228809條;中藥提取物數據3902條;國產藥品商品名7084條;藥品注冊相關專利1935條;藥物臨床試驗機構名單1546條;進口藥品4074條;藥品生產企業7998條;進口藥品商品名5614條;GMP認證15115條;藥品經營企業531426條;批準的藥包5808條;? 批件發送信息4348條;GSP認證352133條;中藥保護品種197條;OTC化學藥品1198條;OTC中藥說明書范本4713條;國家基本藥物685條;中國上市藥品目錄集 非處方藥遴選及轉換目錄數據庫-化學藥品1091條;非處方藥遴選及轉換目錄數據庫-中藥3907條;藥品出口銷售證明878條。
國產器械161797條;國產器械(歷史數據)40840條;醫療器械標準目錄1587條;進口器械53122條;進口器械(歷史數據)12487條;體外診斷試劑分類子目錄(2013版)766條;醫療器械檢測中心受檢目錄32933條;醫療器械分類目錄1624條 ;進口第一類醫療器械(含第一類體外診斷試劑)備案信息9175條;醫療器械生產企業(許可) 2395條;醫療器械生產企業(備案)2468條;醫療器械經營企業(許可)103679條;醫療器械經營企業(備案)224139條 。
化妝品數據包括:國產特殊用途化妝品42174條;進口化妝品213649條;國產非特殊用途化妝品備案檢驗機構222條;化妝品生產許可獲證企業(歷史數據)3880條;化妝品行政許可檢驗機構.35條。
廣告數據包括:藥品廣告93597條;醫療器械廣告89875條;虛假廣告企業名錄82條;可發布處方藥廣告的醫學藥學專業刊物名單563條。
互聯網藥品信息服務15669條;互聯網藥品交易服務992條;網上藥店693條;執業藥師注冊人員369530條。
定制國家藥監局網站以下數據的采集規則(共12個數據庫)(官網地址)
以國產藥品為例(訪問地址)
抓取整個數據庫的每條數據的詳細信息
可研究通過數據的ID號進行抓取,通過調整抓取ID號的范圍獲取需要范圍內的數據
探碼科技基于云計算研發的探碼Web大數據采集系統——利用眾多的云計算服務器協同工作,能快速采集大量數據。
探碼通過網絡爬蟲對相關網站進行全方位實時的匯總采集。針對政府開放數據,對相關數據字段進行全自動化采集,借助網絡爬蟲或網站API,從網頁獲取食品藥品監管信息數據,將其統一儲存為本地數據。
網絡數據采集平臺在獲得所需的數據并將其分解為有用的組件之后,通過可擴展的方法來將所有提取和解析的數據存儲在數據庫或集群中,然后創建一個允許用戶可及時查找相關數據集或提取的功能。
整體框架如圖:
食品藥品監管信息采集平臺是探碼針對政府網站數據量大、防爬取措施嚴格、訪問頻率限制等問題提供的食品藥品監管信息大數據采集方案。
食品藥品監管信息采集平臺是探碼科技基于網絡數據采集技術,打造的食品、藥品、保健品、化妝品、醫療器械全維度大數據服務平臺。它對政府開放數據、第三方數據、補充數據等進行整合并形成數據服務,提升數據共享效率。
列表頁數據預覽,但是列表頁里面中href的鏈接組合成url訪問不了詳情頁,這導致大部分市面上的自動化采集系統無法獲得詳情頁數據。
我們通過自研的可視化采集系統,正確的讀取詳情頁URL,列表頁可以獲取javascript:commitForECMA(callbackC,"content.jsp?tableId=25&tableName=TABLE25&tableView=國產藥品&Id=109228",null)? 這個js命令,? 采集系統先加載主頁 然后執行這個js命令就可以得到詳情頁。
如果只是通過抓取目錄列表的方式去采集數據,這種方式有個問題就是不好監測它哪些是新數據,哪些是舊數據。雖然是可以全庫采集下來后再比對選出新數據,但是這樣的處理速度就會受到影響,特別是它上面有些數據庫的數據量比較大的,例如藥品經營企業有60萬條的數據,如果每次都全庫采集需要幾天時間,如果可以通過ID的方式采集的話,每個月只要采集新增的1~2萬條ID的數據即可。而且還可以每天監測它新增了多少數據,新增的哪些數據。而通過我們的可視化采集系統,即可方便的解決這個問題。
詳情頁數據預覽
?
通過多維度的共享數據,搭建全國最全的食品藥品監管信息大數據平臺,實現各級食品藥品監管部門間系統互聯、信息互通、業務協同、統一高效。目前探碼科技已經收集了近千萬條食品藥品監管信息,并且可實現實時增量采集,為您提供信息最全,覆蓋面最廣的食品藥品監管信息數據服務。
《食品藥品監管局數據統計(截止至2019年8月)》下載:【聯系我們】或者關注【探碼科技】微信公眾號,回復關鍵詞“食品藥品”即可。