作者:探碼科技, 原文鏈接: http://nbbskj.com/blog/735
引言:本文將從四個方面分享知識圖譜在國資國企大數據監管平臺的應用實踐,首先是講解知識圖譜的概念,然后講解為什么要做國資國企大數據監管平臺落地知識圖譜,接著講解國資國企大數據監管平臺在知識圖譜領域的應用案例,最后探討未來面臨的挑戰和機遇。
首先介紹下知識圖譜的簡史。1960年提出了語義網絡,作為知識表示的一種方式,主要是幫助自然語言的理解,典型的就是語義網絡,從不同維度表達詞與詞之間的語義關系。1980年提出了本體論,先定義一些本體再定義它們相關的關系,成熟的應用就是專家系統。1989年提出了萬維網,然后1998年從超文本連接到語義網絡,就是將每一個網頁加一個語義含義。到了2006年提出了鏈接數據的概念,將互聯網上的數據建立一些聯系,如姚明的頁面出現他妻子葉莉的信息,會給“葉莉”加一個鏈接。在2012年Google提出了知識圖譜,目的是提升整個搜索效果。
知識圖譜可以被認為是計算機科學早期愿景的實現,即創建大規模集成知識和數據的智能系統。源于語義網,數據庫,知識表示,NLP,機器學習等研究領域的科學進步,知識圖譜在過去幾年中在學術界和工業界迅速普及。這些不同學科和技術的整合為知識圖譜提供了豐富性,但也給從業者和理論家帶來了挑戰,讓他們知道當前的進步是如何從早期技術發展而來的,以便一方面充分利用它們,另一方面避免重新發明輪子。
知識圖譜是人工智能的一大底層技術,是描繪實體之間關系的語義網絡,自帶語義、邏輯含義和規則,通過三元組即“實體×關系×屬性”集合的形式來描述事物之間的關系。知識圖譜將非線性世界中的知識信息結構化、可視化,輔助人類進行推理、預判、歸類。知識圖譜中的圖并非圖像概念,而是類似化學分子式的結構,一個知識圖譜往往存在多種類型的實體與關系。知識結構網絡化、網絡結構復雜、網絡由三元組構成、數據主要由知識庫承載是知識圖譜的四大基本特征。
知識圖譜中包含的節點:
實體:? 指的是具有可區別性且獨立存在的某種事物。如某一個人、某一個城市、某一種植物等、某一種商品等等。世界萬物由具體事物組成,此指實體。如“中國”、“美國”、“俄羅斯”等。實體是知識圖譜中的最基本元素,不同的實體間存在不同的關系。
語義類(概念): 具有同種特性的實體構成的集合,如國家、民族、書籍、電腦等。 概念主要指集合、類別、對象類型、事物的種類,例如人物、地理等。
內容: 通常作為實體和語義類的名字、描述、解釋等,可以由文本、圖像、音視頻等來表達。
屬性(值):? 從一個實體指向它的屬性值。不同的屬性類型對應于不同類型屬性的邊。屬性值主要指對象指定屬性的值。如每個國家的“面積”、“人口”、“首都”是幾種不同的屬性。屬性值主要指對象指定屬性的值,例如960萬平方公里等。
關系:? 事物與事物之間的外部聯系,代表知識圖譜的邊。在知識圖譜上,關系則是一個把k k個圖節點(實體、語義類、屬性值)映射到布爾值的函數。
作為一種圖數據結構,知識圖譜的最小單元,是兩個節點及它們之間的關系,即(node1, edge, node2)——這是一個三元組(triple)。三元組的基本形式主要包括(實體1-關系-實體2)和(實體-屬性-屬性值)等。每個實體(概念的外延)可用一個全局唯一確定的ID來標識,每個屬性-屬性值對(attribute-value pair,AVP)可用來刻畫實體的內在特性,而關系可用來連接兩個實體,刻畫它們之間的關聯。如上圖所示,公司是一個實體,買方-并購-賣方是一個(實體-關系-實體)的三元組。
目前知識圖譜應用場景分為兩塊,一種是通用領域,一種是垂直領域。通用領域如Google的搜索領域,國內的百度和搜狗也在搜索領域應用;還有些聊天領域,如智能機器人、智能手表。這種應用有一個特性就是依賴通用知識圖譜,構建依賴國外維基百科,國內有百度百科、搜狗百科,將頁面中結構化數據抽取出來構建知識圖譜來支撐通用領域的問答和搜索。垂直領域應用越來越多,如金融、電商、公共安全、農業、電信等,如金融里面的反欺詐,公共安全領域的追捕犯罪分子。
不管是通用領域還是垂直領域落地有幾個共性條件,第一個必須有一個結構化的數據,這個數據還要高質量,盡可能的海量數據;第二在數據基礎上會抽象出一個本體庫,從本體層面去定義實體類型,以及表示他們的關系,第三就是有可以利用數據和本體庫的智能應用場景,依據知識圖譜具有的優勢和現有條件來確定業務場景是否需要知識圖譜。目前知識圖譜支撐的領域有搜索、問答、推薦、圖數據關系挖掘。
?
隨著信息化與數字化建設的展開與NLP技術的進步,知識圖譜不再局限于網絡百科式的搜索,其衍生出了互聯網內容與社交、大數據知識圖譜與行業知識圖譜等多種產品類型,產品專業化與場景化的趨勢日漸明顯,行業知識圖譜已經成為市場開拓重點。金融與公安兩大行業的知識圖譜占比較高且增長速度較快,其業務與知識圖譜可密切結合,具備建設意愿與資金投入,因而成為了市場規模的主要拉力。據艾瑞統計測算,在2021年的行業市場結構中,金融與公安的市場份額合計共占總市場的38.2%。
各行業賽道知識圖譜產業情況可從技術、業務、執行三大維度進行評價和對比。互聯網是知識圖譜產業最成熟的賽道。相比之下,其他行業的知識圖譜產業仍處于建設期,以金融的表現為標桿。政務、工業都有巨大的數據量,但業務專家儲備密集度、業務場景明確程度、客戶配合度的評價偏低,需要較為漫長的磨合過程。盡管醫療領域的專家儲備與業務場景明確度表現較好,但因各級醫院資源利益不統一,文本數據理解難度大,其產業發展遠不如人們所希冀的高專家水準。
國資國企大數據監管平臺提供產權交易市場和投融資并購市場的商業情報、數據及數據分析工具,從通過數據系統開始,逐步想前臺業務延展,實現從數據到分析到交易的商業閉環。為交易機構、國資國企、及投資人提供關聯的業務方向、潛在的并購標的、戰略意圖識別、企業相似度、風險傳遞方向、派系分析等。對標、追蹤、項目發現進行企業評估,智能搜索、智能匹配等。
接下來講一下知識圖譜為什么能在國資國企大數據監管平臺中落地。首先我們有豐富的數據可以利用。國資國企大數據監管平臺運行4年來,國資國企大數據監管平臺及相關業務系統總計建立有數據庫共8個,其中關系型數據庫7個,圖數據庫1個,涉及數據表300多個,我們將國資國企大數據監管平臺相關的數據管理統稱為塔米星河。塔米星河中的數據有的是通過用戶貢獻而來,如用戶賬號、用戶發布的項目、資訊、專欄等內容;有的是原始采集獲取的,如來自各大產權交易機構官網的項目數據,成交公告、并購事件等;有的是經過加工提取的,如交易機構站點數據、達人、投資人、服務商數據、各種報告數據等;有的是對接第三方API獲得的,如天眼查接口數據,證券資訊網站數據。這些龐大的數據和數據關聯關系,足可以讓知識圖譜有用武之地。
那么為什么要在國資國企大數據監管平臺中落地知識圖譜?因為國資國企大數據監管平臺有豐富的應用場景,如智能搜索&推薦:提升用戶找項目找投資效率;數據看板及可視化分析:分析事件發生的過程,分析用戶行為,挖掘數據之間關聯,輔助決策:為每個企業建立成長性分析模型,為投資人線索挖掘提供幫助。國資國企大數據監管平臺服務的產權交易市場,以及企業的投融資并購是一個低頻行為,但是項目從啟動到結束的整個過程需要多方參與,以及密集的知識儲備,通過AI和知識圖譜輔助提高決策效率顯得非常有必要。
在智能搜索方面借助知識圖譜AI+Web視角,提升搜索意圖理解;在智能推薦方面利用知識圖譜的AI+DB視角,可以從時間維度、相關主體維度推薦相關的內容;在智能輔助決策方面利用知識圖譜NLP+AI視角,形成模型化的算法,生成語義化的圖表和描述。如上圖我們看到,當分析一個企業的并購行為時,我們可以從其參控股公司關系、產業布局、主導并購事件、競爭關系、行業、地區等等多個方面對其進行知識圖譜化,并應用到真實場景中。
國資國企大數據監管平臺知識圖譜總體建設框架
接下來講一下國資國企大數據監管平臺中的知識圖譜落地應用。一個知識圖譜系統構建流程通常有五個部分,第一個是定義具體的業務問題,第二個數據搜集與處理,第三個是知識圖譜的設計,第四就是知識圖譜的存儲,最后是應用開發及系統評估。
數據層:在數據層會有外網數據爬蟲平臺,大部分數據是內網數據,數據分為兩塊結構化數據和非結構化數據。通過融合分析現有國資國企大數據監管平臺現有10多個數據庫、10萬多并購事件數、4萬多項目數據,以及上千萬企業數據。構建一套新的圖數據庫系統,在現有數據庫中抽取有用信息同步到圖數據庫中。而且要求構建一套自動化機制,實現數據的實時同步和條件抽取。
計算層: 計算層有預處理、歸一化、數據融合以及推理計算。預處理方面結構化數據轉換、半結構化數據抽取、文本關系抽取、數據標注,在處理完后會做一些實體名歸一、屬性歸一、屬性值歸一。通過充分利用知識圖譜應用技術,實現并購圖譜從信息抽取到知識融合、知識加工全流程環節。信息抽取:從各種類型的數據源中提取出實體、屬性以及實體間的相互關系,在此基礎上形成本體化的知識表達;知識融合:在獲得新知識之后,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應于多個不同的實體等;知識加工:對于經過融合的新知識,需要經過質量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質量。
應用層:應用層有智能搜索、可視化、報告、以及完成公開市場企業并購融資行為在以下五大方面的分析,包括參控股企業查詢、主導的并購融資事件分析、產業布局分析、行業分析以及競爭關系分析。同時對以上五大功能版塊提供工具進行可視化分析,通過模板組裝生成企業并購圖譜分析報告。
知識圖譜指對現實世界事物之間的相互關系進行形式化描述的結構化語義知識網絡。“實體-關系-實體”、“實體-屬性-屬性值”三元組是知識圖譜的基礎表達方式,其中包含實體、概念、屬性、屬性值、關系等元素。實體指具有可區別性且獨立存在的事物,如“成都傳媒集團”、“郭智宇"等;概念指具有同種特性的實體構成的集合。
充分利用國資國企大數據監管平臺數據源助推行業發展
充足的數據源是構建高質量知識圖譜的重要前提。目前,國資國企大數據監管平臺自建的項目數據、并購事件、新聞資訊、以及通過網絡爬蟲采集的網頁數據、通過第三方接口對接的數據源均越來越豐富,具備構建并購知識圖譜行業發展的基本要求。
提高國資國企大數據監管平臺高效化智能化運作促進行業發展
高效化、智能化已成為社會發展的重要趨勢,而知識圖譜作為人工智能重要分支知識工程的具體應用體現,不僅能加深國資國企大數據監管平臺垂直應用領域的智能化程度,還能為用戶降低運營成本、提高系統運作效率。
建立數據治理規范為知識圖譜提供充分必要條件
國資國企大數據監管平臺涉及數據表總計為300個,涉及數據字段2000+多,數據庫之間,表與表之間的關系錯綜復雜。團隊經過多年對數據進行相關的描述和整理,構建數據字典,建立數據血緣關系,為知識圖譜構建提供了充分必要條件。
搜素是國資國企大數據監管平臺系統必不可少的功能,雖然現有系統已有檢索功能,但是隨著數據量的增加,以及后續更多功能的加入,原有的搜索系統面臨以下幾個問題:
國資國企大數據監管平臺綜合搜素入口: 國資國企大數據監管平臺綜合搜索入口不僅包含現有的項目/資訊/塔米號/塔米達人信息,還包含現已上線的其他功能版塊如債權招商、專欄、圖譜、并購事件、成交公告、以及投資人、服務商、交易機構等信息。通過知識圖譜構建的這些實體間關系,輕松實現了多源數據的綜合搜索功能。
以時間為維度,對單一項目進行歷史追蹤數據分析,對交易主體進行歷史項目匯聚和透視,形成更清晰的透視效果,挖掘信息歷史價值。
分析主體:以時間為維度,對中央企業、地方國資、上市公司和新三板企業的并購融資行為進行統計和匯總,收集的主要實體數據如下表所示。
分析方法:
通過橫向穿透掛牌項目的整個生命周期,并購時間軸是基于時間序列對企業的歷史并購事件進行可視化展示的應用,通過一條清晰直觀的延伸時間軸,披露企業在所有公開市場的投融資并購行為,包括:股權融資、增資擴股、產權交易以及成交公告等信息。針對一個企業實體,通過年月日時間軸形式,完整的呈現出一個企業的并購融資發展歷程。
并購(M&A)是指涉及兩家以某種形式合并的公司的交易。并購交易可以按類型(水平,垂直,集團)或形式(法定,子公司,合并)進行劃分。通過構建并購圖譜分析,可以很好的評價一個企業的并購融資事件是否對企業帶來了長期的利好,使企業能夠發揮更好的協同作用,促進增長,以及實現產業多元化。
并購(M&A)的共同理由是創造協同效應,在這種協同效應中,合并后的公司的價值要比兩家公司各自的價值高。協同效應可能是由于成本降低或收入增加。同時,與有機增長相比,通過并購(M&A)進行無機增長通常是公司獲得更高收入的較快方法。公司可以通過收購或與具有最新功能的公司合并而獲益,而不必承擔在內部開發相同公司的風險。在橫向合并中,最終的實體將獲得更高的市場份額,并將獲得影響價格的權力。縱向合并還可以提高市場支配力,因為該公司將更好地控制其供應鏈,從而避免了外部供應沖擊。從事周期性行業的公司感到有必要分散現金流量,以免在行業發展放緩期間造成重大損失。在非周期性行業中實現目標可以使公司多元化并降低其市場風險。
本應用實現以下五大方面的并購圖譜分析,包括參控股企業查詢、主導的并購融資事件分析、產業布局分析、行業分析以及競爭關系分析;并在此基礎上,基于報告樣本生成企業并購圖譜報告
其中每一項的建設流程大致分為數據獲取、融合轉化、知識計算和可視化四部分,每部分需制定標準的作業規則和文檔說明,方便項目運維和知識的增量更新。
充分利用知識圖譜應用技術,實現并購圖譜從信息抽取到知識融合、知識加工全流程環節,在應用可見層面完成公開市場企業并購融資行為在以下五大方面的分析:包括參控股企業查詢、主導的并購融資事件分析、產業布局分析、行業分析以及競爭關系分析。同時對以上五大功能版塊提供工具進行可視化分析,通過模板組裝生成企業并購圖譜分析報告。
展示企業對外投資和參控股情況,以圖譜形式展示其所有參股企業列表和占比分布。下圖展示了該企業的所有參控股企業情況以及占比。
同時可以生成企業關系圖譜,實現企業關系圖譜的構建+查詢的整個流程,同時可以基于此挖掘出更有用的知識:企業合作伙伴發現、相似企業推薦、投資風險預測、企業市場預測等場景。
主導并購事件圖譜分析
利用知識圖譜分析并展示其相關聯的2018-2021年度并購事件,并從股權收購,企業增資,新設投資,投資退出四個角度分別展示該公司這幾年相關聯的并購事件,以及對應事件簡介和描述。
產業布局圖譜分析
產業布局與并購事件熱度分析,針對成都傳媒集團2018~2020年并購事件根據標簽(即對應并購企業的產業標簽)來分析,整合企業產業布局。
行業圖譜分析
同行分析二級圖譜:針對統一行業獲取行業前幾名的相關數據,利用知識圖譜進行對比分析(并購行業,區域,規格,市場占有率多個維度進行同行對比圖譜(對比的公司可以自己再增加)綜合挖掘其潛在的公司戰略意圖。
同區分析二級圖譜:針對統一區域獲取區域內前幾名的相關數據,利用知識圖譜進行對比分析(并購行業,區域,規格,并購行業,區域,規格,市場占有率多個維度進行同行對比圖譜(對比的公司可以自己再增加)綜合挖掘其潛在的公司戰略意圖。
競爭關系關聯分析
競爭關系二級圖譜:利用并購數據分析潛在的競爭對手和相應同行競爭對手,并對比潛在對手和自己公司的在(并購行業,交易金額,歷年估值,市場占有率多個維度進行同行對比圖譜(對比的公司可以自己再增加)綜合挖掘其潛在的公司戰略意圖。
進行可視化展示,目的是展示內部數據間關聯關系,后期讓用戶能夠更好的找到需要的信息而不是直白的搜索列表,返回什么就看什么,可以主動的在知識圖譜知識網絡中漫游。
國資國企大數據監管平臺可視化數據大屏,為企業提供最直接的結果呈現,可以讓我們全面認識數據,使數據更加直觀清晰、真實可靠。
知識圖譜的核心價值在于對多源異構數據和多維復雜關系的處理與可視化展示,讓上游大數據和下游AI任務形成有效連接,突破以往基于字符串匹配的淺層語義,更加便利、有效的幫助客戶組織領域知識,為流程優化、輔助決策、預測分析等下游應用提供基礎服務。國資國企大數據監管平臺圍繞全量的國企央企上市公司而展開的一系列公開市場投融資并購行為知識圖譜建設。
國資國企大數據看板系統結合自身龐大的數據庫資源及多年來產權投融資并購市場的綜合服務能力。為【地方政府、國企、央企、上市公司、交易機構】提供國資國企投融資并購大數據“全景可視化”看板,自助式數據分析與洞察; 實現企業價值畫像“一鍵競調”,并購圖譜“一鍵穿透”,分析報告“一鍵下載”。
知識圖譜在國資國企數據看板中的功能特點:
投融資并購領域的知識圖譜,知識單元包括公司、產品、股東、并購事件等,知識單元之間的關系包括上下游、競爭對手、合作、股權、并購等。知識圖譜可以知識單元之間的關系網絡直觀地顯示出來,當其中某個節點發生變化時,能快速識別出這個變化在關系網絡中的傳導過程及對特定主體的具體影響。
本應用有效的幫助企業通過知識圖譜了解自己,了解競爭對手。包括競品分析(商業模式、經營情況、相似程度等)、上下游風險的傳導以及供求關系、企業經營的實時跟蹤等。這些信息能幫助投資機構更好地分析行業及公司,提升效率,抓住業務機會。
知識圖譜即將知識結構繪制成以各個知識單元概念為節點的地圖。知識圖譜的基礎是自然語言處理,在計算機對文本中的知識點理解之后,再建立起各個知識單元之間的關系,形成知識網絡,最后以可視化的形式展現出來,或者通過智能搜索引擎呈現。
知識圖譜的體系架構是其指構建模式結構,如圖2所示。其中虛線框內的部分為知識圖譜的構建過程,也包含知識圖譜的更新過程。
知識圖譜構建從最原始的數據(包括結構化、半結構化、非結構化數據)出發,采用一系列自動或者半自動的技術手段,從原始數據庫和第三方數據庫中提取知識事實,并將其存入知識庫的數據層和模式層,這一過程包含:信息抽取、知識表示、知識融合、知識推理四個過程,每一次更新迭代均包含這四個階段。
知識圖譜的價值核心是通過數據積累形成的產業知識體系,早期依賴于專家支持,后續主要由算法驅動,不斷迭代。一般來說,積累時間越長、處理數據越多,產業知識體系越完善,搜索及預測效果越好。
知識圖譜的構建和應用許多多方供應商通力合作,上游著重數據處理,中游搭建模型,應用服務前端形成閉環。每一行業的知識圖譜內容包括三個部分:行業信息化與數字化基礎觀察、場景應用分析、市場規模分析。 行業帶有深厚的科技基因,總體信息化與數字化基礎良好,大廠具備較為充足的投入預算與建設實力,中小企業主要依托現有基礎夯實業務。場景應用:以智能推薦與輔助決策為核心,推出網絡搜索、商品迭代開發、商品精準導購、內容個性化推薦等細分應用。
總結下今天分享的內容,首先是知識圖譜優勢五大視角:Web+NLP+KR+AI+DB。知識圖譜落地充分必要條件三個方面:數據+本體庫+智能應用場景。以及國資國企大數據監管平臺中知識圖譜落地,1.交易市場數據:結構化企業數據+項目交易事件+非結構化的用戶文本數據;2.行業本體庫:支持圖譜數據構建+智能應用;3.智能應用:智能搜索+并購圖譜+智能推薦+圖譜數據可視化。
知識圖譜是一個強大的工具,尤其是對于企業級而言,例如對于網絡管理、元數據管理,它對于決策支撐、場景回溯、場景預測、強可視化以及白盒化的用戶體驗而言價值重大。無論是系統管理員、IT工程師還是企業的決策管理者都會感知到知識圖譜的深遠意義。
相關閱讀:
版權申明:本文主要目的是通過網絡分享行業經驗和技術探討,原創著作權歸探碼科技所有,請勿用于商業用途。