作者:探碼科技, 原文鏈接: http://nbbskj.com/web-bigdata/382
傳統(tǒng)搜索引擎是基于關(guān)鍵字的檢索,然而文檔的關(guān)鍵字未必和文檔有關(guān),而相關(guān)的文檔也未必顯式地包含此關(guān)鍵字。搜索引擎的核心技術(shù)就是搜索引擎所采取的各種算法,它是搜索引擎處理具體問題的依據(jù),可以形象地理解為搜索引擎的“思維方式”。
一種在web上應用的軟件系統(tǒng),它以一定的策略在Web上收集和發(fā)現(xiàn)信息,在對信息進行處理和組織后,為用戶提供Web信息查詢服務,用戶查詢的途徑主要包括自由詞全文檢索,主題詞檢索、分類檢索及其其它特殊信息的檢索。
采用先進的網(wǎng)絡(luò)爬蟲技術(shù),分布式計算能力,針對定制的目標數(shù)據(jù)源進行網(wǎng)絡(luò)信息的采集、提取、挖掘、處理,從而為各種信息服務系統(tǒng)提供數(shù)據(jù)輸入。
基于基于語義Web的搜索引擎利用大數(shù)據(jù)爬蟲技術(shù),可以很好地對關(guān)鍵字進行語義描述。當收到用戶提交的搜索請求時,先在已經(jīng)建立好的本體庫的基礎(chǔ)上對該請求進行概念推理,然后將推理結(jié)果提交給傳統(tǒng)的搜索引擎,最終將搜索結(jié)果返回給用戶。相對于傳統(tǒng)的搜索引擎,基于語義Web的搜索引擎有效地提高了搜索的查全率和查準率。可以說基于Web的搜索引擎是傳統(tǒng)搜索引擎的升級版本。
以探碼科技設(shè)計開發(fā)的Web搜索引擎系統(tǒng)為例,通過Ruby on Rails?實現(xiàn)Web前端,通過ElasticSearch集群,實現(xiàn)搜索引擎服務,通過ETL實現(xiàn)業(yè)務報表,通過Grafana實現(xiàn)可視化圖表。
基于語義的Web搜索引擎可以對用戶提交的內(nèi)容進行理解和邏輯判斷,從而實現(xiàn)更精確的搜索。用戶對領(lǐng)域本體的選擇規(guī)范表達行為搜索關(guān)鍵詞,還可以通過用戶搜索關(guān)鍵詞時,面向Web大數(shù)據(jù)搜索引擎自動匹配關(guān)鍵詞的概念及相關(guān)關(guān)系呈現(xiàn)給用戶,方便用戶更準確的表達需求。
基于Web大數(shù)據(jù)的搜索引擎采用關(guān)鍵詞概念與關(guān)鍵詞實體關(guān)系作為調(diào)整范圍搜索機制,當用戶輸入關(guān)鍵詞,各獨立搜索引擎所反饋的信息較少時,面向Web大數(shù)據(jù)搜索引擎將自動采用關(guān)鍵詞概念和實體關(guān)系近似性與其匹配搜索;當用戶輸入關(guān)鍵詞,各獨立搜索引擎所反饋的信息較大時,面向Web大數(shù)據(jù)搜索引擎根據(jù)關(guān)鍵詞屬性、實體、規(guī)則推理等篩選精準信息排列,幫助用戶縮小檢索范圍。
基于Web大數(shù)據(jù)搜索引擎將搜索結(jié)果過濾、排序后反饋給用戶、用戶可以對反饋結(jié)果進行標注,并將其存放在本地知識庫中便于對搜索內(nèi)容進行不斷的豐富,另外Web大叔搜索引擎具有自動捕獲用戶搜索行為的能力,根據(jù)用戶搜索關(guān)鍵詞的頻率和在瀏覽記錄上停留的時間,自動記錄便于輔助用戶進行搜索應用。
基于語義Web的搜索引擎設(shè)計本系統(tǒng)在傳統(tǒng)搜索引擎的基礎(chǔ)上構(gòu)建了本體知識庫,增加了本體推理模塊。當用戶發(fā)送查詢請求時,分詞程序首先對查詢字符串進行中文分詞處理得到關(guān)鍵字,再把關(guān)鍵字提交給本體推理模塊。本體推理模塊在已經(jīng)建好的本體知識庫的基礎(chǔ)上對關(guān)鍵字進行語義分析,然后將分析后的結(jié)果連同關(guān)鍵字一起傳遞給傳統(tǒng)搜索引擎,繼續(xù)進行基于關(guān)鍵字的查詢和匹配,返回最終結(jié)果。
基于Web大數(shù)據(jù)之下的搜索引擎它可能融合了大量數(shù)據(jù)、語音識別、自然語言處理、人工智能等多種高端IT技 術(shù)。另外致力于研發(fā)搜索引擎的產(chǎn)品公司更希望能夠在符合時代發(fā)展潮流的情況下,推出更多形式的搜索方式,讓搜索方式多元化,讓搜索方式變得更加新鮮起來。屆時不再是僅僅的傳 統(tǒng)的文字搜索,語音搜索、圖片搜索、多媒體搜索等多種多元化搜索引擎功能將會出現(xiàn)。搜索引擎還可以利用云計算技術(shù),更便捷地獲取更多的信息,將多種內(nèi)容整 合在一起形成一種不一樣的信息獲取方式或許就是下一代搜索引擎應當具備的功能。
智能化是網(wǎng)絡(luò)信息檢索未來的主要發(fā)展方向。隨著網(wǎng)絡(luò)用戶對檢索精確度和效率的不斷提高,越來越多的搜索引擎重視自身在檢索功能和檢索服務上的智能化程度,將涌現(xiàn)出智能搜索引擎。智能搜索引擎可以通過自然語言與用戶交互,最大限度地了解用戶的需求,它能為用戶提供了一個真正智能化的、個性化的信息過濾和推送服務。因此,智能搜索引擎成為今后搜索引擎的發(fā)展趨勢。
基于Web大數(shù)據(jù)背景下現(xiàn)有搜索引擎將完全轉(zhuǎn)變?yōu)槿诵曰阉鳎辉偈桥琶惴ǖ臅r代,而是用戶體驗的時代。搜索引擎會記錄用戶并分析用戶的搜索習慣,然后對這一系列的搜索結(jié)果進行分析和清理,得出用戶需要的數(shù)據(jù)信息,當下次用戶搜索需要的關(guān)鍵詞時,搜索引擎所呈現(xiàn)出來的都是用戶需要的數(shù)據(jù)結(jié)果。
隨著互聯(lián)網(wǎng)上信息服務和電子商務的發(fā)展,用戶基數(shù)的不斷增長,為電子信息的增值服務提供了廣闊的空間。在這里匯集了最新的思想、最先進的技術(shù)和最大的潛在市場。搜索引擎在未來的發(fā)展過程當中已經(jīng)成為一項產(chǎn)業(yè),它的商業(yè)利益成為推動系統(tǒng)完善和擴展的主要動力,網(wǎng)絡(luò)信息的檢索與利用由公用性轉(zhuǎn)向商業(yè)化。
面向Web大數(shù)據(jù)的搜索引擎是集用戶領(lǐng)域、用戶興趣、用戶搜索習慣等為一體的綜合性搜索工,其集合了個獨立搜索引擎的搜索能力,為用戶提供準確的搜索表達,在面對海量信息的互聯(lián)網(wǎng)內(nèi)容搜索中具有非常現(xiàn)實的應用價值。基于語義Web大數(shù)據(jù)的搜索引擎作為一個新的研究方向,有望實現(xiàn)比傳統(tǒng)搜索引擎技術(shù)的查全率和查準率更高效率的搜索引擎新技術(shù)。
?