目錄式搜索引擎的體系架構(gòu)研究

時(shí)間：2020-08-01 09:56:28 計(jì)算機(jī)應(yīng)用畢業(yè)論文我要投稿

目錄式搜索引擎的體系架構(gòu)研究

　　爬蟲子系統(tǒng)是搜索引擎獲取資源的主要方式，下面是小編搜集整理的一篇關(guān)于目錄式搜索引擎的體系架構(gòu)研究的論文范文，歡迎閱讀借鑒。

目錄式搜索引擎的體系架構(gòu)研究

　　引言

　　信息檢索系統(tǒng)主要為互聯(lián)網(wǎng)用戶提供對(duì)資源的檢索服務(wù)，用戶通過輸入自己想要尋找的資源信息(諸如資源的部分名稱，資源內(nèi)容中相關(guān)關(guān)鍵詞等)，信息檢索系統(tǒng)根據(jù)用戶提供的檢索需求進(jìn)行資源匹配和資源定位，并按照一定的順序?qū)⑵ヅ涞馁Y源反饋給用戶。搜索引擎是在信息檢索系統(tǒng)的基礎(chǔ)上發(fā)展而來，目前的搜索引擎可以大致分為：目錄式搜索引擎，元搜索引擎，語義搜索引擎等。目錄式搜索引擎以當(dāng)前主流的百度搜索引擎(基于中文的搜索)和谷歌搜索引擎(基于多種語言的搜索)為代表，本文也主要以目錄式搜索引擎為例，展開對(duì)搜索引擎體系架構(gòu)的研究。

　　搜索引擎體系架構(gòu)

　　相比于信息檢索系統(tǒng)，搜索引擎在檢索詞輸入時(shí)更加靈活，對(duì)資源的預(yù)處理方面，搜索引擎系統(tǒng)優(yōu)化了更多的細(xì)節(jié)，在對(duì)資源的相似度匹配方面，搜索引擎需要考慮更多的因素在綜合定量用戶檢索詞和資源之間的相似度，最后的排序輸出更是衍生出很多優(yōu)秀的排序算法。總體來說，搜索引擎主要分為：索引子系統(tǒng)，內(nèi)容管理子系統(tǒng)，鏈接分析子系統(tǒng)和結(jié)果排序子系統(tǒng)，搜索引擎的體系架構(gòu)如圖1所示。

　　1、爬蟲子系統(tǒng)

　　爬蟲子系統(tǒng)是搜索引擎獲取資源的主要方式，爬蟲子系統(tǒng)通過在互聯(lián)網(wǎng)環(huán)境下運(yùn)行爬蟲子程序，定期的對(duì)互聯(lián)網(wǎng)資源進(jìn)行檢查，判斷指定URL鏈接的內(nèi)容是否發(fā)生變更并適時(shí)的對(duì)數(shù)據(jù)進(jìn)行更新，并將更新后的數(shù)據(jù)反饋給數(shù)據(jù)庫系統(tǒng)。爬蟲子系統(tǒng)目前主要采用兩種方式進(jìn)行資源爬�。涸隽渴脚廊『屠鄯e式爬取。增量式爬取表示爬蟲子系統(tǒng)根據(jù)當(dāng)前URL鏈接遞增的去遍歷下一條網(wǎng)頁;累積式爬取表示根據(jù)當(dāng)前URL鏈接遍歷所有與之相連的網(wǎng)頁，并將新得到的URL鏈接加入到隊(duì)列，完成遍歷后從隊(duì)列中取新的URL繼續(xù)遍歷。爬蟲子系統(tǒng)性能的優(yōu)良直接決定了最終搜索引擎結(jié)果的`輸出質(zhì)量，因?yàn)樵跀?shù)據(jù)的篩選階段主要也是依賴爬蟲子系統(tǒng)進(jìn)行數(shù)據(jù)過濾，篩選出有價(jià)值的資源信息。

　　2、索引子系統(tǒng)

　　索引子系統(tǒng)則是承接了爬蟲子系統(tǒng)的數(shù)據(jù)資源，互聯(lián)網(wǎng)數(shù)據(jù)呈現(xiàn)的是一種無規(guī)則或者半結(jié)構(gòu)的數(shù)據(jù)，面對(duì)如此不規(guī)整的數(shù)據(jù)格式，搜索引擎難以完成對(duì)資源的篩選和排序工作，因此索引子系統(tǒng)主要針對(duì)這種情況，通過對(duì)網(wǎng)絡(luò)爬蟲爬取的數(shù)據(jù)資源進(jìn)行梳理，按照規(guī)則對(duì)數(shù)據(jù)進(jìn)行規(guī)則化。倒排索引堪稱是在信息檢索領(lǐng)域?qū)?shù)據(jù)規(guī)則化最為有效的方式，我們通常對(duì)數(shù)據(jù)的認(rèn)知是從正排索引開始，即根據(jù)資源名稱，聯(lián)想到資源的內(nèi)容相關(guān)信息;倒排索引則與此相反，倒排索引根據(jù)關(guān)鍵詞和概念特征去反推具體的資源名稱。諸如我們?cè)谟懻撐鋫b時(shí)，會(huì)先想到“孤獨(dú)求敗”、“喬峰”等，根據(jù)這些關(guān)鍵詞和概念特征，我們會(huì)繼續(xù)反推得到對(duì)應(yīng)的金庸先生相關(guān)武俠著作的書名：“神雕俠侶”和“天龍八部”等。這種推理的方式和我們的搜索引擎系統(tǒng)是何其相似，用戶通過輸入相關(guān)關(guān)鍵詞和概念來獲得對(duì)應(yīng)的資源信息。

　　基于倒排索引的理論基礎(chǔ)，我們對(duì)搜索引擎的數(shù)據(jù)資源進(jìn)行結(jié)構(gòu)重組。首先需要對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)分詞和關(guān)鍵詞提取，對(duì)中文的分詞是一項(xiàng)非常復(fù)雜的工作，中文不像英文那樣，天然的以空格進(jìn)行分割，中文分詞需要將中文字符序列按照詞義進(jìn)行分割，分割后的每個(gè)單元都是一個(gè)關(guān)鍵詞，進(jìn)行對(duì)中文進(jìn)行分詞需要符合中文的語言規(guī)范和特點(diǎn)，需要保證分詞之后，每個(gè)單元都是一個(gè)完整的語義部分，同時(shí)還需要考慮分割之后語義的最大完整性，另一方面，在分詞過程中要考慮對(duì)停用詞(對(duì)整個(gè)語義表達(dá)沒有實(shí)際含義的詞，如“的”)的去重工作。分詞和停用詞操作相當(dāng)于對(duì)數(shù)據(jù)的初始化處理，經(jīng)過初始化之后，則完成了數(shù)據(jù)的初始化工作，索引子系統(tǒng)的構(gòu)建是建立在數(shù)據(jù)初始化之后，文檔經(jīng)過分詞之后，文檔都由一系列關(guān)鍵詞組成，此時(shí)可以建立文檔和關(guān)鍵詞之間的二維矩陣，二維矩陣中對(duì)應(yīng)的權(quán)值信息表示關(guān)鍵詞在文檔中的權(quán)值信息，關(guān)鍵詞在文檔中的權(quán)值可以通過多種方式加以計(jì)算，目前主要由：TF方法，DF方法，TF-IDF方法，CHI方法，IG方法和MI方法。

　　3、鏈接分析子系統(tǒng)

　　鏈接分析子系統(tǒng)曾是谷歌的發(fā)家算法，并且在數(shù)據(jù)挖掘和搜索引擎享有極高的評(píng)價(jià)，鏈接分析子系統(tǒng)通過對(duì)互聯(lián)網(wǎng)中數(shù)據(jù)進(jìn)行建模分析，發(fā)現(xiàn)互聯(lián)網(wǎng)網(wǎng)頁之間通過URL鏈接建立彼此之間的聯(lián)系，網(wǎng)頁之間通過超鏈接關(guān)系進(jìn)行頁面跳轉(zhuǎn)。通過對(duì)互聯(lián)網(wǎng)鏈接關(guān)系的深度分析，網(wǎng)頁質(zhì)量越高的網(wǎng)頁，其被其它網(wǎng)頁所鏈向的可能性越大，反之亦然，通過對(duì)這一規(guī)律進(jìn)行深度分析并構(gòu)建模型，得出互聯(lián)網(wǎng)網(wǎng)頁的質(zhì)量評(píng)價(jià)模型：即網(wǎng)頁的質(zhì)量由鏈向其網(wǎng)頁的數(shù)量所決定。網(wǎng)頁的質(zhì)量用PageRank值(PR值)表示，如公式1所示。

　　PageRank(PR)值=重新訪問概率+迭代訪問概率(公式1)。

　　假設(shè)互聯(lián)網(wǎng)用戶采用兩種方式進(jìn)行網(wǎng)頁：其一、通過一個(gè)網(wǎng)頁目錄，隨機(jī)的選擇其中一個(gè)網(wǎng)頁進(jìn)行瀏覽，瀏覽結(jié)束之后，重新回到網(wǎng)頁目錄，再次選取新的URL進(jìn)行訪問;其二、隨機(jī)選擇一個(gè)網(wǎng)頁URL進(jìn)行訪問，從該網(wǎng)頁中提取URL鏈接列表，從URL鏈接列表中隨機(jī)選擇一個(gè)網(wǎng)頁URL繼續(xù)訪問。我們定義為該訪問模式和隨機(jī)游走模型，并得出網(wǎng)頁質(zhì)量的量化評(píng)價(jià)公式，如公式2所示。

　　在公式2中，p表示采用重新訪問的方式進(jìn)行頁面瀏覽的概率，相應(yīng)地采用迭代訪問的概率為(1-p)，迭代訪問時(shí)用戶選擇下一個(gè)頁面進(jìn)行訪問的概率取決于下一個(gè)頁面的PR值，從某個(gè)頁面鏈出的網(wǎng)頁可能有多個(gè)，表示的是對(duì)每一個(gè)鏈出網(wǎng)頁都采取平均分配權(quán)值的方式。

　　4、結(jié)果排序子系統(tǒng)

　　結(jié)果排序子系統(tǒng)是用戶直接與搜索引擎進(jìn)行交互的部分，結(jié)果排序子系統(tǒng)通過對(duì)符合用戶篩選條件的數(shù)據(jù)庫中資源進(jìn)行排序并輸出。排序子系統(tǒng)需要綜合考慮多種因素，諸如網(wǎng)頁自身的PR值，用戶檢索詞和數(shù)據(jù)資源之間的相似度值等多個(gè)方面。同時(shí)，排序子系統(tǒng)需要考慮如何保證用戶需要的資源排在靠前的位置。相關(guān)研究發(fā)現(xiàn)，用戶通常只會(huì)對(duì)前幾頁的搜索引擎結(jié)果進(jìn)行點(diǎn)擊，因此排序子系統(tǒng)不僅要保證結(jié)構(gòu)輸出的準(zhǔn)確性，即既要保證準(zhǔn)確率和召回率，同時(shí)非常重要的因素是首頁命中率。

　　總結(jié)

　　本文通過對(duì)當(dāng)前主流的目錄式搜索引擎的體系架構(gòu)進(jìn)行研究，主要就爬蟲子系統(tǒng)、索引子系統(tǒng)、鏈接分析子系統(tǒng)和結(jié)果排序子系統(tǒng)四部分進(jìn)行論述，并就每種子系統(tǒng)中關(guān)鍵詞技術(shù)進(jìn)行了介紹。

　　參考文獻(xiàn)：

　　[1]羊晶璟，鞠時(shí)光，王秀紅。基于Web的個(gè)性化搜索引擎的研究[J].計(jì)算機(jī)工程與設(shè)計(jì)，2008,20:5206-5208.

　　[2]李廣麗，劉覺夫。垂直搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)[J].情報(bào)雜志，2009,10:144-147+169.

　　[3]文必龍，張璇，趙晶浩，趙滿。企業(yè)搜索引擎?zhèn)€性化排序方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2013,04:199-203.

　　[4]佟曉筠，王翥。一種特定領(lǐng)域智能搜索引擎技術(shù)的研究[J].計(jì)算機(jī)應(yīng)用研究，2004,05:49-51.

【目錄式搜索引擎的體系架構(gòu)研究】相關(guān)文章：

圖書檢索系統(tǒng)體系架構(gòu)研究11-04

紅帽認(rèn)證體系架構(gòu)介紹11-10

流媒體系統(tǒng)架構(gòu)的應(yīng)用11-11

j2ee技術(shù)體系架構(gòu)10-27

分布式系統(tǒng)架構(gòu)實(shí)踐05-31

關(guān)于分布式系統(tǒng)架構(gòu)07-12

SOA體系架構(gòu)下的企業(yè)系統(tǒng)集成11-04

軟件工程體系的架構(gòu)和發(fā)展分析07-20

醫(yī)院成本會(huì)計(jì)體系架構(gòu)論文08-11

久久久久无码精品,四川省少妇一级毛片,老老熟妇xxxxhd,人妻无码少妇一区二区

目錄式搜索引擎的體系架構(gòu)研究