數(shù)據(jù)挖掘技術(shù)在Web信息檢索中的應(yīng)用研究論文

時(shí)間：2024-07-02 10:34:37 其他類論文我要投稿

　　[摘要]將數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web信息檢索中，可以使網(wǎng)絡(luò)信息檢索更加準(zhǔn)確化和智能化。介紹了Web數(shù)據(jù)挖掘的概念，分析了Web數(shù)據(jù)挖掘在Web信息檢索中的應(yīng)用，最后對(duì)Web信息檢索未來發(fā)展進(jìn)行了展望。

數(shù)據(jù)挖掘技術(shù)在Web信息檢索中的應(yīng)用研究論文

　　[關(guān)鍵詞]數(shù)據(jù)挖掘；Web信息檢索；搜索引擎

　　[中圖分類號(hào)]P209[文獻(xiàn)標(biāo)志碼]A[文章編號(hào)]2096-0603（2017）29-0033-01

　　Web現(xiàn)已成為一個(gè)巨大的知識(shí)庫、信息庫，Web信息檢索通過搜索引擎返回給用戶成千上萬個(gè)檢索到的網(wǎng)頁，但是滿足用戶檢索要求的網(wǎng)頁卻鳳毛麟角，用戶無法在第一時(shí)間得到滿足要求的有價(jià)值信息。因此，Web信息檢索的精度不能為客戶提供準(zhǔn)而精的檢索信息，需要檢索精度更高的數(shù)據(jù)挖掘技術(shù)。

　　所謂數(shù)據(jù)挖掘（DataMining）就是從海量的原始數(shù)據(jù)中提取信息和知識(shí)的過程，這些信息和知識(shí)隱含在原始數(shù)據(jù)中，事先未知，但是對(duì)用戶來說是很有用的。

　　一般的數(shù)據(jù)挖掘?qū)ο笫墙Y(jié)構(gòu)化數(shù)據(jù)，而Web數(shù)據(jù)挖掘的對(duì)象是非結(jié)構(gòu)化數(shù)據(jù)，在現(xiàn)有數(shù)據(jù)挖掘研究成果的基礎(chǔ)上，運(yùn)用Web數(shù)據(jù)挖掘技術(shù)，可以提高信息檢索的精準(zhǔn)率和有效率，Web信息檢索將會(huì)達(dá)到向一個(gè)新的高度。

　　一、Web數(shù)據(jù)挖掘技術(shù)概述

　　Web數(shù)據(jù)挖掘是一項(xiàng)綜合技術(shù)，是從WWW資源上抽取信息（或知識(shí)）的過程，是對(duì)Web資源中蘊(yùn)涵的未知的有潛在應(yīng)用價(jià)值的模式的提取[1]。按挖掘?qū)ο髞矸诸�，基于Web的數(shù)據(jù)挖掘分為3大類：基于Web內(nèi)容的挖掘（WebContentMining）、基于WEB結(jié)構(gòu)的挖掘（WebStructureMining）、基于WEB使用的挖掘（WebUsageMining）。

　�。ㄒ唬┗赪eb內(nèi)容的挖掘

　　基于Web內(nèi)容的挖掘，是在Web文檔以及相應(yīng)的Web文檔描述中獲取知識(shí)。目前，WWW信息資源是網(wǎng)絡(luò)信息資源的主要組成部分，用戶直接從網(wǎng)上抓取這些資源，并為之建立索引，從而實(shí)現(xiàn)查詢服務(wù)，而那些被隱藏起來的數(shù)據(jù)，用戶無法進(jìn)行有效的檢索，這就迫使我們把這些被隱藏的內(nèi)容（比如數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)，由用戶的提問而動(dòng)態(tài)生成的結(jié)果等）挖掘出來。此外，Web的信息內(nèi)容是由文本、音頻、視頻、圖片等非結(jié)構(gòu)化的數(shù)據(jù)，因此基于Web內(nèi)容的挖掘也是一種針對(duì)多媒體數(shù)據(jù)的挖掘[2]。

　�。ǘ┗赪eb結(jié)構(gòu)的挖掘

　　基于Web結(jié)構(gòu)的挖掘，主要挖掘Web潛在的鏈接結(jié)構(gòu)模式，是從網(wǎng)頁上的相互鏈接和萬維網(wǎng)的整體結(jié)構(gòu)中發(fā)現(xiàn)知識(shí)的過程。這種模式主要采用網(wǎng)頁歸類技術(shù)，在眾多的網(wǎng)頁中獲得不同網(wǎng)頁間的信息，比如相似度及關(guān)聯(lián)度。Web結(jié)構(gòu)挖掘主要是幫助用戶找到所需要信息的權(quán)威站點(diǎn)，同時(shí)也會(huì)對(duì)Web信息檢索結(jié)果的排序產(chǎn)生影響。

　�。ㄈ┗赪eb使用的挖掘

　　基于Web使用的挖掘，也可以稱之為WebLogMining，Web日志挖掘，用戶在進(jìn)行網(wǎng)絡(luò)訪問后，會(huì)留下一些重要的第二手?jǐn)?shù)據(jù)，它們是Web使用挖掘的主要對(duì)象，從而分析用戶的網(wǎng)絡(luò)行為提供依據(jù)。

　　二、Web數(shù)據(jù)挖掘在Web信息檢索中的應(yīng)用

　�。ㄒ唬⿲�(duì)Web信息源進(jìn)行挖掘，形成信息源知識(shí)庫

　　對(duì)Web信息源內(nèi)容的挖掘，主要是針對(duì)中多媒體數(shù)據(jù)等Web信息源的內(nèi)容的特征進(jìn)行挖掘，統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、人工智能是最常使用的方法，通過抽取、分類、聚類網(wǎng)頁內(nèi)容的特征，形成信息源知識(shí)庫。

　　對(duì)Web信息源結(jié)構(gòu)的挖掘，主要通過相關(guān)算法對(duì)Web頁面的超鏈接關(guān)系、URL地址結(jié)構(gòu)的進(jìn)行挖掘，在Web的組織結(jié)構(gòu)和鏈接關(guān)系中發(fā)現(xiàn)知識(shí)。

　　（二）對(duì)Web結(jié)構(gòu)進(jìn)行挖掘，形成權(quán)威網(wǎng)頁

　　搜索引擎的作用主要有兩個(gè)，一是搜索與主題相關(guān)的內(nèi)容，二是篩選高水平的相關(guān)網(wǎng)頁，就是我們所說的權(quán)威網(wǎng)頁。第二個(gè)作用尤其重要，因?yàn)橛脩舾Ｍ麄冏钚枰男畔⒛茉谧疃痰臅r(shí)間內(nèi)呈現(xiàn)在他們面前，而不是浪費(fèi)大量的精力和時(shí)間從大量的檢索結(jié)果中找尋最需要的信息，采用Web結(jié)構(gòu)挖掘的一些經(jīng)典算法就能很好地識(shí)別出權(quán)威網(wǎng)頁。

　�。ㄈ⿲�(duì)用戶的訪問模式進(jìn)行分析，為用戶提供更加人性化的服務(wù)

　　用戶在進(jìn)行信息檢索時(shí)，會(huì)在網(wǎng)站上留下許多信息，比如檢索的時(shí)間、檢索詞以及瀏覽了哪些檢索結(jié)果等�；赪eb使用的挖掘可以對(duì)其進(jìn)行分析，采用各種算法對(duì)這些日志展開挖掘，從而延伸出更有價(jià)值的內(nèi)容，形成用戶知識(shí)模型，并對(duì)用戶潛在相同的檢索行為模式進(jìn)行歸納總結(jié)，對(duì)這些模式進(jìn)行系統(tǒng)的研究，對(duì)搜索引擎的檢索效果進(jìn)行反饋，從而改進(jìn)搜索引擎，讓檢索結(jié)果更加智能化，使單個(gè)用戶感覺使用Web信息檢索更高效。

　　總之，隨著互聯(lián)網(wǎng)的發(fā)展，數(shù)據(jù)挖掘的一個(gè)主要應(yīng)用領(lǐng)域就是Web數(shù)據(jù)挖掘，與Web信息檢索有著密切的關(guān)系，但是又比Web信息檢索有著更高的技術(shù)層次，可以使基于Web的信息檢索發(fā)展到一個(gè)更高的水平。

　　參考文獻(xiàn)：

　　[1]韓家煒，孟小峰，王靜，等.WEB挖掘研究[J].計(jì)算機(jī)研究與發(fā)展，2001，38（4）：405-414.

　　[2]涂承勝，魯明羽，陸玉昌.Web內(nèi)容挖掘技術(shù)研究[J].計(jì)算機(jī)應(yīng)用研究，2003，20（11）：5-9.

【數(shù)據(jù)挖掘技術(shù)在Web信息檢索中的應(yīng)用研究論文】相關(guān)文章：

數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的應(yīng)用研究論文03-15

數(shù)據(jù)挖掘技術(shù)在中等職業(yè)學(xué)校管理實(shí)踐中的應(yīng)用研究11-19

數(shù)據(jù)挖掘在電力企業(yè)中的應(yīng)用論文12-13

數(shù)據(jù)挖掘技術(shù)的教學(xué)輔助系統(tǒng)應(yīng)用論文03-16

數(shù)據(jù)挖掘技術(shù)在就業(yè)指導(dǎo)的應(yīng)用論文02-27

信息檢索與利用論文01-01

網(wǎng)絡(luò)信息檢索論文01-20

數(shù)據(jù)挖掘在現(xiàn)代遠(yuǎn)程教育中的應(yīng)用論文11-22

信息檢索畢業(yè)論文12-08

相關(guān)推薦

久久久久无码精品,四川省少妇一级毛片,老老熟妇xxxxhd,人妻无码少妇一区二区

數(shù)據(jù)挖掘技術(shù)在Web信息檢索中的應(yīng)用研究論文