科技論文發(fā)表基于Web數(shù)據(jù)挖掘技術(shù)的研究論文
互聯(lián)網(wǎng)的不斷得到發(fā)展,網(wǎng)頁中數(shù)據(jù)量迅速增加,如何從這么多的網(wǎng)頁信息中獲取有用的數(shù)據(jù)已經(jīng)成功數(shù)據(jù)挖掘領(lǐng)域的一個熱門的研究方向,數(shù)據(jù)挖掘是近幾年來迅速發(fā)展的進(jìn)行信息獲取的一個重要渠道, 尤其大量運用與社會和科學(xué)的方方面面。一般來說數(shù)據(jù)挖掘主要利用計算機(jī)和相關(guān)的信息技術(shù),把有用的數(shù)據(jù)從海量的網(wǎng)頁數(shù)據(jù)中挖掘出來,為我們從事其他方面的運用;诰W(wǎng)頁的數(shù)據(jù)挖掘是一門技術(shù)的綜合研究方向,它的思想是從Internet中提取網(wǎng)頁中的大量數(shù)據(jù),也就是從網(wǎng)頁的數(shù)據(jù)結(jié)構(gòu)中發(fā)現(xiàn)隱含的模式[1]。
1 數(shù)據(jù)挖掘的特點
1)數(shù)據(jù)挖掘的特點之一就是半結(jié)構(gòu)化,這個特別算是網(wǎng)頁數(shù)據(jù)挖掘的最大特點[2],因為網(wǎng)頁上的數(shù)據(jù)分布沒有規(guī)律,非常復(fù)雜,沒有任何固定的模式能夠很好的描述它的特點。因此稱它為半結(jié)構(gòu)化。
2)數(shù)據(jù)挖掘的特點之二是網(wǎng)頁中的數(shù)據(jù)比較分散,這些網(wǎng)頁數(shù)據(jù)存在世界各地的很多服務(wù)器上,因此是一種數(shù)據(jù)源分散的結(jié)構(gòu)。
3) 數(shù)據(jù)挖掘的特點之三是數(shù)據(jù)庫的'結(jié)構(gòu)存在不同,因為互聯(lián)網(wǎng)上的一個網(wǎng)站可以存為一個數(shù)據(jù)源,它們的結(jié)構(gòu)互不相關(guān),異構(gòu)性特點比較強(qiáng),由它們構(gòu)成的數(shù)據(jù)庫自然而然也屬于一種異構(gòu)的形式。
4) 數(shù)據(jù)挖掘的特點之四是動態(tài)性強(qiáng),網(wǎng)站上的數(shù)據(jù)資源是不斷更新變化的,找不到固定的形式,網(wǎng)站與網(wǎng)站的直接訪問的鏈接是形式變化的。
2 數(shù)據(jù)挖掘過程
基于Web的數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)倉庫相比,網(wǎng)頁上的信息是半結(jié)構(gòu)化的或非結(jié)構(gòu)化、不容易識別、變化的,正因為它這些特點,要想在網(wǎng)頁上開展直接數(shù)據(jù)挖掘,可謂很費功夫,就要借助一些方法來預(yù)處理數(shù)據(jù),才能方便挖掘。通常進(jìn)行網(wǎng)頁數(shù)據(jù)挖掘可分為的如圖1所示的四個步奏。
1)數(shù)據(jù)源的獲取,在網(wǎng)站的各個頁面中獲取數(shù)據(jù)信息,組成目標(biāo)數(shù)據(jù)信息源,再從這些信息源中找到相關(guān)有用的數(shù)據(jù)。這個過程的目的就是從像網(wǎng)頁文檔、email、網(wǎng)頁記錄、新聞信息、各種網(wǎng)站數(shù)據(jù)庫中挖掘出有用的數(shù)據(jù)。
2)把獲取的數(shù)據(jù)進(jìn)行加工處理,網(wǎng)頁數(shù)據(jù)挖掘的好壞直接與數(shù)據(jù)源的好壞相關(guān),如果獲取的數(shù)據(jù)源有大量的垃圾數(shù)據(jù),對數(shù)據(jù)挖掘過程有很大的影響,因此挖掘之前需要對數(shù)據(jù)源進(jìn)行篩選,消除那些雜音數(shù)據(jù),保證數(shù)據(jù)源的純正,然后將這些已經(jīng)過濾的數(shù)據(jù)再次裝入數(shù)據(jù)庫中進(jìn)行下一步的分析。
3)對數(shù)據(jù)經(jīng)過提純處理后,進(jìn)入模式尋找階段,這需要各種挖掘算法分析、挖掘大量的、隱藏的、潛在的、可被利用的數(shù)據(jù)模式。在挖掘的過程中,經(jīng)常會使用到一些相關(guān)的方法,例如聚類分析法、關(guān)聯(lián)規(guī)則發(fā)等挖掘方法。
4)在對數(shù)據(jù)模式發(fā)現(xiàn)后,需要對這些模式進(jìn)行挖掘,也就是知識的轉(zhuǎn)換過程,把提取到的模式再進(jìn)行信息轉(zhuǎn)化,轉(zhuǎn)化為我們能夠理解,識別的知識,為我們的決策需要提供有用的參考源。
3 數(shù)據(jù)挖掘分類
在進(jìn)行數(shù)據(jù)挖掘的時候,針對不同的數(shù)據(jù)結(jié)構(gòu),會采用不同的挖掘方法,這樣才能有效、合理挖掘到有用的數(shù)據(jù),不能籠統(tǒng)采用一種方法,這樣挖掘的數(shù)據(jù)相應(yīng)的雜音數(shù)據(jù)就比較多。大體上,我們把數(shù)據(jù)挖掘分為三種類型,即:網(wǎng)頁使用挖掘、網(wǎng)頁結(jié)構(gòu)挖掘、網(wǎng)頁內(nèi)容挖 [3],如圖2所示。
4 數(shù)據(jù)挖掘相關(guān)技術(shù)
互聯(lián)網(wǎng)的發(fā)展促進(jìn)網(wǎng)頁數(shù)據(jù)挖掘得到越來越多的應(yīng)用,于是針對網(wǎng)頁挖掘的各種方法和技術(shù)不斷出現(xiàn),就這些相關(guān)的技術(shù)[4],下面分別一一介紹。
4.1 網(wǎng)頁內(nèi)容挖掘
4.1.1 網(wǎng)頁文檔挖掘
網(wǎng)頁文檔挖掘就是分析網(wǎng)站上存在的數(shù)量很多的網(wǎng)頁文檔采用聚類、分類、關(guān)聯(lián)處理等多種方法進(jìn)行分析,然后根據(jù)網(wǎng)頁文檔進(jìn)行預(yù)測。在Internet的文檔數(shù)據(jù)一般都是以html格式的網(wǎng)頁文檔出現(xiàn),要采集這些網(wǎng)頁文檔數(shù)據(jù),然后把這些文檔數(shù)據(jù)變成記錄的形式存貯進(jìn)數(shù)據(jù)庫,把這些記錄用來表示文檔內(nèi)容特征,為后續(xù)的分析提供保障。表示文檔的特征形式通常使用文檔特征向量形式, 由于文檔的特征表示中存在一些缺陷,文檔的特征向量的維數(shù)非常高,對數(shù)據(jù)分析不利,因此一個好特征表示主要集中在特征集的選取方面,特征集需求好,對數(shù)據(jù)進(jìn)行分析的時間就相對少,如果選取不好,將要花很長時間去等待。因此特征集選取好壞成為數(shù)據(jù)分析額關(guān)鍵。一旦特征集選擇好后,就可以采用聚類、分類、數(shù)據(jù)關(guān)聯(lián)等方法來進(jìn)行提取信息,然后對這些提取的信息進(jìn)行評價分析,找到有用的信息,為后續(xù)的決策工作提供指導(dǎo)。
4.1.2 挖掘網(wǎng)頁多媒體
在進(jìn)行網(wǎng)頁多媒體挖掘主要關(guān)注的是特征提取,這點網(wǎng)頁內(nèi)容挖掘不一樣。在網(wǎng)頁多媒體挖掘中提取的多媒體特征主要關(guān)注視頻或者圖片的顏色特征、鍵值、形式以及它們的URL,最后根據(jù)這些特征進(jìn)行數(shù)據(jù)挖掘。
4.2挖掘網(wǎng)頁結(jié)構(gòu)
挖掘網(wǎng)站空間中的知識,不僅關(guān)注包含在各個網(wǎng)頁內(nèi)容中的信息數(shù)據(jù),同時也關(guān)注網(wǎng)站與網(wǎng)站之間的網(wǎng)頁結(jié)構(gòu)和超級鏈接結(jié)構(gòu),這也是非常重要的。進(jìn)行網(wǎng)頁結(jié)構(gòu)挖掘主要分析網(wǎng)頁結(jié)構(gòu)之間的特征,利用聚類和分類來分析頁面結(jié)構(gòu)特征,找到特征模式。
4.3 網(wǎng)頁使用挖掘
網(wǎng)頁使用挖掘也是挖掘網(wǎng)頁記錄,實際就是挖掘用戶在網(wǎng)頁上留下的相關(guān)的記錄信息,網(wǎng)頁使用挖掘就是分析用戶留言記錄的相關(guān)信息,通過這些信息時報未來需要發(fā)展的用戶; 網(wǎng)頁使用挖掘通常使用擴(kuò)展有向樹模型分析用戶的各種瀏覽行為習(xí)慣,挖掘出用戶的日志信息,以及用戶關(guān)心、關(guān)注的興趣領(lǐng)域,把這些信息存放在知識庫中,未下一步的分析工作提供數(shù)據(jù), 對網(wǎng)頁使用日志挖掘可分為三個步驟:日志預(yù)分析、分析方法處理、 模式分析階段。在網(wǎng)頁使用分析中,關(guān)注網(wǎng)頁服務(wù)器記錄的相關(guān)信息,這些信息主要包括用戶訪問的時間、URL、IP、使用方法、代理、返回結(jié)構(gòu)、傳輸數(shù)據(jù)等相關(guān)信息雖然信息比較多,但是還存在無用的數(shù)據(jù),需要進(jìn)行提純處理。一旦數(shù)據(jù)處理后,就能采用關(guān)聯(lián)分析、如路徑分析等模式發(fā)現(xiàn)技術(shù)來分析日志,獲取有用的信息。
5 結(jié)束語
本文介紹了網(wǎng)頁數(shù)據(jù)挖掘的相關(guān)概念、挖掘過程、分類方法以及相關(guān)技術(shù)。在Internet發(fā)展的今天, 網(wǎng)頁數(shù)據(jù)挖掘的研究方面更加寬,人們不斷關(guān)注如何對這些網(wǎng)頁數(shù)據(jù)的處理。網(wǎng)頁數(shù)據(jù)挖掘在各個方面,特別在結(jié)合語言問題、查詢半結(jié)構(gòu)化、數(shù)據(jù)庫方面會得到不斷發(fā)展。
【科技論文發(fā)表基于Web數(shù)據(jù)挖掘技術(shù)的研究論文】相關(guān)文章:
1.web數(shù)據(jù)挖掘技術(shù)分析與研究
3.Web數(shù)據(jù)挖掘在電子商務(wù)的應(yīng)用論文
4.Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用研究論文
5.淺析電子商務(wù)中的WEB數(shù)據(jù)的挖掘論文
6.計算機(jī)Web數(shù)據(jù)挖掘技術(shù)在現(xiàn)代商業(yè)中的應(yīng)用論文