- 相關(guān)推薦
web數(shù)據(jù)挖掘技術(shù)分析與研究
1Web數(shù)據(jù)挖掘面臨的問題
目前面向Web的數(shù)據(jù)挖掘面臨的問題,主要有兩個(gè)方面:
1.1數(shù)據(jù)庫環(huán)境的異構(gòu)型
Web上的每個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源,數(shù)據(jù)源之間是異構(gòu)的,外加上各個(gè)站點(diǎn)的信息和組織的不同,Web網(wǎng)站就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。要對這些數(shù)據(jù)進(jìn)行挖掘,首先,要解決各個(gè)站點(diǎn)之間的異構(gòu)數(shù)據(jù)集成,提供用戶統(tǒng)一界面,從復(fù)雜的數(shù)據(jù)源中取得所需的有用的信息知識。其次,有關(guān)Web上的數(shù)據(jù)查詢。
1.2數(shù)據(jù)結(jié)構(gòu)的半結(jié)構(gòu)化
Web上的數(shù)據(jù)比較復(fù)雜,各個(gè)站點(diǎn)的數(shù)據(jù)都獨(dú)立設(shè)計(jì),具有動(dòng)態(tài)可變性。雖然Web上的數(shù)據(jù)形成半結(jié)構(gòu)化數(shù)據(jù)。這些問題是進(jìn)行Web數(shù)據(jù)挖掘所面臨的最大困難。
2XML技術(shù)在Web數(shù)據(jù)挖掘中的優(yōu)勢
Web數(shù)據(jù)的異構(gòu)使Web數(shù)據(jù)挖掘變得十分困難,通過XML可以解決這個(gè)問題。因?yàn)閄ML文檔具有很好的自我描述性,他的元素、子元素、屬性結(jié)構(gòu)樹可以表達(dá)極為豐富的語義信息,能夠很好的描述半結(jié)構(gòu)化的數(shù)據(jù),因此在網(wǎng)絡(luò)數(shù)據(jù)集成、發(fā)送、處理和顯示的方面。開發(fā)人員能夠用XML的格式標(biāo)記和交換數(shù)據(jù)。XML在三層架構(gòu)上為數(shù)據(jù)的處理提供了有用的途徑。利用XML,Web設(shè)計(jì)人員能夠構(gòu)建文檔類型定義的多層次互相關(guān)聯(lián)的系統(tǒng)、元數(shù)據(jù)、數(shù)據(jù)樹、樣式表和超鏈接結(jié)構(gòu);赬ML的Web數(shù)據(jù)挖掘技術(shù),能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,解決Web數(shù)據(jù)挖掘的難題。
2.1XML技術(shù)在Web數(shù)據(jù)挖掘中具體作用利用XML技術(shù)我們在Web數(shù)據(jù)挖掘中可以完成以下幾點(diǎn):
2.1.1集成異構(gòu)數(shù)據(jù)源
XML是一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以完成和關(guān)系數(shù)據(jù)庫中的屬性一一對應(yīng),從而實(shí)施精確地查詢與模型抽取。XML可以搜索多個(gè)不同數(shù)據(jù)庫的問題,以實(shí)現(xiàn)集成。
2.1.2和異構(gòu)數(shù)據(jù)進(jìn)行交換
在Web數(shù)據(jù)挖掘程中,用戶需要和異構(gòu)數(shù)據(jù)源進(jìn)行數(shù)據(jù)交換,XML通過自定義性及可擴(kuò)展性來標(biāo)識各種數(shù)據(jù),從而描述從各站點(diǎn)搜集到的Web頁中的數(shù)據(jù)。XML的出現(xiàn)解決了數(shù)據(jù)查詢的統(tǒng)一接口。
2.1.3過濾信息并顯示
XML描述數(shù)據(jù)本身,可以使得定義的數(shù)據(jù)以不同的方式顯示,對獲取的信息進(jìn)行裁減和編輯以適應(yīng)不同用戶的需求。以不同的瀏覽形式提供給不同的用戶。
3基于XML的Web數(shù)據(jù)挖掘模型
我們通過對XML及Web數(shù)據(jù)挖掘的分析,設(shè)計(jì)了一個(gè)基于XML的Web數(shù)據(jù)挖掘模型通過提供一個(gè)Web數(shù)據(jù)挖掘的集成環(huán)境,提高數(shù)據(jù)挖掘系統(tǒng)的整體性能。工作流程如下:系統(tǒng)根據(jù)用戶要求搜集Web資源,經(jīng)數(shù)據(jù)轉(zhuǎn)換器處理成相應(yīng)的XML數(shù)據(jù)存儲(chǔ),提供給挖掘器使用;挖掘器則根據(jù)要求從選取相應(yīng)的算法挖掘,輸出挖掘結(jié)果;用戶根據(jù)自己的滿意度,獲得需要的挖掘結(jié)果,調(diào)整挖掘要求進(jìn)入新一輪數(shù)據(jù)挖掘。通過系統(tǒng)的維護(hù)我們可以加入新的挖掘算法,實(shí)現(xiàn)升級。
3.1各模塊具體功能
3.1.1數(shù)據(jù)收集
從Web站點(diǎn)上采集數(shù)據(jù)并存儲(chǔ),獲得挖掘內(nèi)容。針對異構(gòu)數(shù)據(jù)源,可以多種方式提出相關(guān)需求,挖掘的重點(diǎn)是Web內(nèi)容和Web使用的數(shù)據(jù)。把用戶訪問網(wǎng)站留下原始日志數(shù)據(jù)進(jìn)行清洗、過濾和轉(zhuǎn)換處理,轉(zhuǎn)變成統(tǒng)一處理的數(shù)據(jù)結(jié)構(gòu),構(gòu)建日志數(shù)據(jù)庫。
3.1.2轉(zhuǎn)換器
對檢索得到的數(shù)據(jù)用XML技術(shù)進(jìn)行預(yù)處理,建立半結(jié)構(gòu)化數(shù)據(jù)模型,抽取其特征的元數(shù)據(jù),用結(jié)構(gòu)化的形式保存,為挖掘模塊提供所需的數(shù)據(jù)。
3.1.3挖掘器
不同的挖掘算法有不同適用情況,挖掘綜合器根據(jù)具體的需求和挖掘方法的不同選擇策略到挖掘算法庫中去選擇挖掘算法或種組合算法執(zhí)行挖掘任務(wù)。隨著應(yīng)用的深入,知識庫中的算法和規(guī)則不斷的豐富。挖掘算法庫是挖掘分析方法的綜合庫,以插拔的形式組織存放各種挖掘算法。314結(jié)果生成與評估以直觀的方式提交挖掘結(jié)果,便于用戶的評估。通過模式分析和興趣度度量,若結(jié)果使得用戶滿意,數(shù)據(jù)挖掘結(jié)束,輸出用戶感興趣的內(nèi)容;否則可以在此重新提出挖掘要求,重新挖掘。
3.2系統(tǒng)各模塊實(shí)現(xiàn)方法
3.2.1數(shù)據(jù)收集
數(shù)據(jù)的收集也涉及數(shù)據(jù)挖掘的技術(shù),其過程是:通過人工輸入辦法,給出查詢主題,找到相關(guān)的Web頁,然后,通過相應(yīng)的數(shù)據(jù)挖掘的算法對訓(xùn)練數(shù)據(jù)集提煉,利用提煉出的數(shù)據(jù)模式,進(jìn)行更大范圍的搜索,以獲取更多的數(shù)據(jù)源。最終形成較新和有效XML文檔。
3.2.2數(shù)據(jù)的轉(zhuǎn)換處理
數(shù)據(jù)抽取轉(zhuǎn)換是模型實(shí)現(xiàn)一個(gè)重要環(huán)節(jié),其主要方法是把現(xiàn)有的Web頁面轉(zhuǎn)換成XML格式,并使用相關(guān)工具處理XML結(jié)構(gòu)數(shù)據(jù)檢要把HTML中含有的與主題無關(guān)的標(biāo)記過濾掉,然后轉(zhuǎn)化到XML的格式存儲(chǔ)。目前Web頁面到XML文檔的轉(zhuǎn)換,有兩部分?jǐn)?shù)據(jù)構(gòu)成:一是XML數(shù)據(jù),二是非XML數(shù)據(jù)。XML數(shù)據(jù),可以直接將它們提交給下一個(gè)模塊。對于非XML數(shù)據(jù),本文的實(shí)現(xiàn)方法是用到Tidy以改正HTML文檔中的常見錯(cuò)誤并生成格式編排良好的等價(jià)文檔,還可以使用Tidy生成XHTML(XML的子集)格式的文檔。通過構(gòu)造相應(yīng)的Java類完成將數(shù)據(jù)從HTML到XML的轉(zhuǎn)換。
3.2.3挖掘方法
。1)文本分類:文本分類是指按預(yù)先定義的主題類別,把集合中的每個(gè)文檔確定一個(gè)所屬類別。這樣,用戶能夠方便地瀏覽文檔,并限制搜索范圍來使查找更為容易。利用文本分類技術(shù)對大量文檔進(jìn)行快速、有效地自動(dòng)分類。有關(guān)的算法通常采用TFIDF和NaiveBayes等方法。
。2)文本聚類:文本聚類與分類的不同之處在于,聚類不需要預(yù)先定義好的主題類別,它是將把文檔集合分成若干個(gè)簇,要求同簇內(nèi)文檔內(nèi)容相似度最大,而不同簇間的相似度最小。Hearst等人研究表明聚類假設(shè),即與用戶查詢相關(guān)的文檔通常會(huì)聚類比較靠近,而遠(yuǎn)離與用戶查詢不相關(guān)文檔?梢岳梦谋揪垲惣夹g(shù)把搜索引擎檢索結(jié)果分成若干個(gè)簇,用戶只要考慮那些相關(guān)的簇,就能夠縮小所需要瀏覽的結(jié)果數(shù)量。目前,常用的文本聚類算法,分為兩種:以G-HAC等算法為代表的層次凝聚法,以k-means等算法為代表的平面劃分法。
。3)關(guān)聯(lián)分析:關(guān)聯(lián)分析是指從文檔集合中發(fā)現(xiàn)不同詞語之間關(guān)系Brin提出一種從大量文檔中查找一對詞語出現(xiàn)模式算法,在Web上尋找作者和書名的模式,從而發(fā)現(xiàn)數(shù)千本在Amazon網(wǎng)站上查找不到的新書。
(4)模式評價(jià):Web數(shù)據(jù)挖掘中十分重要的過程就是模式評價(jià)。常用的方法有預(yù)留法和交叉實(shí)驗(yàn)法,將數(shù)據(jù)分成訓(xùn)練集和測試集兩部分,學(xué)習(xí)和測試反復(fù)進(jìn)行,最后用一個(gè)平均質(zhì)量模型來確定模型質(zhì)量的好壞。
。5)預(yù)留法:從數(shù)據(jù)集合隨機(jī)抽取預(yù)定大小一個(gè)子集作為測試集,其他數(shù)據(jù)則作為訓(xùn)練集。
。6)交叉驗(yàn)證法:把整個(gè)數(shù)據(jù)集合按照所要進(jìn)行的學(xué)習(xí)測試循環(huán)次數(shù)分成一定數(shù)目的子集,在每次循環(huán)中,選取其一個(gè)子集作為測試集,其它子集并集則作為訓(xùn)練集。
4結(jié)束語
XML技術(shù)不僅為Web上的數(shù)據(jù)交換提供了一個(gè)標(biāo)準(zhǔn),而且能夠更好的表示數(shù)據(jù)內(nèi)容,以及數(shù)據(jù)的含義。隨著XML的興起和完善,Web頁面會(huì)蘊(yùn)涵更多的結(jié)構(gòu)化和語義的信息,因此,基于XML技術(shù)的數(shù)據(jù)挖掘已成為目前Web挖掘的研究熱點(diǎn)。當(dāng)然Web數(shù)據(jù)挖掘這一研究領(lǐng)域還有待于進(jìn)一步研究。
【web數(shù)據(jù)挖掘技術(shù)分析與研究】相關(guān)文章:
基于web的綜合測評與分析05-20
面向電子商務(wù)的Web日志挖掘系統(tǒng)09-27
客戶關(guān)系管理數(shù)據(jù)挖掘與應(yīng)用10-20
IBM大數(shù)據(jù)分析07-09
挖掘機(jī)技師必備的挖掘機(jī)維修技術(shù)01-12
推廣中要注意的數(shù)據(jù)分析05-18