計(jì)算機(jī)Web數(shù)據(jù)挖掘技術(shù)在現(xiàn)代商業(yè)中的應(yīng)用論文
[摘要] 數(shù)據(jù)挖掘是近年來隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的發(fā)展而出現(xiàn)的一種全新的信息技術(shù)。隨著internet的普及,使web成為獲取市場(chǎng)信息的最重要的載體。本文介紹了web數(shù)據(jù)挖掘過程,以及特點(diǎn),最后重點(diǎn)研究了web數(shù)據(jù)挖掘技術(shù)現(xiàn)代商業(yè)中的應(yīng)用。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 人工智能 載體
一、web數(shù)據(jù)挖掘概述
web挖掘是從web資源上抽取信息或知識(shí)的過程,它是將傳統(tǒng)的數(shù)據(jù)挖掘的思想和方法應(yīng)用于web,從web文檔和web活動(dòng)中抽取感興趣的、潛在的、有用的模式和隱藏信息。web挖掘可在多方面發(fā)揮作用,如搜索引擎結(jié)構(gòu)的挖掘,搜索引擎的開發(fā),改進(jìn)和提高搜索引擎的質(zhì)量和效率,確定權(quán)威頁(yè)面。web挖掘研究覆蓋了多個(gè)研究領(lǐng)域,包括數(shù)據(jù)庫(kù)技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。特別是電子商務(wù)領(lǐng)域,通過對(duì)用戶特征的理解和分析,如對(duì)用戶訪問行為、頻度、內(nèi)容等的分析,提取出用戶的特征,從而為用戶定制個(gè)性化的界面,有助于開展有針對(duì)性的電子商務(wù)活動(dòng)。
二、web挖掘流程以及特點(diǎn)
1.web挖掘的流程
web數(shù)據(jù)挖掘就是利用數(shù)據(jù)挖掘技術(shù)從網(wǎng)絡(luò)文檔和服務(wù)中發(fā)現(xiàn)和提取信息。與傳統(tǒng)數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)相比,web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動(dòng)態(tài)的、并且是容易造成混淆的,所以很難直接以web網(wǎng)頁(yè)上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。web挖掘的有以下幾個(gè)過程:
(1)資源發(fā)現(xiàn)。任務(wù)是從目標(biāo)web文檔中得到數(shù)據(jù),值得注意的是有時(shí)信息資源不僅限于在線web文檔,還包括電子郵件、電子文檔、新聞組,或者網(wǎng)站的日志數(shù)據(jù)甚至是通過web形成的交易數(shù)據(jù)庫(kù)中的數(shù)據(jù)。wwW.133229.COM
。2)信息選擇和預(yù)處理。任務(wù)是從取得的web資源中剔除無用信息和將信息進(jìn)行必要的例如從web文檔中自動(dòng)去除廣告連接、去除多余格式標(biāo)記、自動(dòng)識(shí)別段落或者字段并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關(guān)系表。
。3)模式發(fā)現(xiàn)。自動(dòng)進(jìn)行模式發(fā)現(xiàn)?梢栽谕粋(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行。
(4)模式分析。驗(yàn)證、解釋上一步驟產(chǎn)生的模式?梢允菣C(jī)器自動(dòng)完成,也可以是與分析人員進(jìn)行交互來完成。
2.web挖掘的特點(diǎn)
web挖掘技術(shù)具有許多優(yōu)點(diǎn),如不需要用戶提供主觀的評(píng)價(jià)信息;可以處理大規(guī)模的數(shù)據(jù)量;用戶訪問模式動(dòng)態(tài)獲取,不會(huì)過時(shí);使用方便等。但是與傳統(tǒng)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)相比,web是一個(gè)巨大、分布廣泛、全球性的信息服務(wù)中心,涉及經(jīng)濟(jì)、文化、教育、新聞、廣告、消費(fèi)、娛樂、金融、保險(xiǎn)、銷售、電子商務(wù)等信息,內(nèi)容極其豐富,數(shù)據(jù)最大特點(diǎn)就是半結(jié)構(gòu)化;而傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)結(jié)構(gòu)性很強(qiáng),即其中的數(shù)據(jù)為完全結(jié)構(gòu)化的數(shù)據(jù)。顯然,面向web的數(shù)據(jù)挖掘比面向單個(gè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘要復(fù)雜得多,會(huì)面臨很多具體問題,主要有:
(1)半結(jié)構(gòu)化數(shù)據(jù)。web頁(yè)面以某種格式呈現(xiàn)的半結(jié)構(gòu)化數(shù)據(jù),其數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,復(fù)雜程度遠(yuǎn)遠(yuǎn)高于普通的文本文檔,其數(shù)據(jù)結(jié)構(gòu)隱含、模式信息量大、模式變化快。大量的文檔無任何排列次序,無分類索引。
(2)web是一個(gè)異質(zhì)、分布、動(dòng)態(tài)的信息源。web及其數(shù)據(jù)的更新、增長(zhǎng)速度極快,也無固定的模式。web上的信息幾乎都是隱藏的、潛在的、未知的,從web上發(fā)現(xiàn)這些未知的信息和有用的模式,僅用傳統(tǒng)的基于關(guān)鍵字的檢索方式很難實(shí)現(xiàn),現(xiàn)在的搜索引擎尚不具備這些功能。
(3)面對(duì)一個(gè)非常廣泛的形形色色的用戶群體。不同的用戶訪問web的興趣、愛好和使用目的千差萬別,面對(duì)一個(gè)非常廣泛的形形色色的用戶群體,能否使用戶根據(jù)自己的愛好興趣定制網(wǎng)頁(yè),甚至能否根據(jù)發(fā)現(xiàn)的用戶。自動(dòng)為用戶定制網(wǎng)頁(yè),從而提供個(gè)性化的信息檢索和查詢服務(wù)。
3.web挖掘在電子商務(wù)中的應(yīng)用
目前對(duì)于,web挖掘的對(duì)象和使用的方法層出不窮,但隨著電子商務(wù)網(wǎng)站的興起,電子商務(wù)將是未來web挖掘的主要發(fā)展方向之一,因此它在各種商業(yè)領(lǐng)域都存在廣泛的使用價(jià)值。在當(dāng)電子商務(wù)在企業(yè)中得到應(yīng)用時(shí),企業(yè)信息系統(tǒng)將產(chǎn)生大量數(shù)據(jù),這些海量數(shù)據(jù)使數(shù)據(jù)挖掘有了豐富的數(shù)據(jù)基礎(chǔ),同時(shí)高性能計(jì)算機(jī)和高傳輸速率網(wǎng)絡(luò)的使用也給數(shù)據(jù)挖掘技術(shù)提供了堅(jiān)實(shí)的'保障。介紹以下幾個(gè)方面的應(yīng)用:
(1)分析查找獲得潛在客戶。隨著以客戶為中心的經(jīng)營(yíng)理念不斷深入人心,分析客戶、了解客戶并引導(dǎo)客戶的需求已成為企業(yè)經(jīng)營(yíng)的重要課題。通過對(duì)電子商務(wù)系統(tǒng)收集的交易數(shù)據(jù)進(jìn)行分析,可以按各種客戶指標(biāo)(如自然屬性、收入貢獻(xiàn)交易額、價(jià)值度等)對(duì)客戶分類,然后確定不同類型客戶的行為模式,以便采取相應(yīng)的營(yíng)銷措施,促使企業(yè)利潤(rùn)的最大化。
比如通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)購(gòu)買某種商品的消費(fèi)者是男性還是女性,學(xué)歷、收入如何,有什么愛好,是什么職業(yè)等等。甚至可以發(fā)現(xiàn)不同的人在購(gòu)買該種商品的相關(guān)商品后多長(zhǎng)時(shí)間有可能購(gòu)買該種商品,以及什么樣的人會(huì)購(gòu)買什么型號(hào)的該種商品等等。也許很多因素表面上看起來和購(gòu)買該種商品不存在任何聯(lián)系,但數(shù)據(jù)挖掘的結(jié)果卻證明他們之間有聯(lián)系。在采用了數(shù)據(jù)挖掘后,針對(duì)目標(biāo)客戶發(fā)送的廣告的有效性和回應(yīng)率將得到大幅度的提高,推銷的成本將大大降低。
在對(duì)web的客戶訪問信息的挖掘中,利用分類技術(shù)可以在internet上找到未來的潛在客戶,獲得這些潛在的客戶市場(chǎng)。通常的策略是先對(duì)己經(jīng)存在的訪問者進(jìn)行分類,一般分為三種:“no customer”、“visitor once”“visitor regular”。對(duì)于一個(gè)新的訪問者,通過在web上的分類發(fā)現(xiàn),識(shí)別出這個(gè)客戶與己經(jīng)分類的老客戶的一些公共的描述,從而對(duì)這個(gè)新客戶進(jìn)行正確的分類。然后從它的分類判斷這個(gè)新客戶是屬于有利可圖的客戶群,還是屬于無利可圖的客戶群,決定是否要把這個(gè)新客戶作為潛在的客戶來對(duì)待?蛻舻念愋痛_定后,就可以對(duì)客戶動(dòng)態(tài)地展示web頁(yè)面,頁(yè)面的內(nèi)容取決于客戶與銷售商提供的產(chǎn)品和服務(wù)之間的關(guān)聯(lián)。
(2)保留客戶。數(shù)據(jù)挖掘可以把你大量的客戶分成不同的類,在每個(gè)類里的客戶擁有相似的屬性,而不同類里的客戶的屬性也不同。你完全可以做到給不同類的客戶提供完全不同的服務(wù)來提高客戶的滿意度。數(shù)據(jù)挖掘還可以發(fā)現(xiàn)具有哪些特征的客戶有可能流失,這樣挽留客戶的措施將具有針對(duì)性,挽留客戶的費(fèi)用將下降。對(duì)客戶來說,傳統(tǒng)客戶與銷售商之間的空間距離在電子商務(wù)中己經(jīng)不存在了。在網(wǎng)上,每一個(gè)銷售商對(duì)于客戶來說都是一樣的,那么如何使客戶在自己的銷售站點(diǎn)上駐留更長(zhǎng)的時(shí)間,對(duì)銷售商來說將是一個(gè)挑戰(zhàn)。為了達(dá)到這一目的,就應(yīng)該了解客戶的瀏覽行為,知道客戶的興趣及需求所在,動(dòng)態(tài)地調(diào)整web頁(yè)面,以滿足客戶的需要。通過對(duì)客戶訪問信息的挖掘,就能知道客戶的瀏覽行為,從而了解客戶的興趣及需求。在網(wǎng)上的電子商務(wù)中的一個(gè)典型的序列,恰好就代表了一個(gè)購(gòu)物者以頁(yè)面形式在站點(diǎn)上導(dǎo)航的行為,所以可運(yùn)用web數(shù)據(jù)挖掘中的序列模式發(fā)現(xiàn)技術(shù)。
(3)聚類客戶。在電子商務(wù)中客戶聚類是一個(gè)重要的方面。通過分組具有相似瀏覽行為的客戶,并分析組中客戶的共同特征,可以幫助電子商務(wù)的組織者更好地了解自己的客戶,向客戶提供更適合、更面向客戶的服務(wù)。例如,有一些客戶都花了一段時(shí)間瀏覽“baby toys”“baby furniture”頁(yè)面,經(jīng)過分析這些客戶被聚類成為一組。銷售商根據(jù)分析出來的聚類信息,就知道這是一組“expecting parents”客戶,對(duì)他們所進(jìn)行的業(yè)務(wù)活動(dòng)當(dāng)然也就不可能同于其他被聚類了的客“college students”、“office ladies”。及時(shí)調(diào)整頁(yè)面及頁(yè)面內(nèi)容,使商務(wù)活動(dòng)能夠在一定程度上滿足客戶的要求,對(duì)客戶和銷售商來說更有意義。
(4)交叉銷售與個(gè)性服務(wù)。交叉銷售的好處在于,對(duì)于原有客戶,企業(yè)可以比較容易地得到關(guān)于這個(gè)客戶的比較豐富的信息,大量的數(shù)據(jù)對(duì)于數(shù)據(jù)挖掘的準(zhǔn)確性來說是有很大幫助的。在企業(yè)所掌握的客戶信息,尤其是以前購(gòu)買行為的信息中,可能正包含著這個(gè)客戶決定他下一個(gè)購(gòu)買行為的關(guān)鍵,甚至是決定因素。這個(gè)時(shí)候數(shù)據(jù)挖掘的作用就會(huì)體現(xiàn)出來,它可以幫助企業(yè)尋找到這些影響他購(gòu)買行為的因素。
當(dāng)客戶在電子商務(wù)網(wǎng)站注冊(cè)時(shí),客戶將會(huì)看到帶有客戶姓名的歡迎詞”根據(jù)客戶的訂單紀(jì)錄,系統(tǒng)可以向客戶顯示那些可能引起客戶特殊興趣的新商品。當(dāng)客戶注意到一件特殊的商品時(shí),系統(tǒng)會(huì)建議一些在購(gòu)買中可以增加的其他商品。普通的產(chǎn)品目錄手冊(cè)常常簡(jiǎn)單的按類型對(duì)商品進(jìn)行分組,以簡(jiǎn)化客戶挑選商品的步驟。然而對(duì)于在線商店,商品分組可能是完全不同的,它常常以針對(duì)客戶的商品補(bǔ)充條目為基礎(chǔ),不僅考慮客戶看到的條目,而且還考慮客戶購(gòu)物籃中的商品,結(jié)果就會(huì)使推薦更加個(gè)性化。
三、結(jié)語
隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展和internet資源的快速增長(zhǎng),特別是電子商務(wù)的興起,web挖掘成為21世紀(jì)的熱門研究領(lǐng)域之一,其研究具有廣闊的應(yīng)用前景和巨大的現(xiàn)實(shí)意義。目前國(guó)內(nèi)的web挖掘尚處于學(xué)習(xí)、跟蹤和探索階段,web挖掘有許多問題有待于進(jìn)一步的研究和深化。
參考文獻(xiàn):
[1]郝先臣張德干尹國(guó)成等:基于電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)研究.小型微型計(jì)算機(jī)系統(tǒng),2001
[2]韓家煒孟小峰王靜等:web挖掘研究.計(jì)算機(jī)研究與發(fā)展,2001
[3]鄧英李明:web數(shù)據(jù)挖掘技術(shù)及工具研究.計(jì)算機(jī)工程與應(yīng)用,2001
【計(jì)算機(jī)Web數(shù)據(jù)挖掘技術(shù)在現(xiàn)代商業(yè)中的應(yīng)用論文】相關(guān)文章:
1.計(jì)算機(jī)教學(xué)評(píng)價(jià)中數(shù)據(jù)挖掘的應(yīng)用論文
2.數(shù)據(jù)挖掘技術(shù)應(yīng)用于經(jīng)濟(jì)統(tǒng)計(jì)中的研究論文
3.計(jì)算機(jī)科學(xué)技術(shù)在現(xiàn)代教育中的應(yīng)用論文
4.計(jì)算機(jī)科學(xué)在現(xiàn)代教育技術(shù)中的應(yīng)用分析論文
5.數(shù)據(jù)挖掘技術(shù)在臨床醫(yī)學(xué)的應(yīng)用研究
6.計(jì)算機(jī)虛擬技術(shù)在廣播電視中的應(yīng)用論文