數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。
與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。這個(gè)定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問題。
與傳統(tǒng)分析方法的區(qū)別
數(shù)據(jù)挖掘與統(tǒng)計(jì)分析的區(qū)別
抽取業(yè)務(wù)數(shù)據(jù),輔助商業(yè)決策——企業(yè)福音
“大數(shù)據(jù)”、“數(shù)據(jù)挖掘”襲來,無論是政府、還是企業(yè),都渴望在這大數(shù)據(jù)時(shí)代占得先機(jī)。大數(shù)據(jù)中心、數(shù)據(jù)研究中心爭(zhēng)相建立,如果說現(xiàn)在是互聯(lián)網(wǎng)的天下,未來將是大數(shù)據(jù)的天下。如果說大數(shù)據(jù)服務(wù)平臺(tái)類似于互聯(lián)網(wǎng),則數(shù)據(jù)挖掘等同于互聯(lián)網(wǎng)平臺(tái)下的技術(shù)開發(fā),數(shù)據(jù)挖掘的產(chǎn)品將遍及人們生活方方面面。
數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。
簡(jiǎn)而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,只不過在過去數(shù)據(jù)收集和分析的目的是用于科學(xué)研究,另外,由于當(dāng)時(shí)計(jì)算能力的限制,對(duì)大數(shù)據(jù)量進(jìn)行分析的復(fù)雜數(shù)據(jù)分析方法受到很大限制,F(xiàn)在,由于各行業(yè)業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于純機(jī)會(huì)的商業(yè)運(yùn)作而產(chǎn)生。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰饕菫樯虡I(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤。但所有企業(yè)面臨的一個(gè)共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少。因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競(jìng)爭(zhēng)力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。
因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。
根據(jù)已知,預(yù)測(cè)未知——HR福音
“招聘難”、“離職率高”、“崗位配置多少人”、“這么高薪水員工都不滿意”等問題困擾著絕大多數(shù)的HR,最大的心酸是長期奔波于招聘與離職管理,仍然不受各部門待見。
這是為什么呢?
因?yàn)槲覀兊墓ぷ鞔嬖跍笮,作為業(yè)務(wù)支持部門,無論是招聘還是其他,都是先由業(yè)務(wù)部門提出需求,我們人力資源部進(jìn)行協(xié)助;這中間就存在滯后,常常導(dǎo)致任務(wù)重,時(shí)間緊。于是出現(xiàn)了HR很累,業(yè)務(wù)部門還不滿意的情況。所以要做好人力資源工作,無論是簡(jiǎn)單的人事管理,還是HRBP,都需要有前瞻性。
目前HR們也都想到了這一點(diǎn),可是無奈人力資源事項(xiàng)多,數(shù)據(jù)類型格式不統(tǒng)一,更多的是非量化數(shù)據(jù),心有余而力不足,基本是根據(jù)自己多年的經(jīng)驗(yàn),作出預(yù)測(cè)估計(jì)。預(yù)測(cè)結(jié)果準(zhǔn)確性難以保證。
而數(shù)據(jù)挖掘的核心功能就在于“根據(jù)已知,預(yù)測(cè)未知”。
數(shù)據(jù)挖掘的三種預(yù)測(cè)技術(shù):
第一種,根據(jù)過去,預(yù)測(cè)未來;
第二種,根據(jù)事物關(guān)聯(lián)性預(yù)測(cè);
第三種,根據(jù)一般情況判斷異常情況。
第一種技術(shù)應(yīng)用的特別多,相信每個(gè)HR都用過,只是沒有留意到。
例如做人工成本預(yù)算,根據(jù)過去的人工成本,每年的平均漲薪幅度以及人員人數(shù)變動(dòng)情況;
崗位編制,根據(jù)去年的編制以及每年的人員變動(dòng)需要。
需要注意的是,應(yīng)用第一種技術(shù)的條件是:需要預(yù)測(cè)的對(duì)象在較長時(shí)期內(nèi)性質(zhì)保持穩(wěn)定。如人工成本在薪酬設(shè)計(jì)后需要注意,崗位編制在組織重構(gòu)后需要注意。
根據(jù)事物關(guān)聯(lián)性,應(yīng)用起來相對(duì)復(fù)雜,需要多方面、多維度權(quán)衡。A與B有關(guān)聯(lián),簡(jiǎn)單理解是A發(fā)生了,B在某種概率上也會(huì)發(fā)生。目前HR用的最多的是直接的因果聯(lián)系,很少有“啤酒尿布一起賣”這種關(guān)聯(lián)性。
關(guān)聯(lián)性將是未來HR最常用的技術(shù),如何把不同類型的數(shù)據(jù)聯(lián)系起來從而得出結(jié)論是關(guān)鍵。
特別要注意的一點(diǎn)是:關(guān)聯(lián)性技術(shù)的應(yīng)用面廣,產(chǎn)品的應(yīng)用面窄;通俗點(diǎn)說,哪里都能用關(guān)聯(lián)性,但是每個(gè)關(guān)聯(lián)性得到的結(jié)果只能應(yīng)用在特定的條件下。
根據(jù)一般情況判斷異常情況,這個(gè)技術(shù)在工業(yè)生產(chǎn)、科學(xué)實(shí)驗(yàn)中用得最多。產(chǎn)品故障與未知粒子的發(fā)現(xiàn)都是在一次次“異常”情況中分析得到的。適用于數(shù)據(jù)積累量大、機(jī)理相對(duì)成熟的事物預(yù)測(cè)。