數(shù)據(jù)挖掘在股票估價(jià)的運(yùn)用
股票價(jià)格受到多種因素影響,具有復(fù)雜非線性變化特點(diǎn),單一預(yù)測(cè)方法只難反映其片斷信息,預(yù)測(cè)精度低。那么,在股票估價(jià)中如何運(yùn)用數(shù)據(jù)挖掘呢?
1引言
隨著經(jīng)濟(jì)的迅速發(fā)展,股票交易市場(chǎng)成為人們投資理財(cái)?shù)囊环N重要途徑,然而受到多種影響,是一種高風(fēng)險(xiǎn)、高回報(bào)投資方式,為了獲得更多的利潤(rùn),必須對(duì)股票價(jià)格的波動(dòng)和發(fā)展趨勢(shì)準(zhǔn)確的把握,因此股標(biāo)價(jià)格的預(yù)測(cè)成為經(jīng)濟(jì)領(lǐng)域中的一個(gè)重要研究課題[1]。
股票價(jià)格預(yù)測(cè)是指通過(guò)對(duì)歷史和當(dāng)天股票價(jià)格進(jìn)行分析和研究,對(duì)將來(lái)股票的價(jià)格進(jìn)行預(yù)測(cè)。發(fā)達(dá)國(guó)家對(duì)股票價(jià)格預(yù)測(cè)問(wèn)題研究比較成熟,發(fā)達(dá)國(guó)家股票市場(chǎng)比較穩(wěn)定、正規(guī),具有非常好的統(tǒng)計(jì)規(guī)律,而我國(guó)股票交易市場(chǎng)剛起步不久,受人為影響、政治、經(jīng)濟(jì)影響比較,還起于發(fā)展初期,遠(yuǎn)不成熟,沒(méi)有明顯統(tǒng)計(jì)規(guī)律,采用國(guó)外股票價(jià)格預(yù)測(cè)技術(shù)對(duì)我國(guó)股票價(jià)格進(jìn)行預(yù)測(cè),獲得結(jié)果不可靠,誤差比較大,容易給投資起到誤導(dǎo)作用,沒(méi)有什么參考和指導(dǎo)價(jià)值[3]。在國(guó)內(nèi),自從有了股票交易市場(chǎng)以來(lái),就引起國(guó)內(nèi)大量學(xué)者廣泛關(guān)注,提出一些股票預(yù)測(cè)方法,常用的方法有線性回歸、時(shí)間序列分析、灰色預(yù)測(cè)算法等[4-6]。其中的時(shí)間序列分析中一維自回模型(ARIMA最為靈活,使用最為廣泛,但是基于線性建模,股票是一種非線性、時(shí)變的時(shí)間序列數(shù)據(jù),預(yù)測(cè)精度有待進(jìn)一步提高[7]。近幾年,隨著數(shù)據(jù)挖掘技術(shù)發(fā)展,出現(xiàn)神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等智能機(jī)器學(xué)習(xí)方法,為股票預(yù)測(cè)拓展了新的研究空間,并在股票市場(chǎng)中得到了廣泛的應(yīng)用。股票價(jià)格受多種因素影響,變化十分復(fù)雜,其一種預(yù)測(cè)模型只能反映其部分信息,難以全面挖掘股票價(jià)格數(shù)據(jù)中隱藏的變化規(guī)律,預(yù)測(cè)結(jié)果與股民、投資人的要求有一定的差距[8]。
為了進(jìn)一步提高股票價(jià)格預(yù)測(cè)精度,更好為股民、投資人提供有價(jià)格的參考信息,提出一種基于數(shù)據(jù)挖掘的股票價(jià)格組合預(yù)測(cè)模型。首先采用線性預(yù)測(cè)模型ARIMA對(duì)股票價(jià)格進(jìn)行預(yù)測(cè),然后采用智能學(xué)習(xí)算法—最小二乘支持向量機(jī)(LS-SVM)對(duì)股票價(jià)格非線線部分進(jìn)行預(yù)測(cè),最后將兩模型的預(yù)測(cè)值融合成股票價(jià)格的預(yù)測(cè)值。
2股票價(jià)格的預(yù)測(cè)原理
股票價(jià)格變化受到企業(yè)經(jīng)營(yíng)狀況、國(guó)家政策、經(jīng)濟(jì)發(fā)展?fàn)顩r、股民、投資人等因素影響,是一個(gè)動(dòng)態(tài)、非線性、時(shí)變的復(fù)雜系統(tǒng),具有一定的規(guī)律性,但同時(shí)具有顯著的隨機(jī)性,導(dǎo)致股價(jià)格漲跌幅度較大。股票價(jià)格量數(shù)學(xué)模型可以表示為:(略)。
根據(jù)式(1)可知,如果采用單一的線性ARIMA模型或非線性LSSSVM模型只能預(yù)測(cè)趨勢(shì)部分或非線線部分,均只能反映股票價(jià)格的部分信息,不能全面反映股票價(jià)格變化規(guī)律,采用單一的ARIMA或LSSSVM模型,得到預(yù)測(cè)結(jié)果不可靠,且預(yù)測(cè)精度低。為了解決單一模型預(yù)測(cè)精度的低,無(wú)法反映股票價(jià)格動(dòng)態(tài)、非線性、時(shí)變等變化規(guī)律,將ARIMA和LSSVM模型組合在一起,對(duì)股票價(jià)格進(jìn)行預(yù)測(cè),以提高股票價(jià)格預(yù)測(cè)精度,因此基于數(shù)據(jù)挖掘的股票價(jià)格組合模型預(yù)測(cè)原如圖1所示。
3數(shù)據(jù)挖掘的股票價(jià)格預(yù)測(cè)模型
3.1股票價(jià)格的預(yù)處理
股票價(jià)格歷史數(shù)據(jù)是一種非平穩(wěn)數(shù)據(jù),漲跌幅度比較大,因此最小值和最大值相差比較大,這會(huì)對(duì)股票價(jià)格預(yù)測(cè)模型訓(xùn)練速度產(chǎn)生不利影響,為消除這種不利因素,對(duì)股票價(jià)格歷史數(shù)據(jù)進(jìn)行預(yù)處理,使其范圍縮放到[0.10.9],具體為:(略)。
3.2股票價(jià)格的線性預(yù)測(cè)模型
設(shè)股票價(jià)格歷史數(shù)據(jù)為:{xt},t=1,2,…n,ARIMA建模過(guò)程為:
1)由于股標(biāo)是一種非平穩(wěn)時(shí)間序列,首先對(duì)它進(jìn)行差分處理,即:(略)。
經(jīng)過(guò)多次差分后,股票價(jià)格數(shù)據(jù)變成是一種平穩(wěn)時(shí)間序列,即可以得到:(略)。
那么股票價(jià)格的ARIMA(p,q,d)模型為:(略)。
2)模型識(shí)別。p、q是ARIMA建模的關(guān)鍵,首先采用自相關(guān)和偏自相關(guān)圖來(lái)決定p、q可能的取值,然后采用最小信息準(zhǔn)則(AIC)和相合性準(zhǔn)則(SBC)確定出最佳的模型階數(shù)。AIC和SBC函數(shù)定義為:(略)。
3)參數(shù)估計(jì)和模型診斷。模型中所有參數(shù)采用極大似然估計(jì)得到,然后對(duì)參數(shù)在模型中進(jìn)行檢驗(yàn),對(duì)其合理性進(jìn)行判定,如果不適合就重新估計(jì)參數(shù)。
4)采用最合參數(shù)建立股票價(jià)格預(yù)測(cè)模型。本文采用浙江大學(xué)DPS6.5軟件包的ARIMA模塊實(shí)現(xiàn)股票價(jià)格整個(gè)建模過(guò)程。
3.3股票價(jià)格的非線性預(yù)測(cè)模型
對(duì)于股票價(jià)格時(shí)間序列{xt},t=1,2,…n,由于LSSVM不能對(duì)一維時(shí)間序列進(jìn)行直接預(yù)測(cè),因此本文通過(guò)拓階方式將一維股票價(jià)格時(shí)間序列轉(zhuǎn)換成為多維時(shí)間序列{(xi,yi)},i=1,2,…k,xi和yi分別表示樣本輸入和輸出,xi∈Rn,yi∈R,通過(guò)非線性映射函數(shù)φ(•)將樣本映射到高維特征空間,從而獲得最優(yōu)線性回歸函數(shù):(略)。
根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,式(9)問(wèn)題求解的LSSVM回歸模型為:(略)。
通過(guò)引入拉格朗日乘子將上述約束優(yōu)化問(wèn)題轉(zhuǎn)變?yōu)闊o(wú)約束對(duì)偶空間優(yōu)化問(wèn)題,即:(略)。
選擇徑向基核函數(shù)作為L(zhǎng)SSVM核函數(shù),最后得到股票價(jià)格的LSSVM預(yù)測(cè)模型為:(略)。
3.4股票價(jià)格的組合預(yù)測(cè)步驟
1)收集某支股票價(jià)格的歷史數(shù)據(jù)。2)對(duì)股票價(jià)格原始?xì)v史數(shù)據(jù)進(jìn)行預(yù)處理,將其值縮放到0.1到0.9之間。3)采用ARIMA模型對(duì)股票價(jià)格線性變化規(guī)律進(jìn)行預(yù)測(cè),得到線性預(yù)測(cè)值。4)計(jì)算股票價(jià)格原始?xì)v史數(shù)據(jù)與ARIMA模型預(yù)測(cè)值之間的殘差,這樣股票價(jià)格的非線性變化規(guī)律就隱藏于預(yù)測(cè)殘差中。5)對(duì)股票價(jià)格預(yù)測(cè)殘差數(shù)據(jù)進(jìn)行拓階,確定模型最優(yōu)滯后階數(shù),并對(duì)股票價(jià)格殘差數(shù)據(jù)進(jìn)行重構(gòu),得到LSSVM的樣本集。6)將重構(gòu)的股票價(jià)格殘差數(shù)據(jù)輸入到LSSVM進(jìn)行學(xué)習(xí),并對(duì)其進(jìn)行預(yù)測(cè),得到股票價(jià)格殘差預(yù)測(cè)值,即股票價(jià)格非線性部分預(yù)測(cè)值。7)對(duì)線性預(yù)測(cè)值和非線性預(yù)測(cè)值進(jìn)行融合,得到股票價(jià)格的最終預(yù)測(cè)值。其具體工作流程如圖2所示。
3.5股標(biāo)價(jià)格預(yù)測(cè)模型性能評(píng)價(jià)指標(biāo)
為了評(píng)價(jià)股票價(jià)格預(yù)測(cè)模型性能,采用本研究采用均方根誤差和平均絕對(duì)相對(duì)誤差作為模型性能評(píng)價(jià)指標(biāo),它們分別定義如下:(略)。
4股票價(jià)格組合模型仿真
4.1數(shù)據(jù)來(lái)源
仿真數(shù)據(jù)來(lái)源于黃山旅游(600054)股票2007年1月到2007年12月的收盤價(jià),共收集到211個(gè)數(shù)據(jù)樣本,其中前111個(gè)數(shù)據(jù)作為訓(xùn)練集,對(duì)股票收盤價(jià)進(jìn)行建模,最后100個(gè)樣本作為測(cè)試集,檢驗(yàn)股票收盤價(jià)預(yù)測(cè)模型的預(yù)測(cè)性能。600054的收盤價(jià)格如圖3所示。
4.2股票價(jià)格的線性部分預(yù)測(cè)
對(duì)股票價(jià)格的原始數(shù)據(jù)首先進(jìn)行歸一化處理,然后將211個(gè)數(shù)據(jù)樣本輸入到DPS6.5軟件中,采用ARIMA模塊得到偏相關(guān)和自相關(guān)圖,如圖4所示。從圖4可知,該股票價(jià)格具有明顯的非平穩(wěn)性,需要首先對(duì)其進(jìn)行差分處理,使其變成平穩(wěn)時(shí)間序列,ARIMA模型才能進(jìn)行預(yù)測(cè)。股票價(jià)格的1階偏相關(guān)和自相關(guān)圖如圖5所示,此時(shí),股票價(jià)格基本平穩(wěn),因此最佳差分階數(shù)d=1。采用從低階到高階逐步試探法來(lái)識(shí)別模型的參數(shù),得到600054的收盤價(jià)格最優(yōu)預(yù)測(cè)模模型為ARIMA(2,1,1),采用ARIMA(2,1,1)對(duì)最后100個(gè)樣本,預(yù)測(cè)結(jié)果如圖6所示。從圖6可知,ARIMA模型對(duì)股票價(jià)格的預(yù)測(cè)精度不高,但是能夠很好的把握股票價(jià)格變化趨勢(shì)。
4.3股票價(jià)格的非線性部分預(yù)測(cè)
根據(jù)ARIMA(2,1,1)預(yù)測(cè)結(jié)果確定股票價(jià)格的殘差序列,然后采用LSSVM進(jìn)行逐步定階,確定最優(yōu)價(jià)數(shù)為3,然后采用最優(yōu)階數(shù)重構(gòu)數(shù)據(jù)集,然后將訓(xùn)練本輸入到LSSVM中進(jìn)行學(xué)習(xí)建模,并對(duì)殘差序列測(cè)試集進(jìn)行預(yù)測(cè)。
4.4獲得股票價(jià)格的最終預(yù)測(cè)結(jié)果
將ARIMA(2,1,1)和LSSVM模型預(yù)測(cè)結(jié)果進(jìn)行相加,得到股票價(jià)格的最終預(yù)測(cè)結(jié)果。預(yù)測(cè)結(jié)果如圖7所示。
4.5與其它預(yù)測(cè)模型結(jié)果對(duì)比
為了驗(yàn)證基于數(shù)據(jù)挖掘的股票價(jià)格預(yù)測(cè)模型的優(yōu)越性,采用單一預(yù)測(cè)模型ARIMA和LSSVM進(jìn)行對(duì)比實(shí)驗(yàn),它們對(duì)股票價(jià)格測(cè)試集的預(yù)測(cè)結(jié)果RMSE和MAPE如表1所示。從表1的對(duì)比結(jié)果可知,基于數(shù)據(jù)挖掘的組合預(yù)測(cè)模型的股票價(jià)格預(yù)測(cè)精度要遠(yuǎn)遠(yuǎn)高于單一的ARIMA和SVM模型預(yù)測(cè)精度,預(yù)測(cè)誤差大大降低,對(duì)比結(jié)果表明組合預(yù)測(cè)模型綜合利用了ARIMA和SVM優(yōu)勢(shì),達(dá)到優(yōu)勢(shì)互補(bǔ),克服兩者缺陷,更加全面的刻畫了股票價(jià)格的變化規(guī)律,而單一預(yù)測(cè)模型只能反映股票價(jià)格部分信息,不能能夠精確描述股票價(jià)格非線性和周期變化規(guī)律,因此相對(duì)于傳統(tǒng)預(yù)測(cè)方法,基于數(shù)據(jù)挖掘的組合預(yù)測(cè)模型是一種有效股票價(jià)格預(yù)測(cè)方法。
5結(jié)論
股票價(jià)格受到多種因素影響,具有復(fù)雜非線性變化特點(diǎn),單一預(yù)測(cè)方法只難反映其片斷信息,預(yù)測(cè)精度低。為了全面、準(zhǔn)確描述股票價(jià)格變化規(guī)律,提出一種基于數(shù)據(jù)挖掘的股票價(jià)格組合預(yù)測(cè)模型。仿真結(jié)果明,組合模型有效提高了股票價(jià)格預(yù)測(cè)精度,在股票價(jià)格預(yù)測(cè)中有著廣泛的應(yīng)用前景。
【數(shù)據(jù)挖掘在股票估價(jià)的運(yùn)用】相關(guān)文章:
數(shù)據(jù)挖掘技術(shù)在移動(dòng)通信中的運(yùn)用02-27
數(shù)據(jù)挖掘與企業(yè)營(yíng)銷策略探究03-29
數(shù)據(jù)挖掘論文的參考文獻(xiàn)01-07
淺談反病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)分類挖掘論文02-19
數(shù)據(jù)挖掘論文的參考文獻(xiàn)范文02-18
數(shù)據(jù)挖掘與客戶關(guān)系管理分析02-28
時(shí)間序列數(shù)據(jù)挖掘研究論文提綱03-27
數(shù)據(jù)挖掘論文參考文獻(xiàn)范文11-20
數(shù)據(jù)挖掘技術(shù)的教學(xué)輔助系統(tǒng)應(yīng)用論文03-16
數(shù)據(jù)挖掘技術(shù)在就業(yè)指導(dǎo)的應(yīng)用論文02-27
- 相關(guān)推薦