基于時間序列理論方法的生物序列特征分析
論文簡介:生物信息學的主要研究對象是DNA、RNA和蛋白質(zhì)分子,因為這些生物大分子包含了遺傳及物種進化的所有信息,隨著DNA和蛋白質(zhì)被測序,如何從這些DNA和蛋白質(zhì)序列中獲得更多的生物信息是具有挑戰(zhàn)性的問題.隨著堿基和氨基酸在基因數(shù)據(jù)庫中的規(guī)模呈指數(shù)增長,利用新的理論方法去研究DNA和蛋白質(zhì)序列就變得越來越重要.許多生物學家、物理學家、數(shù)學家和計算機專家都被吸引到這個研究領(lǐng)域中來。 @@ 在介紹了生物信息學的研究背景之后,本文首先介紹了研究生物序列特性的時間序列理論方法,對本文要用到的短記憶ARMA模型和長記憶ARFIMA模型作了詳細的闡述,為研究DNA序列、蛋白質(zhì)序列特性做了理論上的準備工作。 @@ 混沌游走表示(Chaos Game Representation,簡記為CGR)是一種迭代映射技術(shù),它可以把序列中的每一個單元,如DNA序列中的核苷酸,蛋白質(zhì)序列中的氨基酸,映射到一個連續(xù)的坐標空間中去.我們基于CGR坐標提出了一種將DNA序列轉(zhuǎn)換成一個時間序列(CGR-游走序列)的方法,并引入長記憶ARFIMA(p,d,q)模型來分析,我們分析了十條DNA序列的CGR-游走序列,發(fā)現(xiàn)都能用長記憶ARFIMA(p,d,q)模型高度顯著地擬合.作為一個具有完善算法的經(jīng)典時間序列模型,ARFIMA模型能幫助我們挖掘DNA序列中未知的特性, @@ 因為合適的ARFIMA模型在模型選擇時成功率較低,且在參數(shù)估計中最大似然計算量較大,用短記憶模型去近似長記憶模型是研究者們感興趣的問題,我們考慮利用短記憶ARMA(1,1)過程去近似長記憶ARFIMA(p,d,q)過程,證明了這種適應(yīng)性方法的均方誤差準則,并引入DNA序列的十條CGR-游走序列用以分析,驗證了這種近似方法的有效性,為長記憶DNA序列找到了一個算法更為簡單的近似模型。 @@ 在此基礎(chǔ)上,我們還考慮利用ARMA(2,2)模型去逼近ARFIMA(O,d,O)模型,基于ARMA(2,2)模型和ARMA(1,1)模型有效性損失率的比較可知,ARMA(2,2)近似模型優(yōu)于ARMA(1,1)近似模型.為驗證此結(jié)論,還引入了服從ARFIMA(O,d O)模型的CGR-游走序列用以分析,比較了ARMA(1,1)和ARMA(2,2)這兩個模型近似ARFIMA(O,d,O)模型的有效性,根據(jù)殘差標準差的結(jié)果可得ARMA(2,2)近似模型優(yōu)于ARMA(1,1)近似模型, @@ 我們修改了Kalman濾波遞推公式,解決了長記憶ARFIMA模型的缺失數(shù)據(jù)問題,并利用DNA序列的CGR-游走序列驗證了此方法的有效性, @@ 基于已建立的DNA序列的CGR-游走模型,我們建立了一個類似的基于詳細HP模型的連接蛋白質(zhì)序列的CGR-游走模型,并引入長記憶ARFIMA(p,d,q)模型來分析,發(fā)現(xiàn)來自12條細菌全基因組的連接蛋白質(zhì)序列的CGR-游走序列能用長記憶ARFIMA(p,d,q)模型顯著地擬合。 @@關(guān)鍵詞:混沌游走表示(CGR)-游走模型;DNA序列;蛋白質(zhì)序列;短記憶ARMA模型;長記憶ARFIMA模型;均方誤差準則;最大似然估計:狀態(tài)空間模型
請繼續(xù)閱讀相關(guān)推薦:畢業(yè)論文 應(yīng)屆生求職
畢業(yè)論文范文查看下載 查看的論文開題報告 查閱參考論文提綱
查閱更多的畢業(yè)論文致謝 相關(guān)畢業(yè)論文格式 查閱更多論文答辯
【基于時間序列理論方法的生物序列特征分析】相關(guān)文章:
SAS統(tǒng)計軟件在《時間序列分析》課程中輔助教論文03-08
SAS統(tǒng)計軟件在《時間序列分析》課程中輔助教學的探討11-25
基于Copula理論的股市風險分析提綱12-02
基于鏈接結(jié)構(gòu)理論的句群結(jié)構(gòu)類型的分析11-28
淺論新媒體視覺傳達的特征理論分析12-06
基于模糊灰色理論紡織廠火災風險分析12-06
- 相關(guān)推薦