淺談?wù)Z音識(shí)別中計(jì)算機(jī)仿真的運(yùn)用論文

時(shí)間：2024-10-15 08:54:24 計(jì)算機(jī) 我要投稿

　　摘要：文章闡述了一種改進(jìn)的基于自適應(yīng)模型的語(yǔ)音識(shí)別方法。概括歸納了實(shí)現(xiàn)這種方法的三大模塊：語(yǔ)音數(shù)據(jù)采集模塊，基于自適應(yīng)模型的語(yǔ)音識(shí)別模塊和體現(xiàn)應(yīng)用的結(jié)果顯示模塊。

淺談?wù)Z音識(shí)別中計(jì)算機(jī)仿真的運(yùn)用論文

　　關(guān)鍵詞：計(jì)算機(jī)仿真；語(yǔ)音識(shí)別；算法

　　引言：當(dāng)下對(duì)于語(yǔ)音識(shí)別技術(shù)的研究處于初期階段，但現(xiàn)在市面上出現(xiàn)的大量語(yǔ)音識(shí)別的產(chǎn)品例如DragonDictation,Siri等表明語(yǔ)音識(shí)別技術(shù)還擁有巨大的發(fā)展與應(yīng)用空間。

　　1 提出背景

　　目前大多數(shù)的語(yǔ)音識(shí)別設(shè)備在算法上都是基于傳統(tǒng)的GMM方式，傳統(tǒng)的GMM方式的核心思想是利用多個(gè)高斯分布的概率密度函數(shù)組合來(lái)描述特征矢量在概率空間的分布狀況。傳統(tǒng)的GMM方法需要先計(jì)算所有說話人模型的識(shí)別概率p,然后取識(shí)別概率最大的說話人模型作為識(shí)別結(jié)果。而人類在進(jìn)行說話人識(shí)別時(shí),是一邊聽取語(yǔ)音,一邊做出判斷,同時(shí)排除掉絕對(duì)不可能的說話人，在若干相似說話人之間選擇,當(dāng)有很大的把握性時(shí),做出最終判定。這不同于目前的機(jī)器識(shí)別方法,總是取固定時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù),且對(duì)所有的說話人均同等對(duì)待。傳統(tǒng)的GMM模型在說話人集合很大時(shí)需要大量的數(shù)據(jù)收集和較長(zhǎng)的處理時(shí)間，會(huì)影響到分辨說話人身份的準(zhǔn)確性。所以我們需要一種更加高效，高可靠性的方式來(lái)改進(jìn)當(dāng)前主流的語(yǔ)音識(shí)別算法，更好的服務(wù)于當(dāng)前信息化社會(huì)。

　　2 自適應(yīng)模型

　　自適應(yīng)[1]是指處理和分析過程中，根據(jù)處理數(shù)據(jù)的數(shù)據(jù)特征自動(dòng)調(diào)整處理方法、處理順序、處理參數(shù)、邊界條件或約束條件,使其與所處理數(shù)據(jù)的統(tǒng)計(jì)分布特征、結(jié)構(gòu)特征相適應(yīng),以取得最佳的處理效果。在特征提取階段，根據(jù)不同的說話人，選取不同長(zhǎng)度的語(yǔ)音提取特征，對(duì)于易于區(qū)分的說話人，只選取少量語(yǔ)音就可以正確識(shí)別,對(duì)于難于區(qū)分的說話人，提取大量語(yǔ)音進(jìn)行識(shí)別,從而在整體上減少了提取特征的時(shí)間;在識(shí)別階段,只選取少量語(yǔ)音進(jìn)行總體說話人識(shí)別模型的識(shí)別概率計(jì)算,而選取較多的語(yǔ)音,對(duì)前期選取的識(shí)別概率較高的說話人模型計(jì)算識(shí)別概率，從而一方面保證不降低識(shí)別率，一方面大幅度減少識(shí)別時(shí)間。

　　3 研究目標(biāo)及主要內(nèi)容

　　3.1研究目標(biāo)。我們研究的主要目標(biāo)是通過MATLAB模型仿真功能，實(shí)現(xiàn)基于自適應(yīng)的語(yǔ)音識(shí)別技術(shù)來(lái)確定說話人身份。在收集到語(yǔ)音信號(hào)的后，完成對(duì)信號(hào)的處理，主要是基于MFCC的特征提取實(shí)現(xiàn)語(yǔ)音庫(kù)的搭建,之后使用自適應(yīng)的語(yǔ)音識(shí)別技術(shù)，將原先采集到的信息和后續(xù)說話人所說的語(yǔ)音在自適應(yīng)的模型下進(jìn)行比對(duì)，來(lái)確定說話人是否為本人，并且借助外圍設(shè)別對(duì)結(jié)果進(jìn)行顯示，最終實(shí)現(xiàn)一個(gè)輸入-處理--輸出的語(yǔ)音識(shí)別平臺(tái)搭建。

　　3.2研究?jī)?nèi)容。以MATLAB軟件為主要工具，配合外圍所搭建的輸入設(shè)備，顯示設(shè)備完成一個(gè)可以應(yīng)用的說話人身份識(shí)別系統(tǒng)的搭建。（1）深入研究語(yǔ)音信號(hào)的采集方式，能夠?qū)⑼ㄟ^外圍設(shè)備將采集到的語(yǔ)音信號(hào)進(jìn)行處理，并在MATLAB中實(shí)現(xiàn)編程，為后續(xù)的語(yǔ)音識(shí)別提供素材。（2）通過研究自適應(yīng)模型的原理，設(shè)計(jì)基于其原理的算法，將（1）中經(jīng)過處理后的語(yǔ)音信號(hào)與應(yīng)用時(shí)輸入的語(yǔ)音信號(hào)進(jìn)行識(shí)別，通過MATLAB完成計(jì)算，這一步是整個(gè)研究中最重要的部分，運(yùn)算完成將給出處理結(jié)果。（3）搭建外圍顯示設(shè)備，我們將MATLAB和單片機(jī)進(jìn)行通信，MATLAB將識(shí)別結(jié)果傳輸給單片機(jī)，我們通過單片機(jī)來(lái)提供一個(gè)顯示說話人身份識(shí)別信息并與用戶交互的平臺(tái)。

　　4 技術(shù)路線

　　4.1語(yǔ)音數(shù)據(jù)采集模塊。目前所有的語(yǔ)音識(shí)別方式都需要一個(gè)語(yǔ)音庫(kù)來(lái)進(jìn)行匹配。基于自適應(yīng)的語(yǔ)音識(shí)別也要在語(yǔ)音庫(kù)的搭建上進(jìn)行如下操作。4.1.1采集說話人語(yǔ)音。使用錄音筆在消音室中采集到說話人的聲音，我們會(huì)將模擬信號(hào)轉(zhuǎn)成數(shù)字信號(hào)，并且進(jìn)行處理。為了得到高質(zhì)量的聲音信號(hào)，確保語(yǔ)音庫(kù)的精確性，我們選擇在消音室完成聲音采集工作。4.1.2特征提取及語(yǔ)音庫(kù)搭建。模擬信號(hào)進(jìn)行A/D轉(zhuǎn)換后，我們要對(duì)數(shù)字信號(hào)進(jìn)行處理，這里我們使用MFCC這種主流的語(yǔ)音信號(hào)特征提取方式來(lái)進(jìn)行提取。MFCC[2]是基于了Mel頻率的倒譜系數(shù)，我們輸入樣本音頻，對(duì)樣本音頻預(yù)加重，分幀，加窗，再做傅里葉變換，進(jìn)行Mel頻率濾波，進(jìn)行Log對(duì)數(shù)能量提取等操作從而完成采集的語(yǔ)音的特征提取。這一步的核心還是將采集到的模擬信號(hào)按照A/D轉(zhuǎn)換使其成為可以通過MATLAB調(diào)用的數(shù)據(jù)。

　　4.2基于自適應(yīng)模型的語(yǔ)音識(shí)別模塊設(shè)計(jì)。這個(gè)模塊是我們的研究最核心的部分，我們基于這個(gè)模型來(lái)實(shí)現(xiàn)主要功能。4.2.1當(dāng)說話人為陌生人，先排除。傳統(tǒng)的語(yǔ)音識(shí)別主要是將采集到的信號(hào)和原來(lái)收集的所有信號(hào)進(jìn)行比對(duì)從而確定說話人身份，但這樣做有時(shí)會(huì)浪費(fèi)時(shí)間，也可能出現(xiàn)誤差。而自適應(yīng)模型首先去做的就是特征抽取，將已經(jīng)采集到的語(yǔ)音數(shù)據(jù)進(jìn)行處理，尋找到他們的共同特征，當(dāng)需要識(shí)別的信號(hào)不符合這種特性的時(shí)候，我們首先要將其排除，這樣，在排除陌生人說話時(shí)會(huì)更加簡(jiǎn)便。在我們對(duì)說話人識(shí)別前先把陌生人給排除，在說話者不是陌生人的情況下，我們會(huì)減少很多干擾因素，能夠節(jié)約識(shí)別時(shí)間，提高識(shí)別精度。4.2.2當(dāng)說話人已經(jīng)在語(yǔ)音庫(kù)中，確定其身份。我們的算法主要是研究的對(duì)象是已經(jīng)將語(yǔ)音信息導(dǎo)入到語(yǔ)音庫(kù)中的人群，這里我們要用到SVM[3]技術(shù)，SVM是一個(gè)可以把低維下線性不可分的問題變成一個(gè)高維線性可分問題的技術(shù)。在我們自適應(yīng)語(yǔ)音識(shí)別說話人身份時(shí)，我們需要對(duì)收集到的語(yǔ)音數(shù)據(jù)進(jìn)行分類。例如我們收集到1000組語(yǔ)音，按照收集到的語(yǔ)音特征分成250組，每組4個(gè)人。當(dāng)說話人開始識(shí)別，我們先去找到這個(gè)說話人屬于哪個(gè)組，然后在這個(gè)4人小組里面在進(jìn)行區(qū)分，這樣，我們把原先需要一一匹配的說話人識(shí)別僅僅需要幾步就可以實(shí)現(xiàn)。

　　4.3體現(xiàn)應(yīng)用的結(jié)果顯示模塊。使用一塊單片機(jī)與一塊顯示屏，通過Matlab中的設(shè)備控制箱將識(shí)別結(jié)果傳送到單片機(jī)，單片機(jī)依據(jù)識(shí)別結(jié)果在顯示屏進(jìn)行顯示。

　　5 結(jié)語(yǔ)

　　和當(dāng)前主流的傳統(tǒng)高斯混合模型相比，我們?cè)O(shè)計(jì)出的基于自適應(yīng)的模型結(jié)構(gòu)，可以很大程度上減少在聲音識(shí)別前所需要收集的數(shù)據(jù)量，節(jié)約空間，同時(shí)由于自適應(yīng)算法的優(yōu)越性我們也能夠在提高語(yǔ)音識(shí)別的可靠性，很大程度上減少在識(shí)別過程中由于外部因素所造成的誤差。

　　引用：

　　[1]丁博，王懷民，史殿習(xí).構(gòu)造具備自適應(yīng)能力的軟件[J].軟件學(xué)報(bào).2013（07）

　　[2]李澤，崔宣，馬雨廷等.MFCC和LPCC特征參數(shù)在說話人識(shí)別中的研究[J].河南工程學(xué)院學(xué)報(bào).2010(06).

　　[3]李書玲，劉蓉，張?chǎng)虤J等.基于改進(jìn)型SVM算法的語(yǔ)音情感識(shí)別[J].計(jì)算機(jī)應(yīng)用.2013(07).

【淺談?wù)Z音識(shí)別中計(jì)算機(jī)仿真的運(yùn)用論文】相關(guān)文章：

淺談小學(xué)英語(yǔ)語(yǔ)音教學(xué)的策略的論文11-07

YY語(yǔ)音在網(wǎng)絡(luò)教育中的運(yùn)用研究論文12-04

圖書館工作中計(jì)算機(jī)管理系統(tǒng)的有效運(yùn)用論文12-17

淺談本土教育資源的合理運(yùn)用論文01-08

淺談異化與歸化方法在翻譯中的運(yùn)用論文12-01

淺談運(yùn)用賞識(shí)教育應(yīng)注意的問題論文02-25

淺談體育游戲在小學(xué)體育教學(xué)中的運(yùn)用論文06-08

計(jì)算機(jī)教育中計(jì)算機(jī)科學(xué)技術(shù)的應(yīng)用論文11-07

淺談?dòng)?jì)算機(jī)在網(wǎng)絡(luò)技術(shù)教學(xué)中的運(yùn)用12-03

計(jì)算機(jī)論文：初中計(jì)算機(jī)教學(xué)加強(qiáng)德育滲透探析03-08

相關(guān)推薦

久久久久无码精品,四川省少妇一级毛片,老老熟妇xxxxhd,人妻无码少妇一区二区

淺談?wù)Z音識(shí)別中計(jì)算機(jī)仿真的運(yùn)用論文