- 相關推薦
大詞匯連續(xù)漢語語音的MLP聲學特征的研究論文
摘要:
短時聲學特征參數如MFCC,PLP作為輸入向量的高斯混合模型(GMM)的隱馬爾可夫模型(HMM)的經典模型在大詞匯連續(xù)語音識別系統(LVCSR)已取得了良好識別效果。但針對短時聲學特征區(qū)分性差的特點,本文提出采用神經網絡多層感知器(MLP)產生的兩種類型差異特征HATs與TANDEM代替短時特征,分別訓練GMM參數模型。實驗結果表明,差異特征的GMHMM的LVCSR系統優(yōu)于傳統的短時特征的系統;為了更進一步提高系統識別率,該文又將兩種類型差異特征HATs與TANDEM進行復合,構成MLPs特征流重建GMHMM,系統的錯字率(CER)有2%——3.8%的明顯改善。
關鍵詞:多層感知器;差異特征;隱馬爾可夫;高斯混合模型
對語音信號特征參數的研究是建立良好的語音識別系統的基礎與關鍵。在過去的研究中,語音識別系統的特征提取成分主要包括頻譜包絡預測,特別是經過某些簡單變化后的特征,目前前端大部分是基于短時軌跡(約10ms)信號分析的美爾倒譜(MFC)或是感知線性預測(PLP)。但這些傳統的短時特征參數存在著對信號變化過于敏感,不能反映連續(xù)幀之間的相關特性,區(qū)分性差等方面的不足。近年來,國外很多語音研究機構在語音信號的特征提取、聲學建模方面引入了神經網絡ANN,其中由Berkeley國際計算機學院(ICSI)提出用基于MLPs的特征取代傳統特征,系統的識別率得到了明顯改善[1-3];贛LPs特征的差異性的優(yōu)勢和GMM/HMM模型的成熟性,本文提出將變換后的MLPs差異特征后驗概率看作是GMHMM的輸入向量,重新構建GMHMM模型。實驗結果表明MLPs特征具有更好的特性,LVCSR的識別率得到了明顯的改善。
1、基于MLP的差異聲學特征。
為彌補了來自言語感知和倒譜的短時分析的不足,獲取時序相關聯的多幀語音信息(即音素信息),文本引入了神經網絡ANN的MLP,以提取基于非短時軌跡的非傳統特征。本文采用的MLP特征為HATs和TANDEM兩種。
。1)長時HATs特征參數。
HATs特征基于人對不同頻帶的感覺不同,HATs特征提取將由兩級MLP實現[4-5],第一級由15個MLP即將關鍵頻帶數分為15個,第二級由1個MLP構成。HATs的基本實現步驟:
、僖狸P鍵頻帶,分別計算每個短時窗(10ms)對應的關鍵頻帶的能量的log值(即為短時頻段能量參數)。
、诜謩e將各頻帶短時能量參數串聯為0.5s的長時頻帶能量參數作為HATs第一級的輸入參數。串聯方法為將前25幀、后25幀和當前幀同頻段的能量參數相串聯(25+25+1=51),作為該關鍵頻帶的MLP的51個輸入單元。即第一級的每個MLP都具有51個輸入端。每一個MLP都是為了證實當前幀為某個音素的后驗概率P(Pj/Xt)。因此,在語音識別系統中,每一個MLP的輸出單元代表了一個音素。由于這些MLP為差別性音素提供了音素后驗,所產生的特征為語音識別提供了音素差別性能力。
、鄄捎胹oftmax函數將每一個MLP的概率輸出匯總為1,實現歸一化。
xij是來自隱藏單元i的輸入;wij是隱藏單元i與輸出單元j的權值;zj是作為音素后驗的MLP的輸出。隱藏單元應用sigmoid函數限止其輸出值在0-1之間。
因為每個關鍵頻帶對不同的音素反映不同,所以每個第一級的輸出都提供了音素后驗概率。第二級的目的在于接合所有音素后驗概率,對當前幀所屬音素的認定作最后的決策。從不同的實驗表明,針對于LVCSR最成功的做法是采用第一級隱藏層的結果作為第二級的輸入。因為第一級softmax使所有的輸出都轉化為同一級別,這樣就削弱甚至是抹殺了第一階段涉及所有的MLP的鑒別力。由于第二級的輸入是源自第一階段的隱藏層,即隱藏激活hidden activation TRAPS (HATS)。第二級的輸入單元的數目為15×h,h是第一級每個MLP的隱藏單元數目,本文采用60個隱藏單元。最后,從第二級MLP計算出音素后驗概率。由于系統采用71個音素[10],所以HATs的輸出是一個71維的音素后驗概率。二級MLP的HATs特征描述如圖 1所示。
。2)TANDEM特征。
本文采用的另一個MLP特征是中期特征TANDEM[6]。其MLP的網絡結構如圖2所示。
由于本文采用MFCC作為常規(guī)HMM的輸入特征,為了最大化收集新信息,該TANDEM網絡采用標準短時特征采用PLP倒譜特征。TANDEM由一個MLP網絡組成,抽取相鄰9幀的PLP和基音,以42×9(42維,9幀)為MLP的輸入,15000個隱藏單元。隱藏單元依然用sigmoid函數,輸出單元用后驗softmax函數。最后MLP輸出71個音素的后驗概率。
2、MLPs聲學特征的混合。
本文提出的聲學特征的混合是基于MLP的長時HATs與中期TANDEM復合為MLPs特征流。
HATs與TANDEM是采用兩套MLP系統產生的,也即每一幀都有兩個音素后驗概率。在文獻[7]中指出,將其兩種后驗概率進行復合后,其MLP的特征更有效。為此,本文采用以下步驟實現音素后驗的復合[8]:
。1)建立后驗音素向量:采用Demspter-shafter[7]逆熵加權策略將兩套音素后驗概率合成音素后驗向量[r1 r2…r71]。
。2)用log計算音素后驗向量:為了讓音素后驗向量與傳統特征復合,采用log函數計算使之更像高斯分布;
(3)用PCA實現降維和正交化:為了后期與其它特征復合,71維的音素后驗向量需進行降維處理;因為高斯密度函數常認為是相互獨立,對角協方差的,所以音素后驗向量需要正交化,進行均值和方差的歸一化。最終實現將兩個71維的音素后驗降為一個35維的MLPs。
3、模型訓練。
本文的聲學模型是以跨詞三音子3狀態(tài)左-右的HMM;跔顟B(tài)共享的決策樹總數為4500個上下文相關音素狀態(tài)。系統采用3個級別的訓練,第1級是聲道長度的歸一化(VTLN)的訓練。為了補償語者差異性,在第2級中采用了受限的最大似然線性回歸的說話人自適應的訓練(SAT/CMLLR),建立語者獨立模型。最后是建立語言模型重估(LM rescoring)模型[9]。
4、語料庫。
本文系統使用了230小時的廣播新聞和廣播對話語音數據進行訓練。230小時的語料包括了30小時的HUB4,由GALE發(fā)布的100小時廣播新聞和100小時廣播談話。識別中使用了2.2小時的eval06和2.5小時的dev07兩組語料。詳細語料信息見表 1。
5、實驗結果及結論。
本文應用德國亞琛工業(yè)大學語音研究所開發(fā)的LVCSR漢語語音識別系統[9]進行實驗。采用230小時語料庫為71個漢語音素基元模型分別建立基于MFCC的HMGMM模型及MLPs/ pitch混合聲學特征的HMGMM模型,在識別階段均使用eval06與dev07的語料進行識別,其識別結果用連續(xù)識別的字錯誤率(Character Error Rate CER%)進行評價。其結果如表 2所示。
采用MLP的特征比傳統的短時特征都有良好的識別特性,TANDEM特征系統的CER約有0.5%的改善,HATs的特性比TANDEM更好,系統的CER減少約1%~2.5%,采用MLPs復合聲學特征,系統的識別率有了最大的提高,CER得到了2%-3.8%的改善。本文復合的聲學特征為中時(9幀)和長時(51幀)的信息,能否將短時特征再與其復合以提高系統識別率,還待進一步研究。
參考文獻:
[1] ZHU Qi-feng.Incorporating tandem/HATs MLP features into SRI’s conversational speech recognition system[J]. in Proc. DARPA RT Workshop 2004.
[2] Jing Zheng. Combining Discriminative Feature, Transform, and Model Training for Large Vocabulary Speech Recognition[C].inProc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, Hawaii, 2007(4):633-636.
[3] 閻平凡,張長水,“人工神經網絡與模擬進化計算”[M]. 清華大學出版社 2005.
[4] wang M Y.Building a highly accurate mandarin speech recognizer[J].in Proc. IEEE Automatic Speech Recognition and Understanding Workshop, Kyoto, Japan, Dec., 2007:490-495.
[5] Chen B. Learning long-term temporal features in LVCSR using neural networks[J].in Proc. Int. Conf. on Spoken Language Processing, Jeju Island, Korea, Oct., 2004.
[6] Hermansky H, Ellis D P W, Sharma S. Tandem connectionist feature stream extraction for conventional hmm systems[C]. in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Istanbul, Turkey, 2000:1635-1638.
[7] Valente F, Hermansky H. Combination of acoustic classifiers based on dempster-shafer theory of evidence[J]. in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, HI, USA, Apr.,2007.
[8] Morgan N, Chen B Y, Zhu Q, et al. Trapping Conversational Speech: Extending TRAP/Tandem approaches to conversational telephone speech recognition[J].in Proceedings of IEEE ICASSP, Montreal, May 2004.
[9] Plahl C, HoffmEister B, Hwang M, et al. Recent Improvements of the RWTH GALE Mandarin LVCSR System[J].In Interspeech, Brisbane, Australia, September 2008:2426-2429.
[10] 呂丹桔, Hwang M, HoffmEIster B. 漢語連續(xù)語音識別之音素聲學模型的改進[J].計算機仿真,2010(5).
【大詞匯連續(xù)漢語語音的MLP聲學特征的研究論文】相關文章:
漢語語音研究的幾個問題04-29
試論類推機制在漢語語音史研究中的作用05-02
略談現代漢語詞匯研究04-28
漢語語音對英語語音學習的影響探析05-02
語音詞匯教學教案04-25
當代漢語詞匯研究的新成果-讀張小平《當代漢語詞匯發(fā)展變化研究》05-02
常德方言輕音音節(jié)的聲學特征05-02
普通話輕聲的聲學特征與讀法04-26
封閉空腔聲學特性研究04-28