語音識別范文
時間:2023-03-29 05:26:07
導(dǎo)語:如何才能寫好一篇語音識別,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:語音識別 應(yīng)用領(lǐng)域 熱點 難點
中圖分類號:TN912 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-3973 (2010) 03-062-02
1應(yīng)用領(lǐng)域
如今,一些語音識別的應(yīng)用已經(jīng)應(yīng)用到實際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統(tǒng)等。語音識別的應(yīng)用領(lǐng)域非常廣泛,幾乎涉及到日常生活的方方面面。如語音撥號系統(tǒng)、、家庭服務(wù)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、聽寫機(jī)、計算機(jī)控制、工業(yè)控制、語音通信系統(tǒng)等。預(yù)計在不遠(yuǎn)的將來,語音識別技術(shù)將在工業(yè)、家電、通信、、醫(yī)療、家庭服務(wù)等各個領(lǐng)域深刻改變?nèi)祟惉F(xiàn)有的日常生活方式。語音識別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國新聞界評為1997年計算機(jī)發(fā)展十件大事之一。很多專家都認(rèn)為語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。
2發(fā)展歷史
語音識別的研究工作開始于50年代,Bell實驗室實現(xiàn)了第一個可識別十個英文數(shù)字的語音識別系統(tǒng)―Audry系統(tǒng)。但真正取得實質(zhì)性進(jìn)展,并將其作為一個重要的課題開展研究則是在60年代末70年代初。60年代,提出了動態(tài)規(guī)劃(DP)和線性預(yù)測分析技術(shù)(LP),其中后者較好地解決了語音信號產(chǎn)生模型的問題,極大地促進(jìn)了語音識別的發(fā)展。70年代,動態(tài)時間歸正技術(shù)(DTW)解決了語音特征不等長匹配問題,對特定人孤立詞語音識別十分有效,在語音識別領(lǐng)域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識別研究進(jìn)一步深入,HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識別中成功應(yīng)用。1988年,FULEE Kai等用VQ/I-IMM方法實現(xiàn)了997個詞匯的非特定人連續(xù)語音識別系統(tǒng)SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續(xù)語音識別系統(tǒng)。人們終于在實驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,并以此確定了統(tǒng)計方法和模型在語音識別和語言處理中的主流地位。使得借助人工智能中的啟發(fā)式搜索和語音模型自身的特點,高效、快捷的算法使得建立實時的連續(xù)語音識別系統(tǒng)成為可能。
90年代,人們開始進(jìn)一步研究語音識別與自然語言處理的結(jié)合,逐步發(fā)展到基于自然口語識別和理解的人機(jī)對話系統(tǒng)。人工神經(jīng)元網(wǎng)絡(luò)(ANN)也開始應(yīng)用于語音識別,它和HMM模型建立的語音識別系統(tǒng)性能相當(dāng),在很多系統(tǒng)中還被結(jié)合在一起使用以提高識別率及系統(tǒng)的魯棒性。小波分析也開始用于特征提取,但目前性能不理想,其研究還在進(jìn)一步深入中。
現(xiàn)在語音識別系統(tǒng)已經(jīng)開始從實驗室走向?qū)嵱?出現(xiàn)了比較成熟的已推向市場的產(chǎn)品。許多發(fā)達(dá)國家如美國、日本、韓國以及IBM、Apple、Microsoft、AT&T等著名公司都為語音識別系統(tǒng)的實用化開發(fā)研究投以巨資。
3研究的熱點與難點
目前語音識別領(lǐng)域的研究熱點包括:穩(wěn)健語音識別(識別的魯棒性)、語音輸入設(shè)備研究 、聲學(xué)HMM模型的細(xì)化、說話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識別、高效的識別(搜索)算法研究 、可信度評測算法研究、ANN的應(yīng)用、語言模型及深層次的自然語言理解。
目前研究的難點主要表現(xiàn)在:(1)語音識別系統(tǒng)的適應(yīng)性差。主要體現(xiàn)在對環(huán)境依賴性強(qiáng)。(2)高噪聲環(huán)境下語音識別進(jìn)展困難,因為此時人的發(fā)音變化很大,像聲音變高,語速變慢,音調(diào)及共振峰變化等等,必須尋找新的信號分析處理方法。(3)如何把語言學(xué)、生理學(xué)、心理學(xué)方面知識量化、建模并有效用于語音識別,目前也是一個難點。(4)由于我們對人類的聽覺理解、知識積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等方面的認(rèn)識還很不清楚,這必將阻礙語音識別的進(jìn)一步發(fā)展。
4語音識別系統(tǒng)
一個典型的語音識別系統(tǒng)如圖所示:
輸入的語言信號首先要進(jìn)行反混疊濾波、采樣、A/D轉(zhuǎn)換等過程進(jìn)行數(shù)字化,之后要進(jìn)行預(yù)處理,包括預(yù)加重、加窗和分幀、端點檢測等。我們稱之為對語音信號進(jìn)行預(yù)處理。
語音信號的特征參數(shù)主要有:短時能量En,反映語音振幅或能量隨著時間緩慢變化的規(guī)律;短時平均過零率Zn,對于離散信號來講,簡單的說就是樣本改變符號的次數(shù),可以粗略分辨清音和濁音;短時自相關(guān)函數(shù);經(jīng)過FFT或LPC運算得到的功率譜,再經(jīng)過對數(shù)運算和傅里葉反變換以后得到的倒譜參數(shù);根據(jù)人耳聽覺特性變換的美爾(MEL);線性預(yù)測系數(shù)等。通常識別參數(shù)可選擇上面的某一種或幾種的組合。
語音識別是語音識別系統(tǒng)最核心的部分。包括語音的聲學(xué)模型(訓(xùn)練學(xué)習(xí))與模式匹配(識別算法)以及相應(yīng)的語言模型與語言處理2大部分。聲學(xué)模型用于參數(shù)匹配,通常在模型訓(xùn)練階段按照一定的準(zhǔn)則,由用語音特征參數(shù)表征的大量已知模式中通過學(xué)習(xí)算法來獲取代表該模式本質(zhì)特征的模型參數(shù)而產(chǎn)生。在識別(模式匹配)時將輸入的語音特征同聲學(xué)模型(模式)根據(jù)一定準(zhǔn)則進(jìn)行匹配與比較,使未知模式與模型庫中的某一個模型獲得最佳匹配以得到最佳的識別結(jié)果。語言模型一般指在匹配搜索時用于字詞和路徑約束的語言規(guī)則,它包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計方法構(gòu)成的語言模型,語言處理則可以進(jìn)行語法、語義分析。
聲學(xué)模型是語音識別系統(tǒng)中最關(guān)鍵的一部分。目前最常用也最有效的幾種聲學(xué)識別模型包括動態(tài)時間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)模型(ANN)等。
DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它把整個單詞作為識別單元,在訓(xùn)練階段將詞匯表中每個詞的特征矢量序列作為模板存入模板庫,在識別階段將待識別語音的特征矢量序列依次與庫中的每個模板進(jìn)行相似度比較,將相似度最高者作為識別結(jié)果輸出。DTW應(yīng)用動態(tài)規(guī)劃方法成功解決了語音信號特征參數(shù)序列比較時時長不等的難題,在小詞匯量、孤立詞語音識別中獲得了良好性能。但因其不適合連續(xù)語音大詞匯量語音識別系統(tǒng),目前已逐漸被HMM和ANN模型替代。
HMM模型是語音信號時變特征的有參表示法。它由相互關(guān)聯(lián)的兩個隨機(jī)過程共同描述信號的統(tǒng)計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態(tài)的Markor鏈,另一個是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過程(可觀測的)。HMM很好的模擬了人得語言過程,目前應(yīng)用十分廣泛。HMM模型的模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)(狀態(tài)數(shù)目N、狀態(tài)之間的轉(zhuǎn)移方向等)、每個狀態(tài)可以觀察到的符號數(shù)M(符號集合O)、狀態(tài)轉(zhuǎn)移概率A及描述觀察符號統(tǒng)計特性的一組隨機(jī)函數(shù),包括觀察符號的概率分布B和初始狀態(tài)概率分布 ,因此一個HMM模型可以由{N,M,A,B, }來確定,對詞匯表中的每一個詞都要建立相應(yīng)的HMM模型。
模型參數(shù)得到后可以用Viterbi算法來確定與觀察序列對應(yīng)的最佳的狀態(tài)序列。建好模型后,在識別階段就是要計算每個模型產(chǎn)生觀察符號序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識別結(jié)果。這個過程計算量很大,有人提出了前向-后向算法,大大減少了計算量,已經(jīng)被廣泛采用,關(guān)于它們的各種改進(jìn)方法也被大量提出。
ANN在語音識別中的應(yīng)用是現(xiàn)在研究的又一熱點。ANN本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),是由結(jié)點互連組成的計算網(wǎng)絡(luò),模擬了人類大腦神經(jīng)元活動的基本原理,具有自學(xué)習(xí)能力、記憶、聯(lián)想、推理、概括能力和快速并行實現(xiàn)的特點,同時還具備自組織、自適應(yīng)的功能。這些能力是HMM模型不具備的,可用于處理一些環(huán)境信息十分復(fù)雜,背景知識不清楚,推理規(guī)則不明確的問題,允許樣品有較大的缺損、畸變,因此對于噪聲環(huán)境下非特定人的語音識別問題來說是一種很好的解決方案。目前大部分應(yīng)用神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)都采用了BP網(wǎng)并取得了較好的識別效果。
將ANN與HMM結(jié)合分別利用各自優(yōu)點進(jìn)行識別將是今后的一條研究途徑。二者結(jié)合的混合語音識別方法的研究開始于上世紀(jì)90年代,目前已有一些方法將ANN輔助HMM進(jìn)行計算和學(xué)習(xí)概率參數(shù)。
語言模型主要分為規(guī)則模型和統(tǒng)計模型兩種。統(tǒng)計語言模型是用概率統(tǒng)計的方法來揭示語言單位內(nèi)在的統(tǒng)計規(guī)律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型基于這樣一種假設(shè):第n個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料庫中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
5總結(jié)
盡管語音識別技術(shù)已經(jīng)取得了長足的進(jìn)步,而語音識別系統(tǒng)也層出不窮,不斷的改變?nèi)祟惉F(xiàn)有的生活方式,但其比較成功的應(yīng)用也只是在某些特定的領(lǐng)域,談不上大規(guī)模廣泛的應(yīng)用。只有建立從聲學(xué)、語音學(xué)到語言學(xué)的知識為基礎(chǔ)、以信息論、模式識別數(shù)理統(tǒng)計和人工智能為主要實現(xiàn)手段的語音處理機(jī)制,把整個語音識別過程從系統(tǒng)工程的高度進(jìn)行分析構(gòu)建,才有可能獲得能與人類相比的高性能的、完整的計算機(jī)語音識別系統(tǒng)。
參考文獻(xiàn):
[1]易克初,田斌.付強(qiáng).語音信號處理[M].國防工業(yè)出版社,2000.
[2]胡航.語音信號處理[M].哈爾濱工業(yè)大學(xué)出版社,2000.
[3]趙力.語音信號處理[M].機(jī)械工業(yè)出版社,2003.
篇2
簡單地說,自動語音識別(ASR)是一種讓計算機(jī)識別語音,并將它轉(zhuǎn)換為書面文本的技術(shù),是語音科學(xué)與工程發(fā)展最快的領(lǐng)域之一。作為新一代的計算技術(shù),它是人機(jī)交互領(lǐng)域繼文本到語音轉(zhuǎn)換(TTS)和支持交互式語音響應(yīng)(IVR)系統(tǒng)之后的又一個重大創(chuàng)新。自動語音識別系統(tǒng)的目標(biāo)是準(zhǔn)確、有效地將語音信號轉(zhuǎn)換成文本,并且不受說話者、環(huán)境或者是使用的設(shè)備(即麥克風(fēng))的限制。
語音識別技術(shù)最初是為殘疾人設(shè)計的,它可以幫助那些肌肉骨骼殘疾人士實現(xiàn)計算機(jī)上的最大生產(chǎn)力。雖然自動語音識別是一項幾十年前就開始開發(fā)的技術(shù),但直到Apple的虛擬個人助理SiriTM和IBM的WatsonTM的商業(yè)成功才真正展示了這一領(lǐng)域的重大突破。事實上,當(dāng)2011年底Apple推出新一代的iPhone Siri語音識別軟件時,在某種意義上意味著這個具有幾十年歷史的舊技術(shù)對普通消費者來說已經(jīng)足夠好了。
全球語音識別市場的主導(dǎo)者是總部設(shè)在美國的Nuance Communications,其軟件被認(rèn)為是Siri的動力, 而它的大多數(shù)技術(shù)依賴于將語音轉(zhuǎn)換為計算機(jī)可以理解的文本。Nuance的語音解決方案支持多達(dá)50種不同的語言,并且維護(hù)著世界上最大的語音數(shù)據(jù)圖書館之一;有近三分之二的財富100強(qiáng)公司依靠Nuance的解決方案;Nuance的解決方案已經(jīng)應(yīng)用到超過50億部手機(jī)和7千萬輛汽車上。在醫(yī)療方面,僅在美國就有超過3千家醫(yī)院使用Nuance的醫(yī)療保健解決方案,超過15萬的醫(yī)生和護(hù)理人員使用Nuance的Dragon Medical系統(tǒng)。
自動語音識別的發(fā)展
最早嘗試設(shè)計機(jī)器自動語音識別系統(tǒng)是在20世紀(jì)50年代,但以失敗告終。第一次成功的語音識別成果產(chǎn)生在20世紀(jì)70年代,當(dāng)時一般的模式匹配技術(shù)被推出。由于應(yīng)用擴(kuò)展有限,基于統(tǒng)計方法的自動語音識別技術(shù)也在同一時期開始開發(fā)。如今,統(tǒng)計技術(shù)在自動語音識別應(yīng)用中盛行,常見的語音識別系統(tǒng)可以識別數(shù)千字。
在20世紀(jì)90年代初,計算機(jī)語音識別技術(shù)出現(xiàn)了巨大的市場機(jī)會。但當(dāng)時這些產(chǎn)品的早期版本笨重且很難使用,而且不得不做出妥協(xié):它們或者被“調(diào)整”為要依賴于一個特定的說話者,或者是只有小詞匯量,或者是用一種非常程式化、僵化的語法。然而,在計算機(jī)行業(yè)中沒有什么可以長期保持不變。20世紀(jì)90年代末期,出現(xiàn)了全新的商業(yè)語音識別軟件包,它們比上一代產(chǎn)品更容易使用,也更有效。
自動語音識別研究的“神圣目標(biāo)”是讓計算機(jī)實時地以100%的準(zhǔn)確度識別任何一個人說的話,并且不受詞匯量、噪音、說話者特征和口音、或者說話渠道的影響。盡管在這一領(lǐng)域的研究已經(jīng)有幾十年了,但大于90%的準(zhǔn)確率只有在某種程度的制約下才能實現(xiàn)。例如對通過使用麥克風(fēng)(小詞匯量,無噪音)的連續(xù)數(shù)字的識別準(zhǔn)確率可以達(dá)到99%以上;如果系統(tǒng)被訓(xùn)練學(xué)習(xí)某個說話者的聲音,那么在可用的商用系統(tǒng)中較大的詞匯也同樣能被處理,只是準(zhǔn)確率會下降到90%~95%;而不同說話者不同渠道的大詞匯量語音識別的準(zhǔn)確率不超過87%,并且處理時間是實時的數(shù)百倍。自動語音識別的性能可能受許多因素的影響,包括技術(shù)設(shè)計、語音輸入的類型和質(zhì)量、周邊環(huán)境和用戶特征等。當(dāng)有更多的數(shù)據(jù)時,自動語音識別系統(tǒng)的性能可以更好,因為這樣統(tǒng)計模型就可以建立在更大的基礎(chǔ)上。Google的自動語音識別系統(tǒng)性能好的原因是它們存儲了每個鍵入或說到Google中的搜索詞,并基于搜索的共性來確定概率。
自動語音識別的應(yīng)用
過去十年目睹了語音識別技術(shù)的顯著改善,高性能算法與系統(tǒng)都已可用,使得自動語音識別的應(yīng)用越來越廣泛。IT主流使得采用自動語音識別在全球商業(yè)中變得更為關(guān)鍵,尤其是近年來互聯(lián)網(wǎng)協(xié)議(VoIP)平臺的擴(kuò)散刺激了企業(yè)對語音識別技術(shù)的采用。以支持應(yīng)用程序開始,語音識別解決方案已經(jīng)演變成滲透包括航空公司、銀行、倉儲、庫存管理和安全券商等多個行業(yè)的核心應(yīng)用程序,并已經(jīng)成為差異化服務(wù)和建立客戶關(guān)系的工具。甚至醫(yī)療中心、醫(yī)院、制藥公司和其他醫(yī)療保健行業(yè)參與者也紛紛采用自助語音解決方案,因為這不僅能降低運營成本,同時也提高了客戶的隱私度。
消費者對自動語音識別技術(shù)的應(yīng)用程序范圍從基本的依靠語音啟動的報警系統(tǒng)和手機(jī)上的語音撥號,到智能手機(jī)應(yīng)用中的語音股票報價和基于語音的電子郵件,以及更多的有針對性的解決方案,如互動娛樂和語音身份驗證等。同時,自動語音識別也是汽車導(dǎo)航、遠(yuǎn)程信息處理系統(tǒng)和信息跟蹤等的重要組成部分。隨著對支持語言學(xué)習(xí)的創(chuàng)新應(yīng)用的需求日益增加,使用自動語音識別技術(shù)的計算機(jī)輔助語言學(xué)習(xí)(CALL)系統(tǒng)也越來越受關(guān)注。
語音自動轉(zhuǎn)化為文本 我們都聽過像Apple的Siri一類的可以自動識別我們說什么的系統(tǒng),并想知道我們能否使用這種“自動語音識別”技術(shù)來替代手工轉(zhuǎn)錄口述內(nèi)容的繁瑣過程。
自動語音識別的一個流行應(yīng)用是語音自動轉(zhuǎn)錄為文本,比如將講話轉(zhuǎn)錄成手機(jī)短信、自動數(shù)據(jù)輸入、直接語音輸入和制備結(jié)構(gòu)化文檔等。日本議會的轉(zhuǎn)錄系統(tǒng)就使用了自動語音識別。在這種應(yīng)用下,聲音用電子方式被轉(zhuǎn)換成文本,并創(chuàng)建會議記錄或者報告草稿等。然后會議記錄或者報告草稿被格式化,編輯修正翻譯、標(biāo)點或語法中的錯誤,并且檢查一致性和任何可能的錯誤。在有標(biāo)準(zhǔn)化術(shù)語的領(lǐng)域工作的轉(zhuǎn)錄員——比如放射學(xué)或病理學(xué)領(lǐng)域中——更有可能會遇到語音識別技術(shù)。在醫(yī)療界,醫(yī)療轉(zhuǎn)錄機(jī)可以聽醫(yī)生和其他專業(yè)醫(yī)療保健人員的錄音,并把它們轉(zhuǎn)錄到醫(yī)療報告、信件和其他行政材料中。這一應(yīng)用具有提高工作輸出效率并改善訪問和控制各種計算機(jī)應(yīng)用的潛力。通過使用語音輸入,自動語音識別應(yīng)用程序繞過或盡量減少傳統(tǒng)的手動輸入方法(例如鍵盤、鼠標(biāo)),因此也使它成為有嚴(yán)重的肢體或神經(jīng)運動障礙人士的一種替代輸入法。
同聲傳譯 目前同聲傳譯設(shè)備雖然尚未完善,但達(dá)到基本上可用的要求卻是指日可待。2012年夏天,倫敦發(fā)明家Will Powell展示了一個進(jìn)行英語和西班牙語即時互譯的系統(tǒng)。對話雙方都戴著與手機(jī)相連的耳機(jī),而他們佩帶的特制的眼鏡可以像字幕一樣把翻譯的文字顯示出來。這款即時互譯系統(tǒng)在只要有手機(jī)信號的地方就能工作,但目前此系統(tǒng)需要耳機(jī)、云服務(wù)和筆記本電腦的支持,也就意味著它目前還只能是個設(shè)計原型。
2012年11月,日本最大的移動電話運營商NTT DoCoMo推出了一項可以將電話中的日語與英語、中文或韓語互譯的服務(wù)。通話的每一方都連續(xù)說話,然后該公司的計算機(jī)在幾秒鐘內(nèi)將聽到的內(nèi)容翻譯到所要求的語言,并將結(jié)果視情況適當(dāng)?shù)赜媚新暬蚺曒敵觥?/p>
在同聲傳譯領(lǐng)域最誘人的成果可能來自Microsoft。2012年10月,當(dāng)該公司的首席研究官Rick Rashid出席天津的一個會議時,他的英語演講現(xiàn)場就被翻譯成了普通話,先是以字幕的形式顯示在大屏幕上,接著以電腦合成的聲音讀出。最引人注目的是,Rashid先生的中文版演講與他的英文版演講具有相同的語氣和音調(diào)。Microsoft認(rèn)為,如果以說話者自己的聲音傳遞譯文,聽眾對錯誤的容忍度會提高,比如Rashid先生演講的即時中文翻譯雖然偶有錯誤,但仍收到熱烈的掌聲。
自動語音翻譯技術(shù)和智能手機(jī)中的應(yīng)用目前可用的視頻和音頻數(shù)據(jù)量正在以指數(shù)級飛速增長,遠(yuǎn)遠(yuǎn)超過了人工翻譯的承受力。當(dāng)人工翻譯不可行時,自動語音翻譯可以發(fā)揮重要的作用,它不僅讓通信成為可能,而且可以幫助從海量的數(shù)據(jù)中找出重要信息。自動語音識別和機(jī)器翻譯能讓會議跨越國界和語言地高效舉行。
不僅是技術(shù)的進(jìn)步支持自動語音識別的采用,商業(yè)趨勢也如此。在各個行業(yè)中,對最新移動技術(shù)的需求與日俱增。為順應(yīng)這一趨勢,許多語音翻譯技術(shù)都可以裝在智能手機(jī)應(yīng)用或平板電腦上使用。
不可否認(rèn),基于互聯(lián)網(wǎng)的解決方案有巨大的優(yōu)勢,因為當(dāng)人們說話時他們的數(shù)據(jù)可以被收集和分析,而識別準(zhǔn)確率的一個主要因素是訓(xùn)練聲學(xué)模型的數(shù)據(jù)量。越多的人對Google Search和Siri說話,這些系統(tǒng)的性能就會越好。但是如果一個系統(tǒng)只能聯(lián)網(wǎng)使用,那旅行者的使用就會受限。而英國的一家叫Nouvaris的公司于2012年開發(fā)的Nova Search不需要連接到互聯(lián)網(wǎng)就能使用。因此,當(dāng)沒有3G或無線網(wǎng)信號時,你仍然能讓智能手機(jī)或計算機(jī)通過數(shù)據(jù)庫進(jìn)行搜索或回答問題。而當(dāng)如果有互聯(lián)網(wǎng)連接時,該技術(shù)可以在幾秒鐘之內(nèi)就從龐大的數(shù)據(jù)庫中完成篩選,到目前為止,它已對高達(dá)2.45億條的列表起作用。由于是在智能手機(jī)上而不是互聯(lián)網(wǎng)上解碼語音,Nova Search可以更快速地完成語音指令的數(shù)據(jù)庫搜索。
Google和Siri基本上是將語音轉(zhuǎn)換為單詞流輸入到網(wǎng)絡(luò)搜索或人工智能口譯員。而Nova Search不同是因為它直接用語音輸入搜索自定義數(shù)據(jù)庫,它會產(chǎn)生拼音符號流,并將其用在一個非??斓囊勋@得專利的搜索技術(shù)中。通過使用以拼音為基礎(chǔ)的方法,該軟件可以一次搜索整個詞組,而不是只搜索個別單詞。雖然該軟件仍然是在搜索互聯(lián)網(wǎng)時最有用,但能在本地使用設(shè)備的語音識別功能仍具有一些關(guān)鍵的優(yōu)勢,因為需要發(fā)送的數(shù)據(jù)大大減少,而且很快,要知道語音是一種非常昂貴的信號發(fā)送。該軟件的應(yīng)用包括對智能手機(jī)或電腦說出目的地,然后它會幫你找到公共交通路線等。
語音識別驗證 在興起的所有類型的生物特征識別應(yīng)用中,基于語音的身份驗證是用戶排斥較小的安全驗證,它是一種非接觸式、非侵入式且易于使用的方法。使用說話人的語音進(jìn)行驗證可以有許多應(yīng)用。例如,當(dāng)倉庫中員工在工作中走來走去時,可以給他們配備可穿戴/便攜式語音數(shù)據(jù)收集系統(tǒng)使其進(jìn)入倉庫;可以對因酒后駕車而定罪的罪犯方便地進(jìn)行遠(yuǎn)程酒精測試。結(jié)合移動定位系統(tǒng),語音驗證還可以用于跟蹤保安人員,以確保他們自己在正常巡邏,而不是讓他們的朋友在幫他們巡邏。另外,語音驗證也可作為多安全系統(tǒng)用來控制過境。比如在Montana州的Scobey,氣溫有時會降至零度以下,于是大多數(shù)其他形式的生物識別技術(shù)不再可行,而語音驗證裝置卻可以照常工作。
在金融方面,語音驗證也開始有了應(yīng)用。Nuance公司2013年5月的調(diào)查數(shù)據(jù)顯示,有85%的人對當(dāng)前的身份驗證方法不滿,因為要登錄到銀行帳戶、旅行網(wǎng)站或其他個人帳戶時,必須要記住許多個人識別碼、密碼、安全問題及其答案;數(shù)據(jù)還顯示,如果能有相同高的安全級別的話,90%的人希望能使用語音識別解決方案來代替?zhèn)鹘y(tǒng)的身份驗證方法,因為語音識別技術(shù)可以通過每個人獨特的聲音來標(biāo)識他,從而消除了要記住和鍵入密碼、個人識別碼的麻煩,讓身份驗證過程變得快速而簡單。
2013年5月,Barclays財富投資管理部署了Nuance的Free Speech語音識別方案,成為第一家在呼叫中心將被動的語音識別技術(shù)部署為主要客戶驗證手段的金融服務(wù)公司。自推出以來,超過84%的Barclays客戶已在Nuance語音生物識別技術(shù)解決方案中注冊,其中有95%的人第一次使用時就成功驗證了身份。更妙的是,客戶與聯(lián)系中心的經(jīng)驗反饋也有所改進(jìn),93%的客戶對新的身份驗證系統(tǒng)就速度、易用性和安全性的評分至少為90分。Nuance的語音生物識別技術(shù)讓象Barclays銀行這樣的組織通過更直觀、更透明的認(rèn)證方式重新定義它們的客戶服務(wù)經(jīng)驗,減輕了客戶和服務(wù)的負(fù)擔(dān)。
汽車上的應(yīng)用 技術(shù)的發(fā)展一日千里,這極大影響了現(xiàn)代汽車中的駕駛員界面。先進(jìn)的駕駛員輔助系統(tǒng)、自動泊車制動系統(tǒng)和無鑰匙點火等創(chuàng)新從根本上改變了駕駛員界面的構(gòu)成。這些新的舒適性、信息和娛樂系統(tǒng)要求駕駛員處置大量的按鈕、旋鈕和屏幕,并且這一需求還在不斷增加。移動智能手機(jī)和平板電腦也被越來越多地納入汽車中,以滿足駕駛員在行車中對連接和新服務(wù)的需求。對駕駛員來說,這顯然帶來了駕駛干擾和信息超載的風(fēng)險,尤其是這些主要車輛控制還只是冰山一角。而最有前景的解決方案似乎是語音控制,并且這早已是汽車行業(yè)的愿望。2013年現(xiàn)代的下一代汽車將有自然語言的語音啟動電話撥號、消息聽寫、目的地輸入等,并能在車內(nèi)或在線音樂服務(wù)中搜索音樂。然而需要認(rèn)識到的是,即使有語音控制,駕駛員分神的風(fēng)險依然存在。
自動語音識別的其他應(yīng)用 移動廣告是數(shù)字廣告中增長最快的領(lǐng)域之一。根據(jù)eMarketer的數(shù)據(jù),2012年全球移動廣告支出達(dá)84.1億美元,是2011年的40億美元的兩倍以上,并且預(yù)計到2013年達(dá)到近370億美元。作為創(chuàng)新性的新的移動廣告格式,語音廣告是游戲規(guī)則改變者,它可以讓人們與他們喜歡的品牌有動人有趣的雙向?qū)υ?,品牌可以通過讓消費者在廣告中暢所欲言而令其對品牌產(chǎn)生持久的印象。在以前,從來沒有一個品牌能夠有超過10億用戶的個人對話,而這正是品牌一直渴求的與公眾的親密關(guān)系。目前Nuance VoiceAds已經(jīng)完全可以做到這一點。
2013年,松下新的高清智能電視SMARTVIERA采用Nuance配備的Dragon TV系統(tǒng),人們可以坐著通過語音來查找內(nèi)容、搜索網(wǎng)頁、控制音量等, 創(chuàng)造了更多的互動和智能電視體驗。
另一個更為有趣的應(yīng)用發(fā)生在俄羅斯,該國最大的零售銀行聯(lián)邦儲蓄銀行(Sber bank)開發(fā)了一種使用語音識別來測謊的自動提款機(jī)。該機(jī)器通過將客戶對一些問題的反應(yīng)與一個記錄審訊中說謊人的數(shù)據(jù)庫比較,從而確定客戶是否說謊。
自動語音識別的未來
除了從事自動語音識別的研究和開發(fā)的科學(xué)家和技術(shù)人員,大多數(shù)人考慮自動語音識別時低估了它的復(fù)雜性。它不僅是自動的文本到語音,復(fù)雜的識別任務(wù)的一個必要條件是自動語音識別需要有大的數(shù)據(jù)容量和存儲器的快速計算機(jī),并且需要語音科學(xué)家、語言學(xué)家、計算機(jī)科學(xué)家、數(shù)學(xué)家和工程師的參與。這些參與者應(yīng)用神經(jīng)網(wǎng)絡(luò)、心理聲學(xué)、語言學(xué)、言語感知、人工智能、聲學(xué)語音學(xué)等領(lǐng)域的知識,為實現(xiàn)人類和機(jī)器之間的自然會話這一最終目標(biāo)共同努力。
過去三十多年來,語音識別研究的特點是小改進(jìn)的穩(wěn)步積累。由于語音識別性能的提高和更快計算機(jī)的可用,商業(yè)研究和其他學(xué)術(shù)研究繼續(xù)把重點放在日益難以解決的問題上。其中一個關(guān)鍵領(lǐng)域是提高語音識別性能的強(qiáng)健耐用性,這不僅是指抗噪音方面,也包括在所有可能導(dǎo)致性能大幅下降的情況下的強(qiáng)健耐用性。另一個關(guān)鍵領(lǐng)域關(guān)注的是一個機(jī)會,而不是一個問題,因為這項研究嘗試?yán)迷S多應(yīng)用中的大量高達(dá)數(shù)百萬小時的可用語音數(shù)據(jù)。如果靠人來把這些語音轉(zhuǎn)錄成文本,成本相當(dāng)高昂,因此研究關(guān)注的是開發(fā)一種新的機(jī)器學(xué)習(xí)的方法,使之能有效地利用大量未標(biāo)記的數(shù)據(jù)。還有一個研究領(lǐng)域是更好地理解人的能力,并使用這種理解來提高機(jī)器識別性能。
篇3
1語音識別系統(tǒng)設(shè)計的技術(shù)依據(jù)
近年來國內(nèi)教育信息化趨勢更加明顯,英語教學(xué)活動建立信息化平臺是師生所需,改變了早期英語課堂模式的不足之處。語音識別是計算機(jī)翻譯軟件不可缺少的一部分,如圖1,主要針對不同語言進(jìn)行識別處理,幫助學(xué)生快速地理解英語知識內(nèi)涵。語音識別技術(shù)主要包括:特征提取技術(shù)、模式匹配技術(shù)、模型訓(xùn)練技術(shù)等三大技術(shù),也是系統(tǒng)設(shè)計需考慮的重點。
1)特征提取技術(shù)。一般來說,語音識別系統(tǒng)輔助功能涉及到收錄、處理、傳遞等三個環(huán)節(jié),這也是語音識別系統(tǒng)設(shè)計的關(guān)鍵所在。計算機(jī)語言與自然語言之間存在極大的差異性,如何準(zhǔn)確識別兩種語言的差異性,這是翻譯軟件識別時必須解決的問題。特征提取技術(shù)是語音識別系統(tǒng)的基本構(gòu)成,主要負(fù)責(zé)對英語語言特征進(jìn)行提取,向翻譯器及時提供準(zhǔn)確的語言信號,提高計算機(jī)翻譯工作的準(zhǔn)確系數(shù)。
2)模式匹配技術(shù)。語音識別系統(tǒng)要匹配對應(yīng)的功能模塊,以輔助師生在短時間內(nèi)翻譯出語言含義,避免人工翻譯語言失誤帶來的不便。模式匹配技術(shù)采用智能識別器,由翻譯器錄入語音之后自主化識別、分析,減小了人工翻譯語句的難度。例如,計算機(jī)軟件建立匹配模型,按照英語字、詞、句等結(jié)構(gòu)形式,自動選擇相配套的翻譯模式,執(zhí)行程序命令即可獲得最終的語言結(jié)果,給予學(xué)生語音識別方面的幫助。
3)模型訓(xùn)練技術(shù)。設(shè)計語音識別系統(tǒng)是為了實現(xiàn)教育信息化,幫助教師解決英語課堂教學(xué)中遇到的翻譯難題,加深學(xué)生們對英語知識的理解能力。語音識別結(jié)束之后,翻譯器會自動執(zhí)行模擬訓(xùn)練操作,為學(xué)生創(chuàng)建虛擬化的語音訓(xùn)練平臺,這也是軟件識別系統(tǒng)比較實用的功能。模擬訓(xùn)練技術(shù)采用人機(jī)一體化設(shè)計思想,把翻譯器、語音識別器等組合起來執(zhí)行訓(xùn)練方式,快速地識別、判斷英語發(fā)聲水平,指導(dǎo)學(xué)生調(diào)整語音方式。
2英語翻譯器語音識別系統(tǒng)設(shè)計及應(yīng)用
英語翻譯器是現(xiàn)代化教學(xué)必備的操作工具,教師與學(xué)生借助翻譯器功能可準(zhǔn)確地理解英語含義,這對語音識別系統(tǒng)設(shè)計提出了更多要求。筆者認(rèn)為,設(shè)計語音識別系統(tǒng)要考慮翻譯器具體的工作流程,事先編排一套符合翻譯軟件工作的方案,如圖2,從而提高人機(jī)語言轉(zhuǎn)換速率。語音識別系統(tǒng)設(shè)計及應(yīng)用情況:
1)識別模塊。語音識別方法主要是模式匹配法,根據(jù)不同翻譯要求進(jìn)行匹配處理,實現(xiàn)英語翻譯的精準(zhǔn)性。一是在訓(xùn)練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫;二是在識別階段,將輸入語音的特征矢量依次與模板庫中的每個模板進(jìn)行相似度比較,將相似度最高者作為識別結(jié)果輸出。
2)前端模塊。前端處理是指在特征提取之前,先對原始語音進(jìn)行處理,這是預(yù)處理操作的主要作用。語音識別系統(tǒng)常受到外界干擾而降低了翻譯的準(zhǔn)確性,設(shè)計前段處理模塊可消除部分噪聲和不同說話人帶來的影響,使處理后的信號更能反映語音的本質(zhì)特征。例如,比較常用的前端處理有端點檢測和語音增強(qiáng)。
3)聲學(xué)模塊。語音識別系統(tǒng)的模型通常由聲學(xué)模型和語言模型兩部分組成,分別對應(yīng)于語音到音節(jié)概率的計算和音節(jié)到字概率的計算。聲學(xué)特征的提取與選擇是語音識別的一個重要環(huán)節(jié),這一步驟直接關(guān)系到翻譯器的工作效能,對英語語音識別與學(xué)習(xí)有很大的影響。因此,聲學(xué)模塊要注重人性化設(shè)計,語音設(shè)定盡可能符合自然語言特點。
4)搜索模塊。英語語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。本次所設(shè)計的搜索模塊中,其前端是一個語音識別器,識別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語法分析器進(jìn)行分析獲取語義信息,再由對話管理器確定應(yīng)答信息,由語音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限,也可以用提取關(guān)鍵詞的方法來獲取語義信息。
5)執(zhí)行模塊。實際應(yīng)用中,語言識別系統(tǒng)憑借執(zhí)行模塊完成操作,對英語語言識別方式進(jìn)行優(yōu)化擇取,以最佳狀態(tài)完成英語翻譯工作。目前,就英語教學(xué)中使用情況,聽寫及、對話系統(tǒng)等是語音識別執(zhí)行的兩種方式,充分展現(xiàn)了翻譯器在語言轉(zhuǎn)換方面的應(yīng)用功能。(1)聽寫機(jī)。大詞匯量、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機(jī)。其架構(gòu)就是建立在前述聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時對每個基元用前向后向算法獲得模型參數(shù),識別時,將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。(2)對話系統(tǒng)。用于實現(xiàn)人機(jī)口語對話的系統(tǒng)稱為對話系統(tǒng),英語翻譯器中完成了人機(jī)對話、語言轉(zhuǎn)換等工作,全面提升了翻譯器操控的性能系數(shù)。受目前技術(shù)所限,對話系統(tǒng)往往是面向一個狹窄領(lǐng)域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫檢索等,隨著語音數(shù)據(jù)庫資源的優(yōu)化配置,對話系統(tǒng)功能將全面升級。
3翻譯器使用注意事項
語音識別系統(tǒng)就是讓機(jī)器通過識別和理解過程,把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高科技。隨著高校教學(xué)信息化建設(shè)時期到來,計算機(jī)軟件輔助教學(xué)活動是一種先進(jìn)的模式,徹底改變了傳統(tǒng)人工教學(xué)模式的不足。翻譯軟件采用數(shù)字化元器件為硬件平臺,配合遠(yuǎn)程互聯(lián)網(wǎng)建立多元化傳輸路徑,滿足了英語翻譯數(shù)據(jù)處理與傳輸?shù)膽?yīng)用要求。但是,未來英語教學(xué)內(nèi)容越來越復(fù)雜,翻譯器語音識別系統(tǒng)承載的數(shù)據(jù)范圍更廣,學(xué)校必須實施更新翻譯軟件產(chǎn)品,才能進(jìn)一步提升英語智能化翻譯水平。
4結(jié)論
篇4
目前,語言識別技術(shù)已經(jīng)被大量應(yīng)用于企業(yè)的呼叫中心領(lǐng)域。大部分的電腦查詢服務(wù)都會采用自動語音識別技術(shù),用來處理客戶的各種需求,從而減少人工服務(wù)的數(shù)量,節(jié)約人力資源。然而,在經(jīng)歷過冗長、復(fù)雜的自助服務(wù)互動體驗后,客戶更加期待實用性高的語音互動應(yīng)用,使得他們能夠在撥打了第一通電話后就輕松將問題解決。這也讓自動語音識別的準(zhǔn)確性成為衡量語音識別軟件的一個重要標(biāo)準(zhǔn)。對于語言識別技術(shù)供應(yīng)商來說,其產(chǎn)品應(yīng)當(dāng)包括對自然語言與噪音處理的功能,以及支持多種語言版本和方言。
Nuance是最早從事自動語音識別技術(shù)研究的公司之一,在其最新推出的語音識別應(yīng)用平臺中,已經(jīng)能夠有效地過濾噪聲背景,適度提高語音辨析率,并在無線、免提和嘈雜的環(huán)境下提高準(zhǔn)確率。目前的語音識別應(yīng)用系統(tǒng)還可以自動適應(yīng)每種特別的部署環(huán)境,并具體套用于各種方言、區(qū)域口音和電話線路特性的聲學(xué)模型中。
排除噪音干擾是語音識別技術(shù)的一項關(guān)鍵性挑戰(zhàn)。為了能在本質(zhì)上展現(xiàn)高效處理各種噪音的能力,提供更高的識別準(zhǔn)確度,服務(wù)商通常與學(xué)術(shù)界和數(shù)據(jù)收集單位保持密切關(guān)系,廣泛且準(zhǔn)確地使用這些聲學(xué)和語言學(xué)的數(shù)據(jù)。在目前的語音識別系統(tǒng)中,其聲學(xué)模型通常采用大量來自現(xiàn)實世界的數(shù)據(jù)整合而成,包括各種噪音環(huán)境,從而具有較高的噪聲適應(yīng)性。
以Nuance公司為例,依靠其先進(jìn)的端點和語音檢測公式,系統(tǒng)能夠精確地將語音內(nèi)容和背景噪音分離開來,即使是在極其嘈雜的移動環(huán)境中,新的端點檢測技術(shù)也能夠讓系統(tǒng)自行判斷語音何時開始、何時結(jié)束,從而更準(zhǔn)確地轉(zhuǎn)錄。事實上,相較于之前的傳統(tǒng)語音識別產(chǎn)品,Nuance公司在嘈雜環(huán)境中展現(xiàn)了更優(yōu)越的偵測準(zhǔn)確度,識別準(zhǔn)確率平均提升了45%以上。
據(jù)筆者了解,現(xiàn)在最新的語音識別平臺還具有非常準(zhǔn)確的自然語言處理能力,以高效處理開放式的語音輸入以及主動對話等狀況。系統(tǒng)能夠根據(jù)來電者提供的資料,讓對話變得更加靈活。比如說,來電者可在通話中一次提出好幾個問題, 或者通過提示來修正系統(tǒng)。因此,語音自助服務(wù)應(yīng)用能夠帶來更好的結(jié)果,提高自動化率,縮短電話客服處理時間,降低客戶掛機(jī)的頻率,帶給客戶更有價值的互動體驗。
以雅芳公司為例,它是最大的直銷公司之一,每天要處理來自全球各處的客戶問題。在還沒應(yīng)用自動語音識別技術(shù)以前,雅芳客服中心每年有1200萬個電話需要處理,企業(yè)承擔(dān)的成本高達(dá)1500萬美元。
篇5
一、小學(xué)生單詞語音識別技能培養(yǎng)的意義
(一)單詞語音識別技能是小學(xué)生單詞學(xué)習(xí)的加速器
單詞的掌握一般包括知道一個單詞的音、形、義、用法和使用等五個方面。掌握單詞的讀音是單詞學(xué)習(xí)的一項重要內(nèi)容。通常小學(xué)生讀出一個單詞一般通過以下三種途徑:第一,跟讀與記憶單詞發(fā)音;第二,通過單詞的音標(biāo)讀出單詞;第三,通過拼讀能力讀出單詞。通過教師示范朗讀或聽音視頻的方式不斷跟讀,從而建立單詞詞形與整詞聲音的連接。這是一種不對詞匯作任何區(qū)分的、基于機(jī)械記憶的學(xué)習(xí)形式。面對少量單詞還可以應(yīng)付,對于深入的、大量的單詞學(xué)習(xí)是十分不利的,是一種低效的英語單詞學(xué)習(xí)方式。而通過音標(biāo)讀單詞需要一個前提條件,那就是兒童必須首先學(xué)習(xí)并掌握音標(biāo)系統(tǒng)。這對于小學(xué)生來說是十分困難而耗時的,可能會嚴(yán)重抑制小學(xué)生英語學(xué)習(xí)的興趣。而拼讀法作為21世紀(jì)初英、美、澳等英語國家政府強(qiáng)制或建議使用于幼兒園和小學(xué)低年級英語教學(xué)中的方法(于海靜,郭滿庫,2015),是通過建立字母與字母音之間的音形對應(yīng)關(guān)系為基礎(chǔ)來培養(yǎng)單詞解碼能力(包括單詞語音與語義識別技能),從而可以讀出所見的書面詞匯。由此可見,以拼讀教學(xué)為途徑發(fā)展的單詞語音識別技能能夠有效地擺脫單詞讀音的機(jī)械記憶,從而加速小學(xué)生詞匯學(xué)習(xí)的進(jìn)程。
(二)?未視鏌羰侗鵂寄蓯切?生閱讀學(xué)習(xí)的重要前提
英語閱讀能力是英語素養(yǎng)的核心成分,它不但是英語語言學(xué)習(xí)的內(nèi)容,也是英語語言學(xué)習(xí)的手段,其重要性不言而喻。而對于學(xué)習(xí)閱讀的小學(xué)生來說,語音與語義識別是學(xué)習(xí)閱讀的主要策略。對于學(xué)習(xí)閱讀的人來說,完成形音義的整體獲得需要一個過程。英語作為拼音文字,其語音加工決定詞匯通達(dá)(林永海,錢琴珍,張必隱,2003),在閱讀中的語音激活早于語義激活(陳寶國,彭聃齡,2001)。單詞形和義的聯(lián)系需要語音為中介。另外,閱讀認(rèn)知的核心操作系統(tǒng)――工作記憶以語音環(huán)節(jié)為基本機(jī)制,使得閱讀學(xué)習(xí)的首要任務(wù)是建立單詞形音的聯(lián)結(jié),并以此為基礎(chǔ)發(fā)展閱讀理解能力。研究表明,單詞認(rèn)讀與閱讀理解相關(guān)度極高,在控制一般認(rèn)知能力作用的條件下,單詞認(rèn)讀仍可顯著解釋閱讀理解的變異(陶沙,彭鵬,2010:230)。
研究表明,單詞識別與解碼技能的不足是造成閱讀學(xué)習(xí)困難的主要問題所在(Vellutino,2004)。我國一項研究說明,英語語音加工技能缺陷與閱讀困難存在顯著相關(guān),漢語視覺加工模式和經(jīng)驗制約英語字形與語音間的對應(yīng)轉(zhuǎn)錄,進(jìn)而對英文閱讀中語義加工造成直接影響(林新事,2008:94)。上述研究側(cè)面反映了單詞語音識別技能對閱讀能力發(fā)展的重要影響。因此,為了高效地提升小學(xué)生英語素養(yǎng),打通語言輸入與習(xí)得的途徑,培養(yǎng)單詞語音識別技能便成為小學(xué)生有效閱讀學(xué)習(xí)的必要條件。
二、小學(xué)生單詞語音識別技能培養(yǎng)的核心內(nèi)容
(一)字母與字母音對應(yīng)及單音節(jié)單詞語音識別
建立字母與字母音之間的聯(lián)結(jié)是小學(xué)生單詞語音識別的基礎(chǔ)。英語共有26個字母,其中元音字母5個,分別是a, e, i, o, u,輔音字母20個,分別是b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, z,最后一個為半元音字母y。對于5個元音字母,學(xué)生應(yīng)該掌握它們的兩種對應(yīng)關(guān)系,即分別作為短元音和作為長元音的字母音與元音字母的對應(yīng)。對于輔音字母來說,可以將它們分成兩組:一組為只有一種字母與字母音對應(yīng)的字母,如b, f, h, j, k等等;另外一組為有兩種字母音的字母,如c, g等等。它們形成特殊而一致的規(guī)則,即the C Rule 和the G Rule。也就是說,當(dāng)元音字母a, e 或u跟在輔音字母c后,這時字母c發(fā)字母k的字母音,如cake, cute等等。當(dāng)元音字母e, i或y跟在字母c后時,字母c發(fā)字母s的字母音,如cell, city, cycle等等。對于字母y,要作為輔音和元音字母分別對待。
在形成字母與字母音的對應(yīng)后,小學(xué)生應(yīng)該學(xué)習(xí)字母的組合音,這些組合音以極高的頻率一同出現(xiàn)在單詞開頭和結(jié)尾部分,掌握這些輔音、元音和元輔音字母組合是發(fā)展小學(xué)生的“頭韻-韻腳”意識,從而完成單音節(jié)單詞的語音識別。常見的輔音、元音和元輔音字母組合內(nèi)容與例詞見表1。教師在逐漸呈現(xiàn)與練習(xí)字母音、字母組合音時,應(yīng)該不斷嘗試合成與分解單詞,再分解與合成單詞,不斷訓(xùn)練,達(dá)到規(guī)則的自動化,從而掌握單音節(jié)單詞的語音識別技能。
表1 常見的輔音、元音和元輔音字母音組合內(nèi)容
[輔音字母音組合 bl,cl,fl,gl,pl;
br,cr,dr,gr,pr,tr;
sc,sk,sl,sn,sm,sp,st,sw;
sh,ch,th,wh,kn,ng,ph;
sh:ash,ish,ush;ell,ip,op,ut;mp,ft;nt,lk,lt;
ch:ick,eck,in,op,ess,ip;
each;tch:atch;
th:ing,umb,ink,ick;ath,oth,eeth;
wh:eel,eat,en,ich. 元音字母音組合 ai:ail,aid,ain,ait;
ee:eed,eep,eet;
ea:ead,ean,eat,eal;
oa:oat,oad,oap,oak,oast,oal,oaf;
oo:ook,ood,oon,oose;
ou:ound;ow:own;
oi,oy. 元輔音字母音組合 am,ad,at,an,ap,ab,ag,ack,ant,ang,ank,amp;
ed,en,ell,eg,et,ess,end,ent,est,eck;
id,ig,ill,it,im,in,ing,ink,ish,ick;
ox,ot,op,ob,od,og,om,ock;
ug,un,ut,ub,um,uck,unch;qu,tw;
ar:ark,ard,arn,arm;er;ir:irt;or:ork,ord,orn,orm;
ur:urse,urn;
a-e:ake,ame,ane,ate;
e-e:eve,ete;
i-e:ite,ike,ine;
o-e:oke,ole,ose,ome;
u-e:use,ute.
]
(二)?p音節(jié)、多音節(jié)單詞語音識別
小學(xué)生能夠正確地讀出雙音節(jié)或多音節(jié)單詞需要兩個條件:第一,能夠解碼單詞中的單個音節(jié);第二,能夠?qū)蓚€或多個音節(jié)合成一個單詞。因此,解碼雙音節(jié)或多音節(jié)單詞中的單個音節(jié),并合成兩個或多個音節(jié)的單詞,便是雙音節(jié)或多音節(jié)單詞語音識別的主要學(xué)習(xí)內(nèi)容。具體來說,兒童的訓(xùn)練可以從四種拼讀形式開始,即CVC,-y, le, r-controlled vowels。練習(xí)區(qū)分單詞的單個音節(jié),然后練習(xí)將兩個單音節(jié)合成讀出。例如,教師可以為學(xué)生提供pencil, happy, little, market, letter等詞,通過舉例講解音節(jié)的區(qū)分與合成,然后根據(jù)四種拼讀形式提供更多的雙音節(jié)或多音節(jié)單詞進(jìn)行變式練習(xí)。
接下來,引導(dǎo)學(xué)生區(qū)分開音節(jié)與閉音節(jié),從而應(yīng)對正確解碼雙音節(jié)或多音節(jié)單詞中元音字母的長、短兩種發(fā)音問題。開音節(jié)包括直接以元音字母結(jié)尾和以不發(fā)音字母“e”結(jié)尾兩種。教師須重新明確在這兩種情況下五個元音字母發(fā)字母音,如在paper(pa-per),baby(ba-by),hotel(ho-tel),return(re-turn),exercise(exer-cise),excuse (ex-cuse),conversation(con-ver-sa-tion)等單詞中。閉音節(jié)指以元音字母加一個或幾個輔音字母(r除外)結(jié)尾的重讀音節(jié),如basket(bas-ket),rabbit(rab-bit),lesson(les-son),dentist(den-tist),similar(si-mi-lar)等等。
(三)特殊單詞語音識別
在單詞語音識別過程中,教學(xué)內(nèi)容的安排要遵循由簡到難、由一般到特殊的順序。因此,在教授字母與字母音對應(yīng)及符合規(guī)律的單音節(jié)與多音節(jié)單詞識別后,或從符合規(guī)則的雙音節(jié)單詞解碼后便可以適當(dāng)引入一些特殊單詞的語音識別學(xué)習(xí)。例如,非重讀央元音/?/便是英語中最常出現(xiàn)的元音音素之一,如高頻詞about,another中的第一字母。因為該音素出現(xiàn)在非重讀音節(jié)中,其教學(xué)顯然不能出現(xiàn)在單詞識別的最早階段。
三、小學(xué)生單詞語音識別技能培養(yǎng)的方法
(一)兒童單詞語音識別技能培養(yǎng)方法使用的現(xiàn)狀
有學(xué)者認(rèn)為(程曉堂,2010),我國小學(xué)生學(xué)習(xí)英語單詞以整體認(rèn)讀為主,也有少數(shù)英語教師嘗試使用自然拼讀法拼讀單詞。筆者認(rèn)為,還有一些教師嘗試教授小學(xué)生國際音標(biāo),然后通過單詞對應(yīng)的國際音標(biāo)轉(zhuǎn)換讀出單詞。目前,這種形式經(jīng)常用于小學(xué)高年級或初一年段英語教學(xué)之中。然而,筆者認(rèn)為,根據(jù)記憶的整體認(rèn)讀法和國際音標(biāo)注音法均非最適合小學(xué)生單詞語音識別的方法,尤其是小學(xué)低年級學(xué)生。而英、美、澳等英語國家通過研究證明對幼兒園及小學(xué)生有效的單詞解碼方式為拼讀法教學(xué),有利于提升其閱讀能力。鑒于我國英語教學(xué)中拼讀法使用較少的現(xiàn)狀,拼讀法作為一種可選擇的方法,應(yīng)該在理論上加深探究,在實踐中更多嘗試與探索。
拼讀法教學(xué)旨在培養(yǎng)兒童英語閱讀能力,但小學(xué)生學(xué)習(xí)閱讀的首要任務(wù)是實現(xiàn)單詞的語音加工,從而通達(dá)詞匯,如此方可實現(xiàn)單詞形與義的語音轉(zhuǎn)錄。這樣,最基本的單詞閱讀方可發(fā)生。拼讀法就是以英語字母與其獨特的發(fā)音相匹配為基礎(chǔ)解碼單詞的。英語共有26個字母,對應(yīng)44個音,大致以70種最基本的拼寫形式存在。對于拼讀法來說,有綜合拼讀法(synthetic phonics approach)與分析拼讀法(analytic phonics approach)、直接拼讀法(explicit phonics approach)與間接拼讀法(implicit phonics approach)、系統(tǒng)拼讀法(systematic phonics approach)與附帶拼讀法(incidental phonics approach)之別,但其無非體現(xiàn)兩種不同的取向。一種認(rèn)為系統(tǒng)的、直接的、綜合的學(xué)習(xí)更有效,而另一種認(rèn)為間接的、偶發(fā)的、分析的學(xué)習(xí)更好。筆者認(rèn)為,對于外語學(xué)習(xí)者來說,系統(tǒng)的、直接的、綜合的學(xué)習(xí)是十分必要的,對于初學(xué)者更是必不可少。而對于復(fù)雜的和個例的單詞解碼可以在漸進(jìn)的學(xué)習(xí)中以間接的、偶發(fā)的、分析的方法持續(xù)教授。
(二)直接拼讀法在小學(xué)生單詞語音識別技能培養(yǎng)中的使用
系統(tǒng)拼讀法強(qiáng)調(diào)系統(tǒng)地設(shè)計與安排拼讀教學(xué)內(nèi)容,以直接法有序教學(xué)。而附帶拼讀法則相反,其要求教師不要遵循有序的拼讀內(nèi)容教學(xué),而是在文本中對偶遇的個別拼讀內(nèi)容進(jìn)行學(xué)習(xí)。綜合拼讀法指將單詞中字母或字母組合對應(yīng)的音讀出,然后再將它們整合起來讀出整個單詞。例如,在教授小學(xué)生解碼cat這個單詞時,教師指導(dǎo)學(xué)生將cat這個單詞區(qū)分出三個字母,即c,a,t,然后讓學(xué)生讀出三個字母的字母音/k, ?, t/,最后將這個三個字母音混合讀出形成單詞的讀音。分析拼讀法則不會孤立地讀出字母或字母組合的讀音。通常,要求學(xué)生分析一組含有共同音素的單詞。例如,教師引導(dǎo)學(xué)生討論cat, fat, sad三個單詞的相似之處,從而學(xué)生可以推論出三個詞共同含有字母a,對應(yīng)的讀音為/?/。通過上面例子不難發(fā)現(xiàn),就算學(xué)生可以發(fā)現(xiàn)三個單詞共同含有字母a,但在教師沒有教授或讀出字母a對應(yīng)的字母音/?/時,學(xué)生是無法提取預(yù)教的字母音的。由此可見,直接教授字母或字母組合與字母音的對應(yīng)是單詞語音識別不可逾越的前提。
直接拼讀法要求首先完成字母和字母音的一一對應(yīng),然后再將它們混合形成詞匯的語音解碼。直接法拼讀教學(xué)的關(guān)鍵環(huán)節(jié)是將孤立的字母或字母組合音混合并完成整個單詞的發(fā)音。間接拼讀法與分析拼讀法持有相同觀點,即不能孤立地教授字母與字母音的對應(yīng)。可笑的是,分析拼讀法恰恰假設(shè)學(xué)生已經(jīng)形成了字母與字母音的對應(yīng)。對于直接拼讀教學(xué)來說,口語詞匯的語音識別要基于準(zhǔn)確的孤立的單音,而對于教師和學(xué)生來說學(xué)得或習(xí)得標(biāo)準(zhǔn)的個別字母和字母組合音是十分必要的,否則不準(zhǔn)確的孤立音將成為聽覺詞匯解碼的阻礙。因此,在拼讀教學(xué)中教師要利用各種條件幫助學(xué)生獲得標(biāo)準(zhǔn)的或更加近似的音。
四、小學(xué)生單詞語音識別技能培養(yǎng)的具體建議
(一) 全面發(fā)展單詞識別技能,為兒童閱讀學(xué)習(xí)奠定堅實基礎(chǔ)
單詞識別能力既包含單詞語音識別技能,也包含單詞語義識別技能。因此,在小學(xué)生單詞識別技能教學(xué)時要將兩者結(jié)合起來,兩者不可偏廢。盡管英語單詞的解碼需要語音通達(dá)語義,但是在單詞語音解碼教學(xué)中可以始終以間接或直接的方式進(jìn)行單詞語義的滲透或?qū)W習(xí)。另外,值得一提的是初學(xué)者高頻詞匯的解碼也應(yīng)該在起始階段進(jìn)行學(xué)習(xí)。高頻詞匯的教學(xué)應(yīng)該分成兩組來分別對待,對于符合拼讀規(guī)律的單音節(jié)單詞應(yīng)該先學(xué)習(xí),而對于符合規(guī)律的多音節(jié)和特殊的高頻詞可以隨著學(xué)生單詞識別技能的提升而漸進(jìn)地學(xué)習(xí)。高頻詞的解碼與熟練認(rèn)讀是小學(xué)生能夠流利閱讀的重要條件。
單詞識別技能不僅有利于兒童詞匯學(xué)習(xí),更重要的是單詞識別與解碼技能是小學(xué)生閱讀學(xué)習(xí)的主要策略(Aaron,1999:221-244)。在英語早期閱讀教學(xué)中拼讀法備受親賴的一個重要原因是:它是作為培養(yǎng)初學(xué)者英語閱讀的一種重要方法。而拼讀教學(xué)的立身的根本便是,形成字母形音對應(yīng),從而實現(xiàn)單詞的解碼,進(jìn)而提升與改善學(xué)生的閱讀學(xué)習(xí)。盡管拼讀法在英語作為母語的教學(xué)中經(jīng)歷了曲折的發(fā)展,但21世紀(jì)伊始它的價值被重新準(zhǔn)確定位。由此可見,在進(jìn)行單詞識別技能培養(yǎng)中要始終以促進(jìn)學(xué)生閱讀學(xué)習(xí)為最終目的,也就是說,除了關(guān)注單詞識別技能本身的發(fā)展外,還要兼顧有利于閱讀學(xué)習(xí)發(fā)展的其他因素,如語音意識、閱讀理解、流利度等。
(二)整合課內(nèi)外資源,合理安排英語課程與教學(xué)
篇6
飛康CDP成功救災(zāi)基金公司業(yè)務(wù)系統(tǒng)
日前,國內(nèi)某基金公司的IT管理人員發(fā)現(xiàn),由于前一天的誤操作,導(dǎo)致其清算系統(tǒng)已經(jīng)全面故障,嚴(yán)重地影響到了當(dāng)天下午的清算業(yè)務(wù)。清算系統(tǒng)是這家基金公司生產(chǎn)系統(tǒng)中最為核心的系統(tǒng)之一,發(fā)生故障將直接影響到前臺的業(yè)務(wù)交易正常運行。因此,IT管理人員決定啟用CDP災(zāi)備系統(tǒng),將系統(tǒng)恢復(fù)到誤操作前的最近時間點,以最快的速度恢復(fù)系統(tǒng)正常運行。在飛康技術(shù)人員的協(xié)助下,該公司利用飛康CDP的全回滾和生產(chǎn)磁盤增量同步技術(shù),在1小時內(nèi)就將出現(xiàn)故障的清算系統(tǒng)全面恢復(fù)了正常運行,避免了不可估計的業(yè)務(wù)、資產(chǎn)及名譽損失。
博科降低虛擬化IT環(huán)境中的網(wǎng)絡(luò)復(fù)雜性
日前,博科公司宣布推出Brocade ServerIron ADX 4000系列擴(kuò)展產(chǎn)品,其中包括高性價比的入門級機(jī)箱解決方案ServerIron ADX 4000 ASM-4捆綁包,能夠提供業(yè)界領(lǐng)先的4~7層交換功能,以幫助客戶實現(xiàn)按需、自動化數(shù)據(jù)中心計算的承諾。專為中型市場企業(yè)環(huán)境而設(shè)計的ASM-4捆綁包使客戶能夠體驗?zāi)K化平臺的靈活性和可擴(kuò)展性優(yōu)勢。ASM-4模塊可以通過許可證激活的方式按需擴(kuò)展,使客戶能夠采用“按需付費”的投資方式,在不增加硬件或從網(wǎng)絡(luò)移除交換機(jī)的情況下,使吞吐量翻一番,構(gòu)建面向未來的負(fù)載均衡網(wǎng)絡(luò)。
篇7
關(guān)鍵詞 語音識別;硬件系統(tǒng);硬件模塊;系統(tǒng)設(shè)計
中圖分類號TP242 文獻(xiàn)標(biāo)識碼A 文章編號 1674-6708(2011)38-0202-01
1 語音智能識別原理概述
語音識別是建立在對人類語言的交互與判斷上的,這是一種多維度的識別過程,一般可以分為兩個階段,即信息匯集和識別。具體的識別過程包括了語音信號的前期處理、語音特征提取、建立語音模型庫、進(jìn)行模型的匹配、后期處理等主要的環(huán)節(jié)。機(jī)器人的語音識別實際上一種仿生式的模式,即將語音轉(zhuǎn)化為一直可以對別的語音特征,然后與儲存的信息進(jìn)行對比,并形成對其含義的判斷,人類對語音的含義的判斷也是這樣的過程,只不過人類使用的是大腦而機(jī)器人利用的是數(shù)據(jù)庫和芯片,目前占有主導(dǎo)地位的語音識別技術(shù)的技術(shù)基礎(chǔ)是統(tǒng)計模式的識別理論。
2 機(jī)器人語音識別系統(tǒng)的硬件設(shè)計
2.1 硬件系統(tǒng)的整體構(gòu)成
語音識別的硬件系統(tǒng)中體的構(gòu)成應(yīng)當(dāng)為了兩個大系統(tǒng)構(gòu)成,即發(fā)射端和接收端,即利用主要的芯片系統(tǒng)來接收語音信號,并進(jìn)行計算和識別,然后利用信號輸出端口將形成的指令傳輸給接收端的執(zhí)行系統(tǒng),并以此控制機(jī)器人的各個電機(jī)和肢體部件,來完成整個語音指令的執(zhí)行。在這個系統(tǒng)中主要的硬件系統(tǒng)有:微處理器、音頻模塊、電機(jī)驅(qū)動模塊、避障系統(tǒng)、機(jī)器人系統(tǒng)、電源控制模塊。具體的系統(tǒng)構(gòu)成如圖1。
2.2 硬件系統(tǒng)的設(shè)計
在具有語音識別功能的機(jī)器人硬件系設(shè)計中應(yīng)當(dāng)對前面提到的各種功能模塊進(jìn)行單獨的設(shè)計和實現(xiàn),然后利用線路和端口將整個系統(tǒng)連接起來,這樣就實現(xiàn)了機(jī)器人硬件系統(tǒng)的搭建。
1)電子芯片(微處理器)。在這里應(yīng)用的是SPCE061A單機(jī)芯片。這種語音識別的專業(yè)芯片來構(gòu)建機(jī)器人的語音識別和控制系統(tǒng)可以實現(xiàn)機(jī)器人的自動運行。這種語音系統(tǒng)的硬件基礎(chǔ)就是SPCE061A控制器為核心的語音識別平臺。這種SPCE061A是一種具有語音特色的16位控制器,采用的是模塊化的結(jié)構(gòu),內(nèi)部集成了在線仿真處理器,閃存、靜態(tài)內(nèi)存、通用的端口、定時和計數(shù)器、中斷控制器、通道轉(zhuǎn)換器、電壓監(jiān)控等模塊。另外其數(shù)據(jù)處理核心能夠為其提供較高的處理速度,這樣就可使其完成16位的運算、DSP內(nèi)積率波運算、復(fù)雜數(shù)字型號處理,但同時不需要進(jìn)行額外接入專用的語音控制芯片輔助其進(jìn)行語音的編碼和解碼。因此可以單獨完成語音識別和控制,具有體積小、擴(kuò)展能力強(qiáng)、集成度高、性能可靠、中斷處理功能完備,價格低廉等,即節(jié)省了成本也降低了設(shè)計難度。因此,微處理模塊采用了這種單機(jī)芯片,并以此為核心開展硬件設(shè)計;
2)音頻處理模塊。音頻處理模塊的構(gòu)成是麥克風(fēng)輸入電路和音頻輸出電路組成。其中麥克風(fēng)音頻采集電路采用的是MICP和MICN,這種設(shè)計可以通過MIC形成的波形變化在兩個端口位置形成相反的波形,通過兩級放大電路的處理,將放大的語音信號傳輸給ADC進(jìn)行數(shù)字處理。這個數(shù)字信號也就是語音訓(xùn)練和進(jìn)行識別的語音輸入源,音頻輸出模塊對識別后的結(jié)果節(jié)能型輸出,采用的是SPY0030音頻放大電路,同時播放提示語音,以便于實現(xiàn)智能化的語音控制,以此完成了人與機(jī)器人的交互訓(xùn)練;
3)電機(jī)驅(qū)動系統(tǒng)。在一般的設(shè)計中多采用ULN2803集成放大矩陣模塊來完成對電動機(jī)的驅(qū)動,這樣可以實現(xiàn)對機(jī)器人內(nèi)部多個電機(jī)的正向和反向運行。這個模塊有高度集成、簡單可靠等優(yōu)勢,為了實現(xiàn)避障功能的實現(xiàn)提供了較好的硬件基礎(chǔ)和很好的驅(qū)動能力。因為機(jī)器人使用的電機(jī)都需要實現(xiàn)正反向運行,并且使用的電機(jī)數(shù)量較多,因此需要一個穩(wěn)定而功能強(qiáng)大的電機(jī)驅(qū)動模塊。同時也必須可以與微處理芯片和其他系統(tǒng)進(jìn)行良好的配合;
4)紅外線避障控制模塊。利用紅外線原理構(gòu)建的紅外線避障模塊具有紅外線發(fā)射和接收二極管為核心,發(fā)射管所產(chǎn)生的定頻紅外線信號,接收二極管則負(fù)責(zé)接收這一頻率的信號。當(dāng)紅外線信號基礎(chǔ)到前面遇到障礙的時候,紅外線所形成的反射信號就被接收管接收,并進(jìn)行處理,然后通過數(shù)字傳感器將信號傳輸?shù)娇刂浦鳈C(jī),然后由主機(jī)進(jìn)行判斷并動作。目前設(shè)計中的紅外線避障模塊多采用多為HARP所生產(chǎn)的紅外線傳感器GP2D12,這種設(shè)備的控制范圍是10cm~80cm,設(shè)備的接口為標(biāo)準(zhǔn)的三線口,適用于智能化機(jī)器人;
5)系統(tǒng)電源模塊。在以SPCE061A芯片為核心的語音控制系統(tǒng)其電壓的要求為3.3V,而I/O端口的電壓則在3.3V~5.0V之間。因此在控制板上將出現(xiàn)兩種電壓,即5.0V和3.3V。系統(tǒng)可以采用3節(jié)電池來進(jìn)行供電,4.5V的直流電源可以通過穩(wěn)壓裝置降低到3.3V,為整個系統(tǒng)提供4.5V和3.3V的工作電壓。
3 結(jié)論
機(jī)器人的語音識別功能需要最佳的硬件組合才能夠?qū)崿F(xiàn)較好的控制效果,其中單機(jī)芯片是其控制的核心,因此選擇SPCE061A這樣比較成熟的芯片來作為語音識別硬件系統(tǒng)的核心是有著明顯優(yōu)勢的。同時配合其他硬件模塊的合理選擇就可以實現(xiàn)較理想的控制效果。
參考文獻(xiàn)
篇8
關(guān)鍵詞:Mel頻率倒譜系數(shù);支持向量機(jī);語音識別;特征提取
中圖分類號:TP399 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2012)003-0153-02
作者簡介:李玲俐(1977-),女,湖北洪湖人,碩士,廣東司法警官職業(yè)學(xué)院講師,研究方向為數(shù)據(jù)挖掘與模式識別。
0 引言
語音識別是一種模式識別,就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)3個方面。目前一些語音識別系統(tǒng)的適應(yīng)性比較差,主要體現(xiàn)在對環(huán)境依賴性強(qiáng),因此要提高系統(tǒng)魯棒性和自適應(yīng)能力。支持向量機(jī)(Support Vector Machine,SVM)是基于統(tǒng)計學(xué)理論發(fā)展起來的新的機(jī)器學(xué)習(xí)方法,采用將數(shù)據(jù)從低維空間映射到高維空間的思想,由支持向量來決定最優(yōu)分割線,SVM先自動找出對分類有較好區(qū)分能力的支持矢量,然后構(gòu)造出分類器來最大化類與類的間隔,因此有較好的適應(yīng)能力和較高的分準(zhǔn)率。
本文在現(xiàn)有語音識別技術(shù)基礎(chǔ)上,提出一種MFCC(Mel Frequency Cepstrum Coefficients,Mel頻率倒譜系數(shù))+SVM的語音識別方法,實現(xiàn)對幾種英文單詞的分類。實驗結(jié)果表明,該識別方法具有較高的準(zhǔn)確率。
1 語音識別系統(tǒng)
語音識別過程一般分為3個階段:信號處理、特征提取和模式識別,如圖1所示。
1.1 MFCC特征提取
特征提取是數(shù)據(jù)挖掘和模式識別中的一個重要步驟。其目的是從原有特征數(shù)據(jù)中提取出與特定任務(wù),如分類、壓縮、識別等密切相關(guān)的新特征(或特征子集),以有效地完成特定任務(wù)或進(jìn)一步減少計算量。
研究者通常使用經(jīng)典的特征提取技術(shù),如MFCC、連續(xù)小波變換(Continuous Wavelet Transform,CWT)和短時傅里葉變換(Short-Time Fourier Transform,STFT)來提取語音片段的特征。Mel頻率是基于人耳聽覺特性提出來的,它與Hz頻率成非線性對應(yīng)關(guān)系。MFCC則是利用它們之間的這種關(guān)系,計算得到的Hz頻譜特征。由于MFCC具有良好的識別性能和抗噪能力,在語音識別中得到廣泛的使用,而且研究人員仍在對MFCC的各種參數(shù)進(jìn)行實驗和調(diào)整,并通過同其它模型的協(xié)同工作來找出提高識別率的方法。
MFCC參數(shù)的提取包括以下幾個步驟(如圖2所示):
(1)預(yù)加重。通過一個一階有限激勵響應(yīng)高通濾波器,使信號的頻譜變得平坦,不易受到有限字長效應(yīng)的影響。
(2)分幀。根據(jù)語音的短時平穩(wěn)特性,語音可以以幀為單位進(jìn)行處理。n為每一幀語音采樣序列的點數(shù),本系統(tǒng)取n=256。
(3)加窗。為了減小語音幀的截斷效應(yīng),降低幀兩端的坡度,使語音幀的兩端不引起急劇變化而平滑過渡,需要讓語音幀乘以一個窗函數(shù)。目前常用的窗函數(shù)是Hamming窗。
(4)對每幀序列s(n)進(jìn)行預(yù)加重、分幀加窗后,然后經(jīng)過離散FFT變換,將s(n)取模的平方得到離散功率譜S(n)。
(5)計算S(n)通過M個濾波器Hm(n)后所得的功率譜,即計算S(n)和Hm(n)在各離散頻率點上的乘積之和,得到M個參數(shù)Pm,m=0,1,…,M-1。
(6)計算Pm的自然對數(shù),得到Lm,m=0,1,…,M-1。
(7)對L0,L1,…,Lm-1計算其離散余弦變換,得到Dm,m=0,1,…,M-1。
(8)舍去代表直流成分的L0,L1,…,Lm-1,取L0,L1,…,Lm-1作為MFCC參數(shù)。
1.2 SVM分類器設(shè)計
在線性可分的情況下,SVM構(gòu)造一個超平面H,設(shè)線性可分樣本集為(xi,yi),i=1,2,…,n,U∈{+1,-1} 是類別標(biāo)號。所有在這個超平面上的點x滿足:
w?x+b=0
其中:w為權(quán)重向量,b為分類閾值。根據(jù)結(jié)構(gòu)風(fēng)險最小化原則,在保證分類間隔最大,即尋找最優(yōu)分類面的條件下,w和b必須滿足如下條件:
yi[(w?xi)+b]≥1
xi為訓(xùn)練樣本,在此約束下,求解最優(yōu)超平面問題可以轉(zhuǎn)換為求函數(shù):Φ(w)=12w2=12(w?w)的最小值。最優(yōu)問題的解由Lagrange函數(shù)的極值點給出:
L(w,b,α)=12w2-∑li=1αi{yi[(w?xi)+b]-1}
αi為Lagrange乘子,對w和b求偏導(dǎo),并令所求式為零,求得:
∑li=1yiαi=0
對于線性不可分的情況,可以通過非線性變換轉(zhuǎn)化為某個高維空間中的線性問題。即將SVM中的內(nèi)積x?y由核函數(shù)K(x,y)所取代。常用的核函數(shù)有:
(1)多項式核函數(shù)K(x,xi)=[(x?xi)+b]d,其中d是多項式的階數(shù)。
(2)Gauss核函數(shù)K(x,xi)=exp-x-xiσ2 ,其中σ是Gauss函數(shù)的寬度。
(3)Sigmoid核函數(shù)K(x,xi)=tanh[v(x,xi)+c],其中v和c是尺度和偏置參數(shù)。
由經(jīng)驗觀察可知,Gauss核函數(shù)比其它兩種核函數(shù)優(yōu)越,所以本文選用Gauss核函數(shù),對于給定的核函數(shù)。最優(yōu)分類函數(shù)為:
yi=sgn∑xi∈wiyik(xi,xj)+
2 實驗設(shè)置及結(jié)果分析
本實驗使用的語音信號采用Windows自帶的錄音軟件錄制,錄音背景為普通環(huán)境,錄制的語音以Wave 格式保存,采樣頻率為8KHz,16bit量化,單聲道。對10(5男5女)個人進(jìn)行錄音,語音樣本分別為6個單詞,并且每個人每個詞發(fā)音9遍,得到540個采樣數(shù)據(jù)。隨機(jī)抽取2/3的采樣作為訓(xùn)練樣本集,1/3作為測試樣本集。
由上述語音識別系統(tǒng)得到每一種語音的正確分類的樣本數(shù),并采用
識別準(zhǔn)確率=正確識別的樣本數(shù)樣本總數(shù)×100%
得到表1所示的識別結(jié)果,包括每種待識別單詞以及總計得到的正確識別數(shù)和識別準(zhǔn)確率。
3 結(jié)束語
本文提出了一種采用MFCC特征提取參數(shù),以SVM作為分類器識別幾種容易混淆的單詞的方法,結(jié)果表明,該語音識別方法具有結(jié)構(gòu)簡單、高識別精度的特點,可以在語音識別系統(tǒng)中得到實際應(yīng)用。當(dāng)然,今后的工作中還要考慮將SVM理論和其它分類方法結(jié)合起來,如SVM和隱馬爾可夫模型(HMM)相結(jié)合、將多類SVM等綜合方法應(yīng)用于更多的語音識別領(lǐng)域。
參考文獻(xiàn):
\[1\] VAPNIK V. The nature of statistical learning theory\[M\].New York:Springer-Verlag,1995.
\[2\] 陳剛,陳莘萌.一種考慮類別信息的音頻特征提取方法\[J\].計算機(jī)研究與發(fā)展,2006(11).
篇9
關(guān)鍵詞:動態(tài)時間歸整算法;隱馬爾可夫算法;語音識別
中圖分類號:TN912.34 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2012) 11-0000-02
隨著人們對人機(jī)交流技術(shù)的要求越來越高,語音識別技術(shù)應(yīng)運而生。語音識別是將語音信號轉(zhuǎn)換成相應(yīng)文本的高技術(shù),是一種重要的人機(jī)交互技術(shù)[1]。在近二十年,越來越多高水平的研究機(jī)構(gòu)和企業(yè)加入到語音識別的研究領(lǐng)域,并開始向市場上提品。其中具有代表性的產(chǎn)品有微軟的Whisper系統(tǒng),Google的Word Search系統(tǒng),蘋果的Siri系統(tǒng)等。
語音識別最重要的性能指標(biāo)就是識別率,而識別率十分依賴特征參數(shù)的訓(xùn)練和識別模型。常用的模式匹配和模型訓(xùn)練技術(shù)主要有動態(tài)時間歸整算法和隱馬爾可夫算法。文中就這兩種算法特點進(jìn)行了分析和改進(jìn),對基于改進(jìn)后的算法建立的語音識別系統(tǒng)進(jìn)行了性能評估和對比。
一、語音識別算法
(一)動態(tài)時間歸整算法
發(fā)音具有隨機(jī)性,同一個人在不同時間,不同場合對同一個字的發(fā)音長度都不是完全一樣的。在語音識別的模版匹配中,這些長度不一的發(fā)音將降低系統(tǒng)的識別率。為了解決這一問題,我們引入動態(tài)時間歸整算法(Dynamic Time Warping,DTW)。在語音識別中,DTW算法是較早出現(xiàn),較為經(jīng)典的算法,它是基于動態(tài)規(guī)劃(DP)的[2]。
提取參考語音信號的特征參數(shù)存入特征模板庫建立參考模板,提取待識別語音號的特征參數(shù)建立測試模板。DTW算法就是計算參考模板和測試模板各幀矢量之間的距離之和,總距離越小說明相似度越高,最后選取最小的總距離作為匹配結(jié)果。
這種識別算法雖然較為簡單、有效,但是計算量大,存儲空間占用多,響應(yīng)時間長。因此,文中對該算法進(jìn)行改進(jìn),以避免以上缺點。
改進(jìn)后的DTW算法將歸整函數(shù)限制在一個平行四邊形中(其中兩條邊的斜率為1/2,另外兩條邊的斜率為2)。在計算總距離時只需計算平行四邊形之內(nèi)各交點的匹配距離和累積距離,這樣減少了計算量,提高了系統(tǒng)的反應(yīng)速度,節(jié)省了存儲空間。
(二)隱馬爾可夫算法
隱馬爾可夫模型是在馬爾可夫鏈基礎(chǔ)上發(fā)展起來的一種語音信號統(tǒng)計模型,自從用來描述語音信號后,該模型迅速發(fā)展,使得HMM理論逐漸成為語音研究中的熱點,語音識別的主流技術(shù)。
隱馬爾可夫模型HMM是一個雙重隨機(jī)過程,一重是可直接觀測的馬爾可夫鏈,用于描述狀態(tài)的轉(zhuǎn)移;另一重是隱含在觀察序列中的隨機(jī)過程,用于描述狀態(tài)和觀察值之間的統(tǒng)計對應(yīng)關(guān)系。
將HMM用于語音識別系統(tǒng)前,必須解決三個基本問題[3]:
1.模型評估
已知一個觀察序列和一個HMM模型,如何計算由此模型產(chǎn)生此觀察符號序列的輸出概率。
2.最優(yōu)狀態(tài)序列搜索
已知一個觀察序列和一個HMM模型,如何確定一個最佳狀態(tài)序列,使之產(chǎn)生的觀察序列的概率最大。
3.模型訓(xùn)練
已知一個觀察序列和一個HMM模型,如何根據(jù)觀察序列來確定模型的參數(shù)。
針對以上三個問題,可分別用前向-后向算法,Viterbi算法和Baum-Welch算法改進(jìn),改進(jìn)后的HMM算法較傳統(tǒng)算法在識別率方面有了明顯的提高。
(三)算法比較
基于模版匹配技術(shù)的DTW算法和基于隨機(jī)過程理論的HMM算法是比較有代表性的孤立詞識別算法。DTW算法應(yīng)用動態(tài)規(guī)劃的方法解決了語音信號特征參數(shù)序列時間對準(zhǔn)問題,克服了語速的差異。DTW算法適用于訓(xùn)練樣本較少的情況下,訓(xùn)練過程簡單,識別過程較復(fù)雜,多用于特定人孤立詞語音識別系統(tǒng)。
HMM算法HMM運用狀態(tài)序列描述觀測向量的時間邏輯,通過多變量混合高斯分布表現(xiàn)觀測向量序列的空間分布[4]。為了獲得高識別率,HMM算法需要大量的訓(xùn)練樣本和存儲量,訓(xùn)練過程要耗費較多時間,識別過程較簡單,多用于連續(xù)大詞匯量語音識別系統(tǒng)。
二、系統(tǒng)設(shè)計實現(xiàn)
語音識別系統(tǒng)由預(yù)處理、特征提取、模型庫和模式匹配等四個基本單元構(gòu)成。系統(tǒng)的基本結(jié)構(gòu)如圖1所示:
(一)預(yù)處理
通過話筒將語音信號變成電信號輸入到語音識別系統(tǒng)中。首先對信號進(jìn)行一系列的預(yù)處理,包括采樣、量化、加窗、端點檢測、預(yù)加重等。
采樣和量化就是將離散信號分別在時間上和幅度上轉(zhuǎn)化成離散形式。為了濾除低頻干擾,提升信號高頻部分,對信號進(jìn)行預(yù)加重處理。由于系統(tǒng)對信號的處理都是以短時為前提的,這就要將信號分割成許多語音段,即對語音信號分幀、加窗處理。原始語音信號往往包含無音段和有音段,端點檢測就是運用數(shù)字處理技術(shù)來判斷各語音段的起點和終點,從而找到有用的語音成分。文中使用基于短時能量和短時平均過零率的檢測方法判定語音信號的起始點和終止點,即雙門限比較法。
(二)提取特征參數(shù)
經(jīng)過預(yù)處理的語音信號中并不是所有信息都是有用的,這就需要將語音信號經(jīng)過一次變換,去掉冗余部分,提取代表語音本質(zhì)的特征參數(shù)。文中采用近年來運用比較廣泛的Mel頻率倒譜參數(shù),先將頻譜轉(zhuǎn)變?yōu)槊罓栴l標(biāo)的非線性頻譜,接著再轉(zhuǎn)換到倒譜域上[6]。MFCC參數(shù)充分考慮了人耳的聽覺特性,有很高的穩(wěn)健性和抗噪性能。
(三)模式匹配算法
篇10
關(guān)鍵詞:英語口語;語音識別;英文朗讀;評分機(jī)制
語音識別技術(shù)使人與機(jī)器的交流成為現(xiàn)實,它開創(chuàng)了口語移動學(xué)習(xí)的全新教育方式,受到越來越多的關(guān)注。借助互聯(lián)網(wǎng),移動學(xué)習(xí)以其學(xué)習(xí)時間靈活,學(xué)習(xí)內(nèi)容豐富、精煉且片段化等特點,開辟了學(xué)習(xí)的新理念,讓口語學(xué)習(xí)真正擺脫了時間和空間的限制,使任何人在任何時間、任何地點根據(jù)需要進(jìn)行自主學(xué)習(xí)成為可能。目前,已有的基于PC的智能英語學(xué)習(xí)軟件,能提供基于計算機(jī)的輔助技術(shù),讓學(xué)習(xí)者及時得到發(fā)音質(zhì)量評分的智能化功能,但是基于手機(jī)端的口語學(xué)習(xí)應(yīng)用不多。
本終端是一款基于Android系統(tǒng)開發(fā)的,進(jìn)行英語口語學(xué)習(xí)的安卓語音軟件。產(chǎn)品結(jié)合Google語音識別技術(shù),使用GPRS或WiFi進(jìn)行移動終端與Google云服務(wù)端之間的數(shù)據(jù)交流,并通過對語音識別結(jié)果的處理,最終設(shè)計成一個可以進(jìn)行英語口語專線訓(xùn)練和自主訓(xùn)練的應(yīng)用Oral Storm。
1 研究基礎(chǔ)
Android平臺自底層向上由四個層次組成:Linux內(nèi)核層、Android運行時庫與其他庫層、應(yīng)用框架層、應(yīng)用程序?qū)印K捎密浖褜樱╯oftware stack),又名軟件疊層的構(gòu)架,主要分為3部分:底層以Linux內(nèi)核工作為基礎(chǔ),由C語言開發(fā),只提供基本功能;中間層包括函數(shù)庫Library和虛擬機(jī)(virtual machine),用C++開發(fā),最上層是各種應(yīng)用軟件。
2 應(yīng)用架構(gòu)及功能說明
專項訓(xùn)練模塊主要是對英語口語比較重要的四個發(fā)音類別進(jìn)行系統(tǒng)訓(xùn)練,這4個發(fā)音類別分別是清輔音、濁輔音、摩擦音和爆破音。在進(jìn)入訓(xùn)練界面之前,有對各類發(fā)音方法和技巧的介紹,利于用戶方便快速地學(xué)習(xí)口語的正確發(fā)音。我們將每種發(fā)音訓(xùn)練模式中的單詞都分成10個小組,這些單詞都是由學(xué)校專業(yè)英語教師挑選的有代表性的詞,適合用于英語口語基礎(chǔ)訓(xùn)練。用戶在進(jìn)行完每個小組的單詞訓(xùn)練后,系統(tǒng)都會對用戶的發(fā)音作出評價和打分,對經(jīng)常出現(xiàn)發(fā)音錯誤的單詞,用戶可以選擇保存,用于以后專門的訓(xùn)練。
自主學(xué)習(xí)模塊是用戶根據(jù)自身實際需求進(jìn)行訓(xùn)練的板塊。用戶先輸入想要訓(xùn)練的單詞或語句,如果不知道如何發(fā)音,可以求助于應(yīng)用中的英文朗讀功能。英文朗讀功能是將文本轉(zhuǎn)換成語音信號,幫助用戶輕松方便地學(xué)習(xí)每一個英語發(fā)音。用戶還可以選擇性地保存輸入的學(xué)習(xí)內(nèi)容,方便以后復(fù)習(xí)使用。
總之,專項訓(xùn)練模塊針對學(xué)生英語學(xué)習(xí)中的四大類發(fā)音難題設(shè)計,通過專題式的學(xué)習(xí)、測試和智能評分,給用戶提供隨身的英語單詞學(xué)習(xí)和測試環(huán)境;自主訓(xùn)練模塊則專注于為用戶提供可定制的英語單詞學(xué)習(xí)專題,通過學(xué)習(xí)內(nèi)容的自定義給用戶最大限度的學(xué)習(xí)自由度。
3 研究技術(shù)
應(yīng)用功能的實現(xiàn)主要使用了兩大技術(shù),獲取語音識別技術(shù)和語音合成技術(shù)。
3.1 獲取語音識別技術(shù)
單詞發(fā)音練習(xí)需要使用Google語音搜索服務(wù),因此必須判斷當(dāng)前用戶手機(jī)是否支持該服務(wù),所采用的方法是通過queryIntentActivities()方法,查詢Android系統(tǒng)所有具備RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的應(yīng)用程序,點擊后能啟動該應(yīng)用。
在Android語音識別應(yīng)用研究與開發(fā)的同時,Google語音服務(wù)需要網(wǎng)絡(luò)支持,所以也需要判斷當(dāng)前用戶的網(wǎng)絡(luò)連接狀況,在類中寫一方法check--NetWorkStatus()引用ConnectivityManager cwjManager來判斷網(wǎng)絡(luò)是否連接正常。
3.2 語音合成技術(shù)
語音合成技術(shù),是一種將文本轉(zhuǎn)換為語音輸出的技術(shù),其主要工作是將文本按字或詞分解為音素,然后將音素生成的數(shù)字音頻用揚聲器播放或者保存為聲音文件,然后通過多媒體軟件播放。
Android手機(jī)平臺,綁定了英文語音引擎,對英文語音提供內(nèi)置的支持。要將文本轉(zhuǎn)換為語音,首先要檢查TTS數(shù)據(jù)可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回結(jié)果為真,表明TTSEngine可以使用。除此之外,還有語音數(shù)據(jù)損壞和缺少發(fā)音數(shù)據(jù)等原因?qū)е耇TSEngine不能使用,這些因素都要考慮。之后是初始化TTS接口,這部分要設(shè)置發(fā)音語言引擎setLanguage(Locale.US)、發(fā)音音量Len(Volume)等。在這個過程中,還需要檢測設(shè)置的發(fā)音語言類型是否可用。
4 結(jié)束語
我們開發(fā)的口語學(xué)習(xí)軟件Oral Storm,可為訓(xùn)練單詞發(fā)音提供專業(yè)、智能及終端化的一體化學(xué)習(xí)和測試環(huán)境,專題分類科學(xué)、全面,涵蓋了爆破音、摩擦音等發(fā)音難點,可在專題學(xué)習(xí)后提供智能評分和語音糾正。用戶使用這款應(yīng)用,可以方便快速地學(xué)習(xí)英語口語的正確發(fā)音。
參考文獻(xiàn)
[1] 邢銘生,朱浩,王宏斌.語音識別技術(shù)綜述[J].科協(xié)論壇:下半月,2010(3):62-63.
[2] 詹青龍,張靜然,邵銀娟.移動學(xué)習(xí)的理論研究和實踐探索[J].中國電化教育,2010(3):1-7.
[3] 周麗嫻,梁昌銀,沈澤.Android語音識別應(yīng)用的研究與開發(fā)[J].廣東通信技術(shù),2013,33(4):15-18.
[4] 涂惠燕,陳一寧.基于語音識別和手機(jī)平臺的英語口語發(fā)音學(xué)習(xí)系統(tǒng)[J].計算機(jī)應(yīng)用與軟件,2011,28(9):64-66.
熱門標(biāo)簽
語音識別技術(shù) 語音 語音實訓(xùn)總結(jié) 語音教學(xué) 語音室 心理培訓(xùn) 人文科學(xué)概論