取距離近的樣本所對應的詞標注為該語音信號的發音。該方法對解決孤立詞識別是有效的,但對于大詞匯量、非特定人連續語音識別就無能為力。因此,進入80年代后,研究思路發生了重大變化,從傳統的基于模板匹配的技術思路開始轉向基于統計模型(HMM)的技術思路。HMM的理論基礎在1970年前后就已經由Baum等人建立起來,隨后由CMU的Baker和IBM的Jelinek等人將其應用到語音識別當中。HMM模型假定一個音素含有3到5個狀態,同一狀態的發音相對穩定,不同狀態間是可以按照一定概率進行跳轉;某一狀態的特征分布可以用概率模型來描述,使用的模型是GMM。因此GMM-HMM框架中,HMM描述的是語音的短時平穩的動態性,GMM用來描述HMM每一狀態內部的發音特征。基于GMM-HMM框架,研究者提出各種改進方法,如結合上下文信息的動態貝葉斯方法、區分性訓練方法、自適應訓練方法、HMM/NN混合模型方法等。這些方法都對語音識別研究產生了深遠影響,并為下一代語音識別技術的產生做好了準備。自上世紀90年代語音識別聲學模型的區分性訓練準則和模型自適應方法被提出以后,在很長一段內語音識別的發展比較緩慢,語音識別錯誤率那條線一直沒有明顯下降。DNN-HMM時代2006年。它融合了語言學、計算機科學和電氣工程領域的知識和研究。山東語音識別設置
共振峰的位置、帶寬和幅度決定元音音色,改變聲道形狀可改變共振峰,改變音色。語音可分為濁音和清音,其中濁音是由聲帶振動并激勵聲道而得到的語音,清音是由氣流高速沖過某處收縮的聲道所產生的語音。語音的產生過程可進一步抽象成如圖1-2所示的激勵模型,包含激勵源和聲道部分。在激勵源部分,沖擊序列發生器以基音周期產生周期性信號,經過聲帶振動,相當于經過聲門波模型,肺部氣流大小相當于振幅;隨機噪聲發生器產生非周期信號。聲道模型模擬口腔、鼻腔等聲道qi官,后產生語音信號。我們要發濁音時,聲帶振動形成準周期的沖擊序列。發清音時,聲帶松弛,相當于發出一個隨機噪聲。圖1-2產生語音的激勵模型,人耳是聲音的感知qi官,分為外耳、中耳和內耳三部分。外耳的作用包括聲源的定位和聲音的放大。外耳包含耳翼和外耳道,耳翼的作用是保護耳孔,并具有定向作用。外耳道同其他管道一樣也有共振頻率,大約是3400Hz。鼓膜位于外耳道內端,聲音的振動通過鼓膜傳到內耳。中耳由三塊聽小骨組成,作用包括放大聲壓和保護內耳。中耳通過咽鼓管與鼻腔相通,其作用是調節中耳壓力。內耳的耳蝸實現聲振動到神經沖動的轉換,并傳遞到大腦。深圳自主可控語音識別內容一個眾所周知的應用是自動語音識別,以應對不同的說話速度。
亞馬遜的Echo音箱剛開始推出的兩三年,國內的智能音箱市場還不溫不火,不為消費者所接受,因此銷量非常有限。但自2017年以來,智能家居逐漸普及,音箱市場開始火熱,為搶占語音入口,阿里巴巴、百度、小米、華為等大公司紛紛推出了各自的智能音箱。據Canalys報告,2019年第1季度中國市場智能音箱出貨量全球占比51%,超過美國,成為全球*大的智能音箱市場。據奧維云網(AVC)數據顯示,2019年上半年中國智能音箱市場銷量為1556萬臺,同比增長233%。隨著語音市場的擴大,國內涌現出一批具有強大競爭力的語音公司和研究團隊,包括云知聲、思必馳、出門問問、聲智科技、北科瑞聲、天聰智能等。他們推出的語音產品和解決方案主要針對特定場景,如車載導航、智能家居、醫院的病歷輸入、智能客服、會議系統、證券柜臺業務等,因為采用深度定制,識別效果和產品體驗更佳。在市場上獲得了不錯的反響。針對智能硬件的離線識別,云知聲和思必馳等公司還研發出專門的語音芯片,進一步降低功耗,提高產品的性價比。在國內語音應用突飛猛進的同時,各大公司和研究團隊紛紛在國際學術會議和期刊上發表研究成果。2015年,張仕良等人提出了前饋型序列記憶網絡。
即識別準確率為,相較于2013年的準確率提升了接近20個百分點。這種水平的準確率已經接近正常人類。2016年10月18日,微軟語音團隊在Switchboard語音識別測試中打破了自己的好成績,將詞錯誤率降低至。次年,微軟語音團隊研究人員通過改進語音識別系統中基于神經網絡的聲學模型和語言模型,在之前的基礎上引入了CNN-BLSTM(ConvolutionalNeuralNetworkCombinedwithBidirectionalLongShort-TermMemory,帶有雙向LSTM的卷積神經網絡)模型,用于提升語音建模的效果。2017年8月20日,微軟語音團隊再次將這一紀錄刷新,在Switchboard測試中將詞錯誤率從,即識別準確率達到,與谷歌一起成為了行業。另外,亞馬遜(Amazon)公司在語音行業可謂后發制人,其在2014年底正式推出了Echo智能音箱,并通過該音箱搭載的Alexa語音助理,為使用者提供種種應用服務。Echo智能音箱一經推出,在消費市場上取得了巨大的成功。如今已成為美國使用廣的智能家居產品,至今累計銷量已超過2000萬臺。投資機構摩根士丹利分析師稱智能音箱是繼iPad之后"成功的消費電子產品"。國內語音識別現狀國內早的語音識別研究開始于1958年,中國科學院聲學所研究出一種電子管電路,該電子管可以識別10個元音。1973年。對于強噪聲、超遠場、強干擾、多語種、大詞匯等場景下的語音識別還需要很大的提升。
中國科學院聲學所成為國內shou個開始研究計算機語音識別的機構。受限于當時的研究條件,我國的語音識別研究在這個階段一直進展緩慢。放開以后,隨著計算機應用技術和信號處理技術在我國的普及,越來越多的國內單位和機構具備了語音研究的成熟條件。而就在此時,外國的語音識別研究取得了較大的突破性進展,語音識別成為科技浪潮的前沿,得到了迅猛的發展,這推動了包括中科院聲學所、中科院自動化所、清華大學、中國科技大學、哈爾濱工業大學、上海交通大學、西北工業大學、廈門大學等許多國內科研機構和高等院校投身到語音識別的相關研究當中。大多數的研究者將研究重點聚焦在語音識別基礎理論研究和模型、算法的研究改進上。1986年3月,我國的"863"計劃正式啟動。"863"計劃即國家高技術研究發展計劃,是我國的一項高科技發展計劃。作為計算機系統和智能科學領域的一個重要分支。語音識別在該計劃中被列為一個專項研究課題。隨后,我國展開了系統性的針對語音識別技術的研究。因此,對于我國國內的語音識別行業來說,"863"計劃是一個里程碑,它標志著我國的語音識別技術進入了一個嶄新的發展階段。但是由于研究起步晚、基礎薄弱、硬件條件和計算能力有限。主流語音識別框架還是由 3 個部分組成:聲學模型、語言模型和解碼器,有些框架也包括前端處理和后處理。廣州移動語音識別服務標準
遠場語音識別已經隨著智能音箱的興起成為全球消費電子領域應用為成功的技術之一。山東語音識別設置
美國**部下屬的一個名為美國**高級研究計劃局(DefenseAdvancedResearchProjectsAgency,DARPA)的行政機構,在20世紀70年代介入語音領域,開始資助一項旨在支持語言理解系統的研究開發工作的10年戰略計劃。在該計劃推動下,誕生了一系列不錯的研究成果,如卡耐基梅隆大學推出了Harpy系統,其能識別1000多個單詞且有不錯的識別率。第二階段:統計模型(GMM-HMM)到了20世紀80年代,更多的研究人員開始從對孤立詞識別系統的研究轉向對大詞匯量連續語音識別系統的研究,并且大量的連續語音識別算法應運而生,例如分層構造(LevelBuilding)算法等。同時,20世紀80年代的語音識別研究相較于20世紀70年代,另一個變化是基于統計模型的技術逐漸替代了基于模板匹配的技術。統計模型兩項很重要的成果是聲學模型和語言模型,語言模型以n元語言模型(n-gram),聲學模型以HMM。HMM的理論基礎在1970年前后由Baum等人建立,隨后由卡耐基梅隆大學(CMU)的Baker和IBM的Jelinek等人應用到語音識別中。在20世紀80年代中期,Bell實驗室的.Rabiner等人對HMM進行了深入淺出的介紹。并出版了語音識別專著FundamentalsofSpeechRecognition,有力地推動了HMM在語音識別中的應用。山東語音識別設置