解析深度學習:語音識別實踐
  • 推薦0
  • 收藏2
  • 瀏覽1.7K

解析深度學習:語音識別實踐

俞凱等 俞棟 鄧力 (作者)  俞凱 (譯者) 李利健 (責任編輯)

  • 叢  書:大數據叢書
  • 書  號:978-7-121-28796-1
  • 出版日期:2016-06-14
  • 頁  數:336
  • 開  本:16(170*240)
  • 出版狀態:上市銷售
  • 維護人:劉皎
本書是首部介紹語音識別中深度學習技術細節的專著。全書首先概要介紹了傳統語音識別理論和經典的深度神經網絡核心算法。接著全面而深入地介紹了深度學習在語音識別中的應用,包括“深度神經網絡-隱馬爾可夫混合模型”的訓練和優化,特征表示學習、模型融合、自適應,以及以循環神經網絡為代表的若干先進深度學習技術。
本書適合有一定機器學習或語音識別基礎的學生、研究者或從業者閱讀,所有的算法及技術細節都提供了詳盡的參考文獻,給出了深度學習在語音識別中應用的全景。
譯者序
技術科學的進步歷程往往是理論通過實踐開辟道路的過程。盡管眾多研究者將Geoffrey Hinton 在 2006 年發表關于深度置信網絡( Deep Belief Networks)的論文,視為深度學習出現的重要標志,但那時,該技術還只是多層神經網絡權值初始化的一種有效理論嘗試,僅僅對一小部分機器學習專家產生著影響。真正讓深度學習成為 2013年《麻省理工學院技術評論》的十大突破性技術之首的,則是深度學習在應用領域的巨大實踐成功。而語音識別正是深度學習取得顯著成功的應用領域之一。語音識別的發展自 20 世紀 70 年代采用隱馬爾可夫模型( HMM)進行聲學建模以來,每個時代都有經典的創新成果。如 20 世紀 80 年代的 N 元組語言模型, 20 世紀 90 年代的 HMM 狀態綁定和自適應技術, 21 世紀第一個十年的 GMM-HMM 模型的序列鑒別性訓練等。盡管這些技術都顯著降低了語音識別的錯誤率,但它們都無法把語音識別推動到商業可用的級別。深度學習技術在 21 世紀的第二個十年產生的最重大的影響,就是使得語音識別錯誤率在以往最好系統的基礎上相對下降 30% 或更多,而這一下降恰恰突破了語音識別真正可用的臨界點。該技術的突破伴隨著并行計算基礎設施的發展,移動互聯網大數據的產生,其影響進一步交疊擴大,目前已經成為業界毫無爭議的標準前沿技術。
本書作者俞棟博士和鄧力博士正是這一突破的最早也是最主要的推動者和實踐者。他們與 Geoffrey Hinton 合作,最早將深度學習引入語音識別并取得初步成功,后續又連續突破一系列技術瓶頸,在大尺度連續語音識別系統上取得了研究界和工業界廣泛認可的突破。在幾乎所有的語音識別應用深度學習的核心領域上都有這兩位學者的影響。我與這兩位學者相交多年,深刻地感覺到,他們在深度學習應用上的突破并非在恰當的時間接觸到恰當的算法那樣簡單,而是來源于對語音識別技術發展歷程的不懈摸索。事實上,如作者們在本書中提到的,神經網絡、層次化模型等思路在語音識別發展的歷史上早已被提出并無數次驗證,但都沒有成功?;氐缴疃葘W習成功前的十年,那時能夠持續不斷地在“非主流”的方向上嘗試、改進、探索,是一件非常不易的事情。因此,我對二位學者一直懷有敬意。此次受他們之托,將展現深度學習在語音識別中的實踐歷程的英文著作翻譯成中文,也感到十分榮幸。
目前已有的語音識別書籍均以介紹經典技術為主,本書是首次以深度學習為主線,介紹語音識別應用的書籍,對讀者了解前沿的語音識別技術以及語音識別的發展歷程具有重要的參考價值。全書概要地介紹了語音識別的基本理論,主體部分則全面而詳細地講解了深度學習的各類應用技術細節,既包括理論細節,也包括工程實現細節,給出了深度學習在語音識別領域進行應用研究的全景。本書適合有一定機器學習或語音識別基礎的學生、研究者或從業者閱讀。由于篇幅限制,一些算法的介紹沒有進行大幅展開,但所有的算法及技術細節都提供了詳盡的參考文獻,讀者可以按圖索驥。
本書的翻譯是與錢彥旻博士共同完成的,同時,也得到了上海交通大學智能語音實驗室的賀天行、畢夢霄、陳博、陳哲懷、鄧威、劉媛、譚天、童思博、項煦、游永彬、鄭達、朱蘇、莊毅萌的幫助,以及電子工業出版社的大力支持,在此一并表示感謝。翻譯過程難免存在疏漏和錯誤,歡迎讀者批評、指正。
俞凱

本書首次專門講述了如何將深度學習方法,特別是深度神經網絡( DNN)技術應用于語音識別( ASR)領域。在過去的幾年中,深度神經網絡技術在語音識別領域的應用取得了前所未有的成功。這使得本書成為在深度神經網絡技術的發展歷程中一個重要的里程碑。作者繼其前一本書 Deep Learning: Methods and Applications 之后,在語音識別技術和應用上進行了更深入鉆研,得成此作。與上一本書不同,該作并沒有對深度學習的各個應用領域都進行探討,而是將重點放在了語音識別技術及其應用
上,并就此進行了更深入、更專一的討論。難能可貴的是,這本書提供了許多語音識別技術背景知識,以及深度神經網絡的技術細節,比如嚴謹的數學描述和軟件實現也都包含其中。這些對語音識別領域的專家和有一定基礎的讀者來說都將是極其珍貴的資料。
本書的獨特之處還在于,它并沒有局限于目前常應用于語音識別技術的深度神經網絡上,還兼顧包含了深度學習中的生成模型,這種模型可以很自然地嵌入先驗的領域知識和問題約束。作者在背景材料中充分證實了自 20 世紀 90 年代早期起,語音識別領域研究者提出的深度動態生成模型( dynamic generative models)的豐富性,同時又將其與最近快速發展的深度鑒別性模型在統一的框架下進行了比較。書中以循環神經網絡和隱動態模型為例,對這兩種截然不同的深度模型進行了全方位的有見地的優
劣比較。這為語音識別中的深度學習發展和其他信號及信息處理領域開啟了一個新的激動人心的方向。該書還滿懷歷史情懷地對四代語音識別技術進行了分析。當然,以深度學習為主要內容的第四代技術是本書所詳細闡述的,特別是 DNN 和深度生成模型的無縫結合,將使得知識擴展可以在一種最自然的方式下完成。
總的來說,該書可能成為語音識別領域工作者在第四代語音識別技術時代的重要參考書。全書不但巧妙地涵蓋了一些基本概念,使你能夠理解語音識別全貌,還對近兩年興盛起來的強大的深度學習方法進行了深入的細節介紹。讀完本書,你將可以看清最前沿的語音識別是如何構建在深度神經網絡技術上的,可以滿懷自信地去搭建識別能力達到甚至超越人類的語音識別系統。
Sadaoki Furui
芝加哥豐田技術研究所所長,東京理工學院教授
前言
以自然語言人機交互為主要目標的自動語音識別( ASR),在近幾十年來一直是研究的熱點。在 2000 年以前,有眾多語音識別相關的核心技術涌現出來,例如:混合高斯模型( GMM)、隱馬爾可夫模型( HMM)、梅爾倒譜系數( MFCC)及其差分、n 元詞組語言模型( LM)、鑒別性訓練以及多種自適應技術。這些技術極大地推進了ASR 以及相關領域的發展。但是比較起來,在 2000 年到 2010 年間,雖然 GMM-HMM序列鑒別性訓練這種重要的技術被成功應用到實際系統中,但是在語音識別領域中無論是理論研究還是實際應用,進展都相對緩慢與平淡。
然而在過去的幾年里,語音識別領域的研究熱情又一次被點燃。由于移動設備對語音識別的需求與日俱增,并且眾多新型語音應用,例如,語音搜索( VS)、短信聽寫( SMD)、虛擬語音助手(例如,蘋果的 Siri、 Google Now 以及微軟的 Cortana)等在移動互聯世界獲得了成功,新一輪的研究熱潮自然被帶動起來。此外,由于計算能力的顯著提升以及大數據的驅動,深度學習在大詞匯連續語音識別下的成功應用也是同樣重要的影響因素。比起此前最先進的識別技術——GMM-HMM 框架,深度學習
在眾多真實世界的大詞匯連續語音識別任務中都使得識別的錯誤率降低了三分之一或更多,識別率也進入到真實用戶可以接受的范圍內。舉例來說,絕大多數 SMD 系統的識別準確率都超過了 90%,甚至有些系統超過了 95%。
作為研究者,我們參與并見證了這許許多多令人興奮的深度學習技術上的發展??紤]到近年來在學術領域與工業領域迸發的 ASR 研究熱潮,我們認為是時候寫一本書來總結語音識別領域的技術進展,尤其是近年來的最新進展。
最近 20 年,隨著語音識別領域的不斷發展,很多關于語音識別以及機器學習的優秀書籍相繼問世,這里列舉一部分:
Deep Learning: Methods and Applications, by Li Deng and Dong Yu (June, 2014)
Automatic Speech and Speaker Recognition: Large Margin and Kernel Methods, by Joseph Keshet, Samy Bengio (Jan, 2009)
Speech Recognition Over Digital Channels: Robustness and Standards, by Antonio Peinado and Jose Segura (Sept, 2006)
Pattern Recognition in Speech and Language Processing, by Wu Chou and Biing-Hwang Juang (Feb, 2003)
Speech Processing — A Dynamic and Optimization-Oriented Approach, by Li Deng and Doug O’Shaughnessy (June 2003)
Spoken Language Processing: A Guide to Theory, Algorithm and System Development, by Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon (April 2001)
Digital Speech Processing: Synthesis, and Recognition, Second Edition, by Sadaoki Furui (June, 2001)
Speech Communications: Human and Machine, Second Edition, by Douglas O’Shaughnessy(June, 2000)
Speech and Language Processing — An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, by Daniel Jurafsky and James Martin (April, 2000)
Speech and Audio Signal Processing, by Ben Gold and Nelson Morgan (April, 2000)
Statistical Methods for Speech Recognition, by Fred Jelinek (June, 1997)
Fundamentals of Speech Recognition, by Lawrence Rabiner and Biing-Hwang Juang(April, 1993)
Acoustical and Environmental Robustness in Automatic Speech Recognition, by Alex Acero (Nov, 1992)
然而,所有這些書或者是出版于 2009 年以前,也就是深度學習理論被提出之前,或者是像我們 2014 年出版的綜述書籍,都沒有特別關注深度學習技術在語音識別領域的應用。早期的書籍缺少 2010 年以后的深度學習新技術,而語音識別領域以及深度學習的研究者所需求的技術及數學細節更是沒能涵蓋其中。不同于以上書籍,本書除了涵蓋必要的背景材料外,特別整理了近年來語音識別領域上深度學習以及鑒別性層次模型的相關研究。本書涵蓋了一系列深度學習模型的理論基礎及對其的理解,其中包括深度神經網絡( DNN)、受限玻爾茲曼機( RBM)、降噪自動編碼器、深度置信網絡、循環神經網絡( RNN)、長短時記憶( LSTM) RNN,以及各種將它們應用到實際系統的技術,例如, DNN-HMM 混合系統、 tandem 和瓶頸系統、多任務學習及遷移學習、序列鑒別性訓練以及 DNN 自適應技術。本書更加細致地討論了搭建真實世界實時語音識別系統時的注意事項、技巧、配置、深層模型的加速以及其他相關技術。為了更好地介紹基礎背景,本書有兩章討論了 GMM 與 HMM 的相關內容。然而由于本書的主題是深度學習以及層次性建模,因而我們略過了 GMM-HMM 的技術細節。所以本書是上面羅列參考書籍的補充,而不是替代。我們相信本書將有益于語音處理及機器學習領域的在讀研究生、研究者、實踐者、工程師以及科學家的學習研究工作。我們希望,本書在提供領域內相關技術的參考以外,能夠激發更多新的想法與創新,進一步促進 ASR 的發展。
在本書的撰寫過程中, Alex Acero、 Geoffrey Zweig、 Qiang Huo、 Frank Seide、 Jasha Droppo、 Mike Seltzer 以及 Chin-Hui Lee 都提供了大量的支持與鼓勵。同時,我們也要感謝 Springer 的編輯 Agata Oelschlaeger 和 Kiruthika Poomalai,他們的耐心和及時的幫助使得本書能夠順利出版。
俞棟 鄧力
美國華盛頓西雅圖
2014 年 7 月

目錄

目錄 閱讀
第1章 簡介
第1部分 傳統聲學模型
第2章 混合高斯模型
第3章 隱馬爾可夫模型及其變體
第2部分 深度神經網絡
第4章 深度神經網絡
第5章 高級模型初始化技術
第3部分 語音識別中的深度神經網絡–隱馬爾可夫混合模型
第6章 深度神經網絡–隱馬爾可夫模型混合系統
第7章 訓練和解碼的加速
第8 章 深度神經網絡序列鑒別性訓練
第4部分 深度神經網絡中的特征表示學習
第9章 深度神經網絡中的特征表示學習
第10章 深度神經網絡和混合高斯模型的融合
第11章 深度神經網絡的自適應技術
第5部分 先進的深度學習模型 185
第12章 深度神經網絡中的表征共享和遷移
第13章 循環神經網絡及相關模型
第14章 計算型網絡
第15章 總結及未來研究方向

讀者評論

同系列書

  • 企業數據化管理變革——數據治理與統籌方案

    趙興峰 (作者)

    很多企業熱衷于談論大數據,卻忽視企業內部的基礎數據管理以及內部管理團隊的數據思維訓練。不重視數據,就不會有數據;沒有數據、沒有具備數據思維的管理團隊,大數據跟你...

    ¥59.00
  • 解析深度學習:語音識別實踐

    俞凱等 俞棟 鄧力 (作者) 俞凱 (譯者)

    本書是首部介紹語音識別中深度學習技術細節的專著。全書首先概要介紹了傳統語音識別理論和經典的深度神經網絡核心算法。接著全面而深入地介紹了深度學習在語音識別中的應用...

    ¥79.00
  • 金融大數據:戰略規劃與實踐指南

    陳利強 (作者)

    從金融與大數據的天然聯系展開,闡述了金融行業實施大數據戰略的必要性以及優勢。冷靜、客觀的從數據角度分析了金融行業如何基于自身的特點來搭建大數據的環境,打通業務環...

    ¥79.00
  • 發現數據之美:數據分析原理與實踐

    彭鴻濤 (作者)

    本書試圖全面介紹IBM SPSS在構建基于數據深度分析的行業解決方案方面的預測 分析功能,試圖涵蓋統計分析、數據挖掘和決策管理三個方面的內容。IBM SPSS...

    ¥75.00
  • 數據可視化(全彩)

    陳為 (作者)

    可視化是數據分析處理的重要手段。國內迄今尚無一本原創的數據可視化教材。 本書的內容將以歸納介紹核心的數據可視化原理為主,每章添加一個小章節總結最新研究進展(作...

    ¥128.00

相關圖書

程序員的AI書:從代碼開始

張力柯 潘暉 (作者)

隨著AI技術的普及,如何快速理解、掌握并應用AI技術,成為絕大多數程序員亟需解決的問題。本書基于Keras框架并以代碼實現為核心,詳細解答程序員學習AI算法時的...

 

解析深度學習:卷積神經網絡原理與視覺實踐

魏秀參 (作者)

深度學習,特別是深度卷積神經網絡是人工智能的重要分支領域,卷積神經 網絡技術也被廣泛應用于各種現實場景,在許多問題上都取得了超越人類智能的 結果。本書作為該...

¥49.00

自然語言處理理論與實戰

白寧超 (作者)

自然語言處理是什么?誰需要學習自然語言處理?自然語言處理在哪些地方應用?相關問題一直困擾<br>著不少初學者。針對這一情況,作者結合教學經驗和工程應用編寫此書。...

¥79.00

深度學習之PyTorch實戰計算機視覺

唐進民 (作者)

計算機視覺、自然語言處理和語音識別是目前深度學習領域很熱門的三大應用方向,本書旨在幫助零基礎或基礎較為薄弱的讀者入門深度學習,達到能夠獨立使用深度學習知識處理計...

¥49.00

21個項目玩轉深度學習——基于TensorFlow的實踐詳解

何之源 (作者)

《21個項目玩轉深度學習——基于TensorFlow的實踐詳解》以實踐為導向,深入介紹了深度學習技術和TensorFlow框架編程內容。 通過本書,讀者可以訓...

¥59.00

TensorFlow:實戰Google深度學習框架(第2版)

鄭澤宇 (作者)

TensorFlow是谷歌2015年開源的主流深度學習框架,目前已得到廣泛應用。本書為TensorFlow入門參考書,旨在幫助讀者以快速、有效的方式上手Tens...

¥89.00
国际官方棋牌下载中心