预购商品
书目分类
特别推荐
隨著語音演算法技術的不斷發展與完善,如何進行工程落地成為語音商業應用中普遍面臨的問題。工程落地不僅要考慮模型效果,還要考慮資源佔用、模組聯調且整個架構要具有可靠性、可擴展性和可維護性。 本書圍繞如何從零構建一個完整的語音辨識系統,深入淺出地介紹了語音辨識前端演算法、語音辨識演算法及說話人日誌演算法原理;基於Kaldi的模型訓練;語音辨識工程落地和服務搭建。 本書適合作為語音技術研究人員及對語音技術感興趣的開發人員的參考用書。
第1章 語音辨識概述 1.1 語音辨識發展歷程 1.2 語音辨識產業與應用 1.2.1 消費級市場 1.2.2 企業級市場 1.3 常用語音處理工具 1.3.1 WebRTC 1.3.2 Kaldi 1.3.3 端到端語音辨識工具包 第2章 語音信號基礎 2.1 語音信號的聲學基礎 2.1.1 語音產生機理 2.1.2 語音信號的產生模型 2.1.3 語音信號的感知 2.2 語音信號的數位化和時頻變換 2.2.1 語音信號的採樣、量化和編碼 2.2.2 語音信號的時頻變換 2.3 本章小結 第3章 語音前端演算法 3.1 語音前端演算法概述 3.2 VAD 3.2.1 基於門限判決的VAD 3.2.2 基於高斯混合模型的VAD 3.2.3 基於神經網路的VAD 3.3 單通道降噪 3.3.1 譜減法 3.3.2 維納濾波法 3.3.3 音樂雜訊和參數譜減法 3.3.4 貝葉斯準則下的MMSE 3.3.5 雜訊估計 3.3.6 基於神經網路的單通道降噪 3.4 回聲消除 3.4.1 回聲消除概述 3.4.2 線性自我調整濾波 3.4.3 分塊頻域自我調整濾波器 3.4.4 雙講檢測 3.4.5 延遲估計 3.4.6 殘留回聲消除 3.4.7 基於神經網路的回聲消除 3.5 麥克風陣列與波束形成 3.5.1 麥克風陣列概述 3.5.2 延遲求和波束形成 3.5.3 最小方差無失真回應波束形成 3.5.4 廣義旁瓣對消波束形成 3.5.5 後置濾波 3.5.6 基於神經網路的波束形成 3.6 聲源定位 3.6.1 GCC-PHAT 3.6.2 基於自我調整濾波的聲源定位 3.6.3 SRP-PHAT 3.6.4 子空間聲源定位演算法 3.6.5 基於神經網路的聲源定位 3.7 其他未盡話題 3.8 本章小結 第4章 語音辨識原理 4.1 特徵提取 4.1.1 特徵預處理 4.1.2 常見的語音特徵 4.2 傳統聲學模型 4.2.1 聲學建模單元 4.2.2 GMM-HMM 4.2.3 強制對齊 4.3 DNN-HMM 4.3.1 語音辨識中的神經網路基礎 4.3.2 常見的神經網路結構 4.4 語言模型 4.4.1 n-gram語言模型 4.4.2 語言模型的評價指標 4.4.3 神經語言模型 4.5 WFST解碼器 4.5.1 WFST原理 4.5.2 常見的WFST運算 4.5.3 語音辨識中的WFST解碼器 4.5.4 權杖傳遞演算法 4.5.5 Beam Search 4.6 序列區分性訓練 4.6.1 MMI和bMMI 4.6.2 MPE和sMBR 4.6.3 詞圖 4.6.4 LF-MMI 4.7 端到端語音辨識 4.7.1 CTC 4.7.2 Seq2Seq 4.8 語音辨識模型評估 4.9 本章小結 第5章 中文普通話模型訓練——以multi_cn為例 5.1 Kaldi安裝與環境配置 5.2 Kaldi中的資料格式與資料準備 5.3 語言模型訓練 5.4 發音詞典準備 5.5 特徵提取 5.6 Kaldi中的Transition模型 5.7 預對齊模型訓練 5.7.1 單音素模型訓練 5.7.2 delta特徵模型訓練 5.7.3 lda_mllt特徵變換模型訓練 5.7.4 說話人自我調整訓練 5.8 資料增強 5.8.1 數據清洗及重分割 5.8.2 速度增強和音量增強 5.8.3 SpecAugment 5.9 I-Vector訓練 5.9.1 對角UBM 5.9.2 I-Vector提取器 5.9.3 提取訓練資料的I-Vector 5.10 神經網路訓練 5.10.1 Chain模型 5.10.2 Chain模型資料準備 5.10.3 神經網路配置與訓練 5.11 解碼圖生成 5.12 本章小結 5.13 附錄 5.13.1 xconfig中的描述符及網路配置表 5.13.2 Chain模型中的egs 5.13.3 Kaldinnet3中反覆運算次數和學習率調整 第6章 基於Kaldi的說話人日誌 6.1 說話人日誌概述 6.1.1 什麼是說話人日誌 6.1.2 說話人日誌技術 6.1.3 說話人日誌評價指標 6.2 聲紋模型訓練——以CNCeleb為例 6.2.1 聲紋數據準備 6.2.2 I-Vector訓練 6.2.3 X-Vector訓練 6.2.4 LDA/PLDA後端模型訓練 6.2.5 說話人日誌後端模型訓練 6.3 本章小結 第7章 基於Kaldi的語音SDK實現 7.1 語音特徵提取 7.1.1 音訊讀取 7.1.2 音訊特徵提取 7.2 基於WebRTC的語音活動檢測 7.3 說話人日誌模組 7.3.1 I-Vector提取 7.3.2 X-Vector提取 7.3.3 說話人日誌演算法實現 7.4 語音辨識解碼 7.5 本章小結 第8章 基於gRPC的語音辨識服務 8.1 gRPC語音服務 8.2 ProtoBuf協議定義 8.3 基於gRPC的語音服務實現 8.3.1 gRPC Server實現 8.3.2 gRPC Client實現 8.3.3 gRPC語音服務的編譯與測試 8.4 本章小結 參考文獻
"楊學銳 大疆創新語音交互演算法負責人,復旦大學及Turku大學碩士,長期從事語音演算法、深度學習、人工智慧等領域的研究與商業落地,在相關領域發表多篇論文及。 晏超 北京郵電大學碩士,曾任職於HP Labs, Cisco, Technicolor等公司。現為雲從科技語音演算法負責人,從事語音辨識、聲紋識別、說話人日誌、語音合成等方向的演算法研發工作,構建了雲從科技整套語音演算法引擎與應用服務平臺。 劉雪松 OPPO音訊演算法專家,復旦大學碩士,曾任職於美國國家儀器、聲網、雲從科技等公司。在信號處理、音訊演算法和語音演算法等領域有豐富的實戰經驗,在相關領域發表多篇論文及。"
客服公告
热门活动
订阅电子报