本書系統(tǒng)性地闡述智能語音處理技術,并重點以機器學習等技術及其在語音處理中的典型應用,理論與實踐聯(lián)系緊密。
前言
第1章 智能語音處理導論1
1.1 概述1
1.2 經(jīng)典語音處理2
1.2.1 語音處理的發(fā)展2
1.2.2 語音基本表示方法3
1.2.3 語音處理基本方法3
1.2.4 經(jīng)典語音處理方法的不足4
1.3 智能語音處理5
1.3.1 智能語音處理的基本概念5
1.3.2 智能語音處理的基本框架5
1.3.3 智能語音處理的基本模型6
1.4 語音處理的應用7
1.4.1 語音處理的傳統(tǒng)應用領域8
1.4.2 語音處理的新應用領域11
1.5 小結14
參考文獻14
第2章 稀疏和壓縮感知15
2.1 引言15
2.2 稀疏和稀疏表示16
2.2.1 稀疏16
2.2.2 稀疏表示18
2.3 冗余字典19
2.3.1 基本概念19
2.3.2 字典學習20
2.3.3 字典學習算法22
2.3.4 原子選擇算法25
2.4 壓縮感知27
2.4.1 基本概念27
2.4.2 壓縮感知模型29
2.4.3 觀測矩陣30
2.4.4 信號重構32
2.5 小結33
參考文獻33
第3章 隱變量模型36
3.1 引言36
3.2 高斯混合模型36
3.2.1 基本概念37
3.2.2 GMM參數(shù)估計37
3.3 隱馬爾可夫模型39
3.3.1 基本概念39
3.3.2 HMM關鍵問題42
3.4 高斯過程隱變量模型48
3.4.1 基本模型48
3.4.2 GPLVM的理論來源49
3.4.3 GPLVM模型訓練50
3.5 小結51
參考文獻51
第4章 組合模型52
4.1 引言52
4.2 主成分分析53
4.2.1 基本模型53
4.2.2 求解算法54
4.3 非負矩陣分解56
4.3.1 基本模型56
4.3.2 求解算法57
4.3.3 NMF與其他數(shù)據(jù)表示模型的關系58
4.4 魯棒組合模型60
4.4.1 組合模型的魯棒性分析61
4.4.2 魯棒主成分分析61
4.4.3 魯棒非負矩陣分解63
4.5 小結64
參考文獻64
第5章 人工神經(jīng)網(wǎng)絡和深度學習65
5.1 引言65
5.2 神經(jīng)網(wǎng)絡基礎66
5.2.1 神經(jīng)元模型66
5.2.2 淺層神經(jīng)網(wǎng)絡67
5.2.3 深度神經(jīng)網(wǎng)絡68
5.3 深度學習69
5.3.1 基本概念和形式69
5.3.2 深度網(wǎng)絡的學習方法70
5.4 深度神經(jīng)網(wǎng)絡的典型結構71
5.4.1 深度置信網(wǎng)絡71
5.4.2 自動編碼器與棧式自動編碼器72
5.4.3 卷積神經(jīng)網(wǎng)絡74
5.4.4 循環(huán)神經(jīng)網(wǎng)絡75
5.4.5 生成式對抗網(wǎng)絡77
5.5 小結79
參考文獻79
第6章 語音壓縮編碼81
6.1 引言81
6.2 基于字典學習的語音信號壓縮感知82
6.2.1 語音信號的稀疏性82
6.2.2 語音在常見變換域的稀疏化83
6.2.3 基于K-L展開的語音非相干字典84
6.2.4 基于K-L非相干字典的語音壓縮重構87
6.2.5 實驗仿真與性能分析88
6.3 基于梅爾倒譜系數(shù)重構的語音壓縮編碼93
6.3.1 基于梅爾倒譜分析的抗噪語音編碼模型94
6.3.2 基于稀疏約束的梅爾倒譜合成96
6.3.3 梅爾倒譜系數(shù)的量化算法99
6.3.4 實驗仿真與性能分析103
6.4 基于深度學習的語音壓縮編碼107
6.4.1 基于DAE的幅度譜編碼和量化107
6.4.2 基于DAE的低速率語音編碼110
6.4.3 實驗仿真與性能分析111
6.5 小結113
參考文獻113
第7章 語音增強115
7.1 引言115
7.2 語音增強技術基礎116
7.2.1 語音增強的估計參數(shù)116
7.2.2 智能語音增強的語音特征117
7.2.3 性能評價118
7.3 基于非負矩陣分解的語音增強120
7.3.1 基本模型121
7.3.2 基于不相交約束非負矩陣分解的語音增強122
7.3.3 基于CNMF字典學習的語音增強127
7.4 基于深度學習的語音增強136
7.4.1 基于聽覺感知加權的深度神經(jīng)網(wǎng)絡語音增強方法136
7.4.2 基于聽覺感知掩蔽的深度神經(jīng)網(wǎng)絡語音增強方法141
7.5 小結151
參考文獻152
第8章 語音轉換155
8.1 引言155
8.2 語音轉換基本原理155
8.3 語音轉換模型與評價156
8.3.1 語音分析/合成模型156
8.3.2 語音參數(shù)的選擇157
8.3.3 時間對齊157
8.3.4 轉換模型和規(guī)則158
8.3.5 轉換性能評價159
8.4 基于非負矩陣分解的譜轉換160
8.4.1 概述160
8.4.2 基于卷積非負矩陣分解的譜轉換161
8.4.3 聲道譜轉換效果164
8.5 基于深度神經(jīng)網(wǎng)絡的譜轉換168
8.5.1 深度學習驅動下的語音轉換168
8.5.2 面向譜轉換的神經(jīng)網(wǎng)絡模型選擇168
8.5.3 基于BLSTM和神經(jīng)網(wǎng)絡聲碼器交替訓練的語音轉換171
8.6 小結176
參考文獻176
第9章 說話人識別178
9.1 引言178
9.2 說話人識別基礎179
9.2.1 說話人識別系統(tǒng)框架179
9.2.2 典型的說話人識別模型180
9.3 基于i-vector的說話人識別及其改進181
9.3.1 基于i-vector的說話人識別概述181
9.3.2 用于提高i-vector魯棒性的幀加權方法182
9.3.3 實驗結果與分析187
9.4 基于深度神經(jīng)網(wǎng)絡的說話人識別187
9.4.1 基于深度神經(jīng)網(wǎng)絡的說話人識別概述187
9.4.2 基于對比度損失函數(shù)優(yōu)化說話人矢量189
9.4.3 實驗結果與分析191
9.5 說話人識別系統(tǒng)的攻擊與防御192
9.5.1 攻擊和防御的背景192
9.5.2 說話人識別系統(tǒng)的攻擊方法192
9.5.3 說話人識別攻擊的檢測方法194
9.5.4 實驗結果與分析196
9.6 小結196
參考文獻197
第10章 骨導語音增強200
10.1 引言200
10.2 骨導語音增強基礎201
10.2.1 骨導語音的產(chǎn)生與特性201
10.2.2 骨導語音盲增強的特點202
10.2.3 骨導語音盲增強的典型方法203
10.3 基于長短時記憶網(wǎng)絡的骨導語音盲增強205
10.3.1 骨導/氣導語音的譜映射206
10.3.2 基于深度殘差BLSTM的骨導語音盲增強方法207
10.3.3 實驗仿真及性能分析211
10.4 基于均衡-生成組合譜映射的骨導語音盲增強215
10.4.1 均衡法215
10.4.2 基于均衡-生成組合譜映射的骨導語音盲增強方法216
10.4.3 實驗仿真及性能分析218
10.5 小結222
參考文獻223
第11章 智能語音處理展望224
11.1 智能語音處理的未來224
11.2 有待解決的關鍵技術225
11.2.1 語音識別226
11.2.2 語音合成228
11.2.3 語音增強229
11.2.4 語音處理中的安全問題230
11.3 小結230
參考文獻230
縮略語232