图书介绍

实用语音识别基础【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

实用语音识别基础
  • 王炳锡等著 著
  • 出版社: 北京:国防工业出版社
  • ISBN:711803746X
  • 出版时间:2005
  • 标注页数:363页
  • 文件大小:24MB
  • 文件页数:385页
  • 主题词:

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

实用语音识别基础PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

目录1

第1章 绪论1

1.1 概述1

1.2 语音识别综述2

1.3 国内外语音识别的研究现状和发展趋势5

参考文献9

2.2.1 语音听觉器官的生理结构12

2.2 听觉机理和心理12

2.1 概述12

第2章 听觉机理和汉语语音基础12

第一部分 基本理论12

2.2.2 语音听觉的心理14

2.3 发音的生理机构与过程17

2.4 汉语语音基本特性19

2.4.1 元音和辅音19

2.4.2 声母和韵母20

2.4.3 音调(字调)21

2.4.5 汉语的波形特征22

2.4.4 音节(字)构成22

2.4.6 元音的频谱特性23

2.4.7 辅音的频谱特性23

2.4.8 汉语语音的韵律特征24

2.5 小结25

参考文献25

3.2 语音信号的数字化和预处理26

3.2.2 语音信号的预处理26

3.2.1 语音信号的数字化26

3.1 概述26

第3章 语音信号处理方法——时域处理26

3.3 短时平均能量和短时平均幅度27

3.3.1 短时平均能量27

3.3.2 短时平均幅度28

3.4 短时过零分析29

3.4.1 短时平均过零率29

3.4.2 短时上升过零间隔30

3.5 短时自相关函数和平均幅度差函数31

3.5.1 短时自相关函数31

3.5.2 短时平均幅度差函数32

3.6.1 单个随机变量情况33

3.6 高阶统计量33

3.6.2 多个随机变量及随机过程情况35

3.6.3 高斯过程的高阶累积量36

3.7 小结38

参考文献38

第4章 语音信号处理方法——时频处理39

4.1 概述39

4.2 短时傅里叶变换39

4.2.1 短时傅里叶变换的定义和物理意义39

4.2.2 基于短时傅里叶变换的语谱图及其时频分辨率42

4.2.3 短时傅里叶谱的采样44

4.3 小波变换45

4.3.1 连续小波变换46

4.3.2 二进小波变换46

4.3.3 离散小波变换47

4.3.4 多分辨分析50

4.3.5 正交小波包61

4.4 Wigner分布66

4.4.1 Wigner分布的定义66

4.4.2 Wigner分布的一般性质67

4.4.3 两个信号和的Wigner分布69

4.4.4 Wigner分布的重建70

4.4.5 Wigner分布的实现71

4.5 小结73

参考文献74

第5章 语音信号处理方法——倒谱同态处理75

5.1 概述75

5.2 复倒谱和倒谱75

5.2.1 定义75

5.2.2 复倒谱的性质76

5.3.2 同态解卷特征系统和同态解卷反特征系统78

5.3 语音信号的倒谱分析与同态解卷积78

5.3.1 叠加原理和广义叠加原理78

5.3.3 同态解卷系统79

5.3.4 语音的复倒谱及同态解卷79

5.4 避免相位卷绕的算法81

5.4.1 最小相位信号法82

5.4.2 递归法84

5.5 小结85

参考文献86

6.2 语料库的基本特征88

6.1 概述88

第二部分 语音识别系统88

第6章 语料库88

6.3 语料库的类型92

6.4 语音语料库95

6.4.1 语音语料库建立、收集和标注的意义95

6.4.2 语音语料库的建立和收集要点95

6.4.3 标准语音库语音特性描述96

6.5 语料库的设计举例——863汉语普通话语音合成语料库的设计97

6.5.1 语料库设计原则97

6.5.2 语音库的标注97

6.5.3 与语音语料库相关的文字语料库标注99

6.6 小结100

参考文献100

第7章 语音识别的预处理102

7.1 概述102

7.2 语音识别单元的选取102

7.2.1 汉语音节103

7.2.2 汉语的基本音素104

7.2.3 汉语半音节105

7.3.1 基于能量的端点检测106

7.3 自动分段——端点检测技术106

7.3.2 基于LPC-10声码器的端点检测107

7.3.3 基于信息熵的语音端点检测107

7.3.4 基于频带方差的端点检测108

7.3.5 基于倒谱特征的带噪语音信号端点检测109

7.3.6 基于HMM的端点检测方法113

7.3.7 基于分形技术的端点检测115

7.3.8 基于自相关相似距离的端点检测121

7.3.9 基于迟滞编码的端点检测123

7.3.10 实时端点检测算法125

7.4 小结127

参考文献127

第8章 语音信号特征参数129

8.1 概述129

8.2 基音周期129

8.2.1 自相关法及其改进130

8.2.2 并行处理法132

8.2.3 倒谱法133

8.3.1 线性预测信号模型134

8.3 线性预测参数134

8.2.4 简化逆滤波法134

8.3.2 线性预测误差滤波136

8.3.3 语音信号的线性预测分析138

8.3.4 线性预测分析的解法139

8.3.5 斜格法及其改进139

8.4 线谱对(LSP)参数144

8.4.1 线谱对分析原理144

8.4.2 线谱对分析的求解146

8.5 LPCC参数147

8.6 MFCC参数148

8.7 ASCC参数149

8.8 感觉加权的线性预测(PLP)特征149

8.8.1 PLP参数149

8.8.2 RASTA-PLP参数150

8.9 动态差分参数151

8.10 高阶信号谱类特征152

8.10.1 WV谱的定义及其主要性质152

8.10.2 WV谱计算式的一些变形152

参考文献154

8.11 小结154

第9章 特征变换155

9.1 概述155

9.2 线性判别分析(LDA)155

9.2.1 线性判别分析的概念155

9.2.2 广义线性判别函数157

9.2.3 Fisher线性判别158

9.2.4 多类问题161

9.3.1 基于K-L变换的主分量分析162

9.3 主分量分析(PCA)162

9.3.2 随机向量的K-L展开163

9.3.3 基于K-L变换的降维164

9.4 独立分量分析(ICA)165

9.4.1 引言165

9.4.2 线性独立分量分析165

9.4.3 线性独立分量分析算法169

9.4.4 独立分量分析的预处理172

9.4.5 非线性独立分量分析173

参考文献175

9.5 小结175

第10章 语音识别的模型177

10.1 概述177

10.2 动态时间规整(DTW)177

10.2.1 动态规划技术(DP)177

10.2.2 DTW算法的改进179

10.3 隐马尔可夫模型(HMM)180

10.3.1 隐马尔可夫模型的定义181

10.3.2 HMM中的3个基本问题及其解决方案182

10.3.3 隐马尔可夫模型的类型185

10.3.4 HMM算法实现的问题186

10.4 分类模型(SVM)193

10.4.1 引言193

10.4.2 学习问题193

10.4.3 学习过程一致性的条件194

10.4.4 学习过程收敛速度的界195

10.4.5 结构风险最小归纳原理197

10.4.6 支持向量机199

10.5.1 引言204

10.5.2 神经元的基本模型204

10.5 人工神经网络204

10.5.3 前向网络206

10.5.4 反馈网络208

10.6 高斯混合模型(GMM)211

10.6.1 高斯混合模型的定义211

10.6.2 参数调整算法——EM算法212

10.7 小结213

参考文献213

第11章 说话人自适应和说话人归一化技术216

11.1 概述216

第三部分 语音识别中关键处理技术216

11.2 自适应方式的分类217

11.3 MLLR算法介绍217

11.3.1 语音特征空间的划分218

11.3.2 参数的估计220

11.3.3 对均值矢量的变换223

11.4 MAP算法介绍223

11.4.1 MAP算法准则223

11.4.2 MAP算法公式推导224

11.4.3 MAP算法讨论225

11.5.1 说话人归一化技术原理226

11.5 说话人归一化技术226

11.5.2 声道长度归一化(VTLN)227

11.6 小结232

参考文献233

第12章 噪声抑制235

12.1 概述235

12.2 基于小波变换的噪声抑制237

12.2.1 利用小波变换去除周期性噪声237

12.2.2 利用小波变换去除冲激噪声239

12.2.3 利用小波变换去除宽带噪声241

12.2.4 小波去噪方法的分析243

12.3 基于EVRC编码的噪声抑制244

12.4 基于HMM模型的噪声补偿248

12.5 小结249

参考文献249

第13章 信道补偿251

13.1 概述251

13.2 稳健语音识别技术251

13.2.1 稳健语音识别的提出251

13.2.2 稳健语音识别的研究现状252

13.3.1 经验补偿技术254

13.3 信道补偿技术的主要方法254

13.3.2 盲补偿255

13.3.3 基于特征及模型的补偿256

13.4 信道补偿技术在语音识别中的应用259

13.4.1 信道补偿技术在汽车内语音识别中的应用259

13.4.2 基于信道补偿的电话语音识别260

13.5 小结261

参考文献261

14.1 概述264

第四部分 语音识别应用264

第14章 说话人识别264

14.2 说话人识别的基本原理265

14.2.1 说话人识别系统的典型结构265

14.2.2 技术原理265

14.3 说话人识别的特征选择266

14.3.1 说话人识别系统中常用的特征266

14.3.2 特征参数的统计评价267

14.4.1 模板匹配法268

14.4 说话人识别的主要方法268

14.4.2 概率统计方法269

14.4.3 辨别分类器方法270

14.4.4 混合方法270

14.5 判决规则与性能评价标准270

14.5.1 说话人辨认271

14.5.2 说话人确认(检测)271

14.6 说话人识别中的稳健技术273

14.7.2 SVM-GMM混合模型279

14.7.1 GMM说话人辨认算法279

14.7 系统举例279

14.7.3 GMM-UBM说话人确认283

14.8 小结285

参考文献286

第15章 关键词识别287

15.1 概述287

15.2 关键词识别及其与连续语音识别的关系287

15.3 关键词识别原理288

15.3.1 关键词识别系统组成288

15.3.2 关键词识别的基本问题289

15.3.3 关键词识别系统的主要技术难点290

15.4 搜索策略291

15.4.1 语音起始和结束点的粗判291

15.4.2 帧同步的Viterbi解码算法292

15.4.3 加入驻留惩罚的改进Viterbi解码算法293

15.4.4 语法节点处的路径合并294

15.4.5 回溯295

15.5 识别结果的确认295

15.5.1 置信度的原理296

15.5.2 利用反词模型的拒识方法297

15.5.3 利用识别结果本身信息的拒识方法298

15.6 系统实现299

15.6.1 训练和识别系统框图299

15.6.2 训练系统的具体实现301

15.6.3 识别系统的具体实现301

15.7 小结302

参考文献303

16.1 概述305

16.1.1 语言辨识的原理305

第16章 语言辨识305

16.1.2 语言辨识技术研究发展的历史306

16.2 语言辨识所需要的有用信息306

16.3 针对自动语言辨识的知觉研究308

16.4 语言辨识的主要方法309

16.4.1 频谱相似性方法309

16.4.2 基于韵律信息的方法309

16.4.3 基于音素识别的方法310

16.4.4 基于多语言语音单元的方法310

16.4.6 基于连续语音识别的方法311

16.4.5 单词层次方法311

16.4.7 元音系统模型312

16.5 语言辨识系统举例313

16.5.1 基于GMM-UBM模型的语言辨识系统313

16.5.2 基于最小分类误差准则的语言辨识系统313

16.5.3 基于说话人聚类和高斯混合模型的语言辨识系统315

16.5.4 基于时频主分量分析和高斯混合模型的语言辨识系统318

16.5.5 基于高斯混合二元模型的语言辨识系统320

16.6 语言辨识系统评估324

16.7 小结325

参考文献326

第17章 连续语音识别328

17.1 概述328

17.2 连续语音识别整体模型329

17.3 声学模型330

17.3.1 语音识别单元的选取330

17.3.2 基于子词单元HMM的训练332

17.4 连续语音识别中的搜索策略333

17.4.1 传统的帧同步算法333

17.4.2 基于统计知识的帧同步搜索算法原理334

17.4.3 受词法约束的词搜索树335

17.4.4 连续语音识别中的双层搜索网络336

17.5 语言模型336

17.5.1 基于规则的方法337

17.5.2 基于统计的方法337

17.5.3 N-gram模型的平滑338

17.5.4 基于文法规则的方法和基于统计的方法相结合340

17.6 小结340

参考文献341

附录 英汉名词对照343

热门推荐