人工智能
类型
可以朗读
语音朗读
462千字
字数
2020-11-01
发行日期
展开全部
主编推荐语
深度学习在语音识别中的全面应用和先进技术探讨。
内容简介
全书首先概要介绍了传统语音识别理论和经典的深度神经网络核心算法。接着全面而深入地介绍了深度学习在语音识别中的应用,包括“深度神经网络—隐马尔可夫混合模型”的训练和优化,特征表示学习、模型融合、自适应,以及以循环神经网络为代表的若干先进深度学习技术。
目录
- 封面
- 版权信息
- 内容简介
- 人工智能出版工程丛书编委会
- 推荐序
- 前言
- 符号
- 第1章 简介
- 1.1 自动语音识别:更好的沟通之桥
- 1.2 语音识别系统的基本结构
- 1.3 口语理解与人机对话系统
- 1.4 全书结构
- 第I部分 传统声学模型
- 第2章 混合高斯模型
- 2.1 随机变量
- 2.2 高斯分布和混合高斯随机变量
- 2.3 参数估计
- 2.4 采用混合高斯分布对语音特征建模
- 第3章 隐马尔可夫模型及其变体
- 3.1 介绍
- 3.2 马尔可夫链
- 3.3 序列与模型
- 3.4 期望最大化算法及其在学习HMM参数中的应用
- 3.5 用于解码HMM状态序列的维特比算法
- 3.6 隐马尔可夫模型和生成语音识别模型的变体
- 第II部分 深层神经网络在语音识别中的应用及分析
- 第4章 全连接深层神经网络
- 4.1 全连接深层神经网络框架
- 4.2 使用误差反向传播进行参数训练
- 4.3 实际应用
- 第5章 高级模型初始化技术
- 5.1 受限玻尔兹曼机
- 5.2 深度置信网络预训练
- 5.3 降噪自动编码器预训练
- 5.4 鉴别性预训练
- 5.5 混合预训练
- 5.6 采用丢弃法的预训练
- 第6章 深层神经网络-隐马尔可夫模型混合系统
- 6.1 DNN-HMM混合系统
- 6.2 CD-DNN-HMM的关键模块及分析
- 6.3 基于KL距离的隐马尔可夫模型
- 第7章 训练加速和解码加速
- 7.1 训练加速
- 7.2 解码加速
- 第8章 深层神经网络中的特征表示学习
- 8.1 特征和分类器的联合学习
- 8.2 特征层级
- 8.3 使用随意输入特征的灵活性
- 8.4 特征的鲁棒性
- 8.5 对环境的鲁棒性
- 8.6 信号严重失真情况下的推广能力
- 8.7 使用合成数据提升鲁棒性
- 第9章 深层神经网络和混合高斯模型的融合
- 9.1 在GMM-HMM系统中使用由DNN衍生的特征
- 9.2 识别结果融合技术
- 9.3 帧级别的声学分数融合
- 9.4 多流语音识别
- 第10章 VAD和唤醒词识别
- 10.1 基于信号处理的VAD
- 10.2 基于DNN的VAD
- 10.3 唤醒词识别的解码器方案
- 10.4 只用DNN的唤醒词识别
- 10.5 可定制的唤醒词识别
- 10.6 多阶段唤醒词识别
- 10.7 唤醒词识别的位置
- 第III部分 先进深度学习模型在语音识别中的应用
- 第11章 卷积神经网络
- 11.1 概述
- 11.2 卷积神经网络的基本架构
- 11.3 卷积神经网络的训练
- 11.4 时间延迟神经网络
- 11.5 时频域上的卷积
- 11.6 时域上的卷积
- 11.7 深层卷积神经网络
- 第12章 循环神经网络及相关模型
- 12.1 概述
- 12.2 基本循环神经网络中的状态-空间公式
- 12.3 沿时反向传播学习算法
- 12.4 一种用于学习循环神经网络的原始对偶技术
- 12.5 结合长短时记忆单元的循环神经网络
- 12.6 高速公路LSTM和网格LSTM
- 12.7 双向LSTM
- 12.8 GRU循环神经网络
- 12.9 循环神经网络的对比分析
- 12.10 讨论
- 第13章 基于深度学习的语言模型
- 13.1 统计语言模型简介
- 13.2 DNN语言模型
- 13.3 RNN和LSTM语言模型
- 13.4 CNN语言模型
- 13.5 语言模型的建模单元
- 13.6 双向语言模型
- 13.7 深度学习语言模型的使用
- 13.8 语言模型与声学模型的联合优化
- 第IV部分 高级语音识别方法
- 第14章 深层神经网络的自适应技术
- 14.1 深层神经网络中的自适应问题
- 14.2 线性变换
- 14.3 保守训练
- 14.4 子空间方法
- 14.5 DNN说话人自适应的效果
- 第15章 深层神经网络序列鉴别性训练
- 15.1 序列鉴别性训练准则
- 15.2 具体实现中的考量
- 15.3 无须词图的神经网络序列鉴别性训练
- 15.4 噪声对比估计
- 第16章 端到端模型
- 16.1 连接时序分类模型
- 16.2 带注意力机制的“编码-解码”模型
- 16.3 联合CTC-注意力模型
- 第V部分 复杂场景下的语音识别
- 第17章 深层神经网络中的表征共享和迁移
- 17.1 多任务和迁移学习
- 17.2 多语言和跨语言语音识别
- 17.3 语音识别中深层神经网络的多目标学习
- 17.4 使用视听信息的鲁棒语音识别
- 第18章 基于深度学习的单通道语音增强和分离技术
- 18.1 单通道语音增强技术
- 18.2 单通道多说话人的语音分离和标注置换问题
- 18.3 深度聚类
- 18.4 深度吸引子
- 18.5 排列不变性训练
- 18.6 将排列不变性训练用于多说话人语音识别
- 18.7 时域音频分离网络
- 第19章 远场语音识别的前端技术
- 19.1 远场识别的前端链路
- 19.2 DOA算法
- 19.3 波束形成的信号处理方法
- 19.4 结合信号处理和深度学习方法
- 19.5 前后端联合优化
- 第VI部分 口语理解及对话系统的深度学习实践
- 第20章 基于深度学习的口语理解
- 20.1 自然语言处理及深度学习
- 20.2 口语理解任务
- 20.3 基于深度学习的口语理解
- 第21章 对话状态跟踪及自然语言生成
- 21.1 口语对话系统概述
- 21.2 对话状态跟踪
- 21.3 自然语言生成
- 第22章 对话策略优化
- 22.1 对话策略及对话系统评估
- 22.2 数据驱动的对话策略训练
- 22.3 统计对话系统的冷启动技术
- 第VII部分 总结及展望
- 第23章 总结及未来研究方向
- 23.1 路线图
- 23.2 技术前沿和未来方向
- 缩略词表
- 作者简介
- 参考文献
- 封底
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。