展开全部

主编推荐语

本书使用新的TensorFlow2作为语音识别的基本框架,引导读者入门并掌握基于深度学习的语音识别基本理论、概念以及实现实际项目。

内容简介

本书内容循序渐进,从搭建环境开始,逐步深入理论、代码及应用实践,是语音识别技术图书的好选择。  

本书分为10章,内容包括语音识别概况与开发环境搭建、TensorFlow和Keras、深度学习的理论基础、卷积层与MNIST实战、TensorFlowDatasets和TensorBoard详解、ResNet模型、使用循环神经网络的语音识别实战、有趣的词嵌入实战、语音识别中的转换器实战、语音汉字转换实战。 

本书内容详尽、示例丰富,适合作为语音识别和深度学习初学者必备的参考书,同时非常适合作为高等院校和培训机构人工智能及相关专业师生的参考教材。

目录

  • 版权信息
  • 内容简介
  • 前言
  • 第1章 语音识别之路
  • 1.1 何谓语音识别
  • 1.2 语音识别为什么难——语音识别的发展历程
  • 1.2.1 高斯混合-隐马尔科夫时代
  • 1.2.2 循环神经网络-隐马尔科夫时代
  • 1.2.3 基于深度学习的端到端语音识别时代
  • 1.3 语音识别商业化之路的三个关键节点
  • 1.4 语音识别的核心技术与行业发展趋势
  • 1.5 搭建环境1:安装Python
  • 1.5.1 Anaconda的下载与安装
  • 1.5.2 Python编译器PyCharm的安装
  • 1.5.3 使用Python计算softmax函数
  • 1.6 搭建环境2:安装TensorFlow 2.1
  • 1.6.1 安装TensorFlow 2.1的CPU版本
  • 1.6.2 安装TensorFlow 2.1的GPU版本
  • 1.6.3 练习——Hello TensorFlow
  • 1.7 实战——基于特征词的语音唤醒
  • 1.7.1 第一步:数据的准备
  • 1.7.2 第二步:数据的处理
  • 1.7.3 第三步:模型的设计
  • 1.7.4 第四步:模型的数据输入方法
  • 1.7.5 第五步:模型的训练
  • 1.7.6 第六步:模型的结果和展示
  • 1.8 本章小结
  • 第2章 TensorFlow和Keras
  • 2.1 TensorFlow和Keras
  • 2.1.1 模型
  • 2.1.2 使用Keras API实现鸢尾花分类(顺序模式)
  • 2.1.3 使用Keras函数式编程实现鸢尾花分类(重点)
  • 2.1.4 使用保存的Keras模式对模型进行复用
  • 2.1.5 使用TensorFlow标准化编译对iris模型进行拟合
  • 2.1.6 多输入单一输出TensorFlow编译方法(选学)
  • 2.1.7 多输入多输出TensorFlow编译方法(选学)
  • 2.2 全连接层详解
  • 2.2.1 全连接层的定义与实现
  • 2.2.2 使用TensorFlow自带的API实现全连接层
  • 2.2.3 打印显示已设计的Model结构和参数
  • 2.3 懒人的福音——Keras模型库
  • 2.3.1 ResNet50模型和参数的载入
  • 2.3.2 使用ResNet50作为特征提取层建立模型
  • 2.4 本章小结
  • 第3章 深度学习的理论基础
  • 3.1 BP神经网络简介
  • 3.2 BP神经网络两个基础算法详解
  • 3.2.1 最小二乘法详解
  • 3.2.2 道士下山的故事:梯度下降算法
  • 3.3 反馈神经网络反向传播算法
  • 3.3.1 深度学习基础
  • 3.3.2 链式求导法则
  • 3.3.3 反馈神经网络原理与公式推导
  • 3.3.4 反馈神经网络的激活函数
  • 3.3.5 反馈神经网络的Python实现
  • 3.4 本章小结
  • 第4章 卷积层与MNIST实战
  • 4.1 卷积运算的基本概念
  • 4.1.1 卷积运算
  • 4.1.2 TensorFlow中卷积函数实现详解
  • 4.1.3 池化运算
  • 4.1.4 softmax激活函数
  • 4.1.5 卷积神经网络原理
  • 4.2 编程实战:MNIST手写体识别
  • 4.2.1 MNIST数据集
  • 4.2.2 MNIST数据集特征和标签介绍
  • 4.2.3 TensorFlow 2.X编程实战:MNIST数据集
  • 4.2.4 使用自定义的卷积层实现MNIST识别
  • 4.3 本章小结
  • 第5章 TensorFlow Datasets和TensorBoard详解
  • 5.1 TensorFlow Datasets简介
  • 5.1.1 Datasets数据集的安装
  • 5.1.2 Datasets数据集的使用
  • 5.2 Datasets数据集的使用——FashionMNIST
  • 5.2.1 FashionMNIST数据集下载与展示
  • 5.2.2 模型的建立与训练
  • 5.3 使用Keras对FashionMNIST数据集进行处理
  • 5.3.1 获取数据集
  • 5.3.2 数据集的调整
  • 5.3.3 使用Python类函数建立模型
  • 5.3.4 Model的查看和参数打印
  • 5.3.5 模型的训练和评估
  • 5.4 使用TensorBoard可视化训练过程
  • 5.4.1 TensorBoard文件夹的设置
  • 5.4.2 TensorBoard的显式调用
  • 5.4.3 TensorBoard的使用
  • 5.5 本章小结
  • 第6章 从冠军开始:ResNet
  • 6.1 ResNet基础原理与程序设计基础
  • 6.1.1 ResNet诞生的背景
  • 6.1.2 模块工具的TensorFlow实现——不要重复造轮子
  • 6.1.3 TensorFlow高级模块layers用法简介
  • 6.2 ResNet实战:CIFAR-100数据集分类
  • 6.2.1 CIFAR-100数据集简介
  • 6.2.2 ResNet残差模块的实现
  • 6.2.3 ResNet网络的实现
  • 6.2.4 使用ResNet对CIFAR-100数据集进行分类
  • 6.3 ResNet的兄弟——ResNeXt
  • 6.3.1 ResNeXt诞生的背景
  • 6.3.2 ResNeXt残差模块的实现
  • 6.3.3 ResNeXt网络的实现
  • 6.3.4 ResNeXt和ResNet的比较
  • 6.4 本章小结
  • 第7章 使用循环神经网络的语音识别实战
  • 7.1 使用循环神经网络的语音识别
  • 7.2 长短期记忆网络
  • 7.2.1 Hochreiter、Schmidhuber和LSTM
  • 7.2.2 循环神经网络与长短时间序列
  • 7.2.3 LSTM的处理单元详解
  • 7.2.4 LSTM的研究发展
  • 7.2.5 LSTM的应用前景
  • 7.3 GRU层详解
  • 7.3.1 TensorFlow中的GRU层详解
  • 7.3.2 单向不行,那就双向
  • 7.4 站在巨人肩膀上的语音识别
  • 7.4.1 使用TensorFlow自带的模型进行文本分类
  • 7.4.2 用VGGNET替换ResNet是否可行
  • 7.5 本章小结
  • 第8章 梅西-阿根廷+意大利=?:有趣的词嵌入实战
  • 8.1 文本数据处理
  • 8.1.1 数据集介绍和数据清洗
  • 8.1.2 停用词的使用
  • 8.1.3 词向量训练模型Word2Vec使用介绍
  • 8.1.4 文本主题的提取:基于TF-IDF(选学)
  • 8.1.5 文本主题的提取:基于TextRank(选学)
  • 8.2 更多的Word Embedding方法——fastText和预训练词向量
  • 8.2.1 fastText的原理与基础算法
  • 8.2.2 fastText训练以及与TensorFlow 2.X的协同使用
  • 8.2.3 使用其他预训练参数做TensorFlow词嵌入矩阵(中文)
  • 8.3 针对文本的卷积神经网络模型:字符卷积
  • 8.3.1 字符(非单词)文本的处理
  • 8.3.2 卷积神经网络文本分类模型的实现:conv1d(一维卷积)
  • 8.4 针对文本的卷积神经网络模型:词卷积
  • 8.4.1 单词的文本处理
  • 8.4.2 卷积神经网络文本分类模型的实现:conv2d(二维卷积)
  • 8.5 使用卷积对文本分类的补充内容
  • 8.5.1 汉字的文本处理
  • 8.5.2 其他的一些细节
  • 8.6 本章小结
  • 第9章 从拼音到汉字——语音识别中的转换器
  • 9.1 编码器的核心:注意力模型
  • 9.1.1 输入层——初始词向量层和位置编码器层
  • 9.1.2 自注意力层(重点)
  • 9.1.3 ticks和LayerNormalization
  • 9.1.4 多头自注意力
  • 9.2 构建编码器架构
  • 9.2.1 前馈层的实现
  • 9.2.2 编码器的实现
  • 9.3 实战编码器——汉字拼音转化模型
  • 9.3.1 汉字拼音数据集处理
  • 9.3.2 汉字拼音转化模型的确定
  • 9.3.3 模型训练部分的编写
  • 9.3.4 推断函数的编写
  • 9.4 本章小结
  • 第10章 实战——基于MFCC和CTC的语音汉字转换
  • 10.1 语音识别的理论基础1——MFCC
  • 10.2 语音识别的理论基础2——CTC
  • 10.3 实战——语音汉字转换
  • 10.3.1 数据集THCHS-30简介
  • 10.3.2 数据集的提取与转化
  • 10.4 本章小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。