人工智能
类型
可以朗读
语音朗读
148千字
字数
2018-01-01
发行日期
展开全部
主编推荐语
深度学习原理、Kaldi工具包实现和调用教程
内容简介
本书介绍了深度学习原理及其实现,包括开源语音识别工具包Kaldi的使用与代码分析(Kaldi采用C++编写),附带DNN(深度神经网络)的实现;加权有限状态转换以及在Kaldi中的实现;如何使用Python、Perl和Java调用Kaldi。同时本书还会赠送相关代码和数据,以及与图书配套的PPT文件。
目录
- 封面页
- 书名页
- 版权页
- 作者简介
- 内容简介
- 前言
- 目录
- 第1章 语音识别技术
- 1.1 总体结构
- 1.2 Linux基础
- 1.3 安装Micro编辑器
- 1.4 安装Kaldi
- 1.5 yesno例子
- 1.5.1 数据准备
- 1.5.2 词典准备
- 1.6 构建一个简单的ASR
- 1.7 Voxforge例子
- 1.8 数据准备
- 1.9 加权有限状态转换
- 1.9.1 FSA
- 1.9.2 FST
- 1.9.3 WFST
- 1.9.4 Kaldi对OpenFst的改进
- 1.10 语音识别语料库
- 1.10.1 TIMIT语料库
- 1.10.2 LibriSpeech语料库
- 1.10.3 中文语料库
- 1.11 Linux shell脚本基础
- 1.11.1 Bash
- 1.11.2 AWK
- 第2章 C#开发语音识别
- 2.1 准备开发环境
- 2.2 计算卷积
- 2.3 记录语音
- 2.4 读入语音信号
- 2.5 离散傅里叶变换
- 2.6 移除静音
- 第3章 Perl开发语音识别
- 3.1 变量
- 3.1.1 数字
- 3.1.2 字符串
- 3.1.3 数组
- 3.1.4 散列表
- 3.2 多维数组
- 3.3 常量
- 3.4 操作符
- 3.5 控制流
- 3.6 文件与目录
- 3.7 例程
- 3.8 执行命令
- 3.9 正则表达式
- 3.9.1 基本类型
- 3.9.2 正则表达式模式
- 3.10 命令行参数
- 第4章 Python开发语音识别
- 4.1 Windows操作系统下安装Python
- 4.2 Linux操作系统下安装Python
- 4.3 选择版本
- 4.4 开发环境
- 4.5 注释
- 4.6 变量
- 4.6.1 数值
- 4.6.2 字符串
- 4.7 数组
- 4.8 列表
- 4.9 元组
- 4.10 字典
- 4.11 控制流
- 4.11.1 条件判断
- 4.11.2 循环
- 4.12 模块
- 4.13 函数
- 4.14 读写文件
- 4.15 面向对象编程
- 4.16 命令行参数
- 4.17 数据库
- 4.18 日志记录
- 4.19 异常处理
- 4.20 测试
- 4.21 语音活动检测
- 4.22 使用numpy
- 第5章 Java开发语音识别
- 5.1 实现卷积
- 5.2 KaldiJava
- 5.2.1 使用Ant
- 5.2.2 使用Maven
- 5.2.3 使用Gradle
- 5.2.4 概率分布函数
- 5.3 TensorFlow的Java接口
- 5.3.1 在Windows操作系统下使用TensorFlow
- 5.3.2 在Linux操作系统下使用TensorFlow
- 第6章 语音信号处理
- 6.1 使用FFmpeg
- 6.2 标注语音
- 6.3 时间序列
- 6.4 端点检测
- 6.5 动态时间规整
- 6.6 傅里叶变换
- 6.6.1 离散傅里叶变换
- 6.6.2 快速傅里叶变换
- 6.7 MFCC特征
- 6.8 说话者识别
- 6.9 解码
- 第7章 深度学习
- 7.1 神经网络基础
- 7.1.1 实现多层感知器
- 7.1.2 计算过程
- 7.2 卷积神经网络
- 7.3 搭建深度学习开发环境
- 7.3.1 使用Cygwin模拟环境
- 7.3.2 使用CMake
- 7.3.3 使用Keras
- 7.3.4 安装TensorFlow
- 7.3.5 安装TensorFlow的Docker容器
- 7.3.6 使用TensorFlow
- 7.3.7 一维卷积
- 7.3.8 二维卷积
- 7.3.9 扩张卷积
- 7.3.10 TensorFlow实现简单的语音识别
- 7.4 nnet3实现代码
- 7.4.1 数据类型
- 7.4.2 基本数据结构
- 7.5 编译Kaldi
- 7.6 端到端深度学习
- 7.7 Dropout解决过度拟合问题
- 7.8 矩阵运算
- 第8章 语言模型
- 8.1 概率语言模型
- 8.1.1 一元模型
- 8.1.2 数据基础
- 8.1.3 改进一元模型
- 8.1.4 二元词典
- 8.1.5 完全二叉树数组
- 8.1.6 三元词典
- 8.1.7 N元模型
- 8.1.8 生成语言模型
- 8.1.9 评估语言模型
- 8.1.10 平滑算法
- 8.2 KenLM语言模型工具包
- 8.3 ARPA文件格式
- 8.4 依存语言模型
- 附录
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。