展开全部

主编推荐语

系统介绍基于新闻语料的俄语连续语音识别方法。

内容简介

本书阐述了语音识别的基本类型,对近60年来国内外俄语连续语音识别研究现状进行评析,并建立声学模型和语言模型是俄语连续语音识别研究需要解决的关键问题。

全书共分以下几个部分:基于Kaldi设计实现俄语连续语音识别原型系统,使之具备在线识别和离线识别功能,以验证声学模型和语言模型优化算法的有效性,进而为面向特定领域的俄语语音识别实用系统研发提供理论方法、实验数据和关键技术支撑。

为了实现上述目标,需要进行如下环环紧扣的操作步骤:俄语语音语料的采集加工处理、俄语文本语料的采集清洗过滤、俄语发音词典的自动预测生成、声学模型建模基本单元(音素集)的确定、声学模型和语言模型的优化等。

目录

  • 版权信息
  • 内容简介
  • 前言
  • 第0章 绪论
  • 0.1 研究依据
  • 0.2 研究对象与研究目标
  • 0.3 研究方法
  • 0.4 研究意义
  • 0.5 本书的创新点
  • 0.6 语料来源
  • 0.7 本书的结构
  • 第1章 语音识别技术研究综述
  • 1.1 语音识别的定义与分类
  • 1.1.1 语音识别的定义
  • 1.1.2 语音识别的分类
  • 1.2 语音识别技术的研究进展
  • 1.2.1 语音识别技术的发展概况
  • 1.2.2 国外俄语语音识别技术的研究进展
  • 1.2.3 中国俄语语音识别技术的研究进展
  • 1.3 语音识别系统的基本原理
  • 1.3.1 特征提取
  • 1.3.2 声学模型
  • 1.3.3 语言模型
  • 1.3.4 解码
  • 1.4 语音识别技术研究所关注的关键问题
  • 本章小结
  • 第2章 语音数据的加工处理
  • 2.1 问题描述
  • 2.2 众包的定义及内涵
  • 2.2.1 众包的基本概念
  • 2.2.2 众包的基本流程
  • 2.2.3 众包的关键问题
  • 2.3 解决方案
  • 2.3.1 质量控制
  • 2.3.2 语音标注平台的架构
  • 2.3.3 标注平台的设计与实现
  • 2.4 语音标注
  • 2.4.1 语音有效性判断
  • 2.4.2 语音转写规范
  • 2.4.3 语音标注规范
  • 2.5 实验设计与结果分析
  • 2.5.1 实验设计
  • 2.5.2 结果分析
  • 2.5.3 结论
  • 本章小结
  • 第3章 俄语声学模型的建立
  • 3.1 连续语音识别
  • 3.1.1 连续语音识别的整体模型
  • 3.1.2 声学模型训练的HMM-GMM方法
  • 3.1.3 声学模型训练中的HMM-DNN方法
  • 3.2 俄语语音学概述
  • 3.2.1 俄语的使用及分布情况
  • 3.2.2 俄语语音的基本特点
  • 3.2.3 俄语音素的发音特征
  • 3.2.4 俄语元音音素的随位变化
  • 3.2.5 俄语辅音音素的随位变化
  • 3.3 俄语声学单元的选择
  • 3.3.1 俄语SAMPA音素集
  • 3.3.2 俄语音系表
  • 3.4 实验设计与结果分析
  • 3.4.1 实验设计
  • 3.4.2 结果分析
  • 本章小结
  • 第4章 俄语语言模型的建立
  • 4.1 文本语料的准备与清洗
  • 4.1.1 数据来源的筛选
  • 4.1.2 数据爬取
  • 4.1.3 数据的去重与清洗
  • 4.1.4 格式化处理
  • 4.2 语言模型简述
  • 4.2.1 语言模型的平滑技术
  • 4.2.2 语言模型的剪枝算法
  • 4.3 语言模型的训练流程
  • 4.3.1 语言模型的训练实现
  • 4.3.2 词典的选择
  • 4.3.3 LM的剪枝与优化
  • 4.4 实验结果分析
  • 4.4.1 词典规模测试
  • 4.4.2 语料规模测试
  • 4.4.3 语言模型剪枝测试
  • 本章小结
  • 第5章 基于Kaldi的俄语语音识别原型系统
  • 5.1 系统设计的目标与原则
  • 5.1.1 系统设计的目标
  • 5.1.2 系统设计的原则
  • 5.2 系统的开发环境与整体架构
  • 5.2.1 系统的开发环境
  • 5.2.2 系统的整体架构
  • 5.3 Kaldi环境的搭建
  • 5.3.1 Kaldi及实验环境
  • 5.3.2 Kaldi训练服务器的搭建
  • 5.3.3 AM训练数据及参数设置
  • 5.3.4 LM训练数据及参数设置
  • 5.4 Kaldi训练优化
  • 5.4.1 Kaldi声学建模
  • 5.4.2 GPU加速
  • 5.5 语音识别原型系统的设计
  • 5.5.1 系统GUI的设计
  • 5.5.2 在线识别功能
  • 5.5.3 离线识别功能
  • 5.6 实验设计与结果分析
  • 5.6.1 实验设计
  • 5.6.2 实验结果
  • 5.6.3 结果分析
  • 本章小结
  • 第6章 总结与展望
  • 6.1 本书的主要成果
  • 6.2 未来的研究计划
  • 附录A 英汉术语对照表
  • 附录B 其他相关资料
  • B.1 俄语发音词典(76277个词形)示例
  • B.2 俄语解码词表(189971个词形)示例
  • B.3 俄语字符Unicode编码对照表
  • B.4 俄语语音格式化程序(转换为16KB、16b)
  • B.5 俄语文本转Unicode编码程序
  • B.6 从https://twitter.com网站上下载的部分网页文件(json格式)示例
  • B.7 从http://www.interfax.ru网站上下载的部分网页文件(json格式)示例
  • B.8 俄语拉丁字母转写表
  • 参考文献
  • 附录CD
展开全部

评分及书评

评分不足
1个评分
  • 用户头像
    给这本书评了
    1.0

    建成了俄语语音识别语音语料库和文本语料库。语音语料库包含 360 小时的带标注语音语料,语音内容包括整句和数字串等;文本语料库规模达 10GB,采集来源主要是通用领域的俄罗斯境内俄语网站上的新闻类语料和 Twitter 上的消息类语料。②建立了俄语发音词典。发音词典是俄语连续语音识别系统的核心资源,是俄语转写为相应俄语标准发音的基础,该词典包含 76277 个词形。③设计和研发了基于众包的俄语语音标注平台。语音语料的标注始终是研究者面临的主要难题,实现海量语音的标注并在有限的时间内提高工作效率是研究者关注的焦点。基于众包的标注平台实现了海量语音数据的快速有效标注,节省了研究者的时间,提高了工作效率。④设计和研发了面向俄语文本的过滤清洗系统。由于网络上的文本结构复杂多变,从众多不规则结构中提取出统一格式的文本并把其中的噪声去除,才能生成语言模型训练所需的文本语料。本书开发的过滤清洗系统的功能是实现对从 Web 爬取的俄语文本进行过滤清洗以去除噪声,达到可以进行语言模型训练的标准。⑤设计了俄语语音识别音素集和字音转换规则,降低了声学模型的训练难度,提高了俄语声学模型的训练效率,基于数据驱动的方式,采用 Phonetisaurus Sequitur 两种算法对比验证了有效性。⑥分析和研究了语言模型的优化算法,采用 KNKatz 平滑技术和 REP 语言模型剪枝算法,优化验证在 WER 基本不变的情况下降低语言模型的规模。⑦基于 Kaldi 建立俄语连续语音识别原型系统。在训练声学模型、语言模型和发音词典的基础上,通过编写代码实现俄语语音的在线识别功能和离线识别功能,在一定程度上填补了中国俄语语音识别研究领域的空白,能够为特定领域的俄语语音识别应用系统的研发提供理论与技术支撑。

      转发
      评论

    出版方

    清华大学出版社

    清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。