展开全部

主编推荐语

详解Al语音与音乐生成的核心知识与应用。

内容简介

本书结合33个典型案例,从AI语音与音乐生成的发展历史、基本原理、平台与工具、场景应用、综合实战5方面详细介绍其核心知识、主流工具、操作技巧和应用实践等,从而帮助读者系统掌握AI语音与音乐生成的相关知识,并给相关企业解决真实场景问题提供参考。

全书共19章,分为5篇。

第1篇AI语音概论,系统介绍AI语音发展历史、AI语音技术引发的社会争议和AI语音未来展望;

第2篇音频技术原理,主要介绍语音识别、语音合成和音乐生成的基本原理等;

第3篇AI语音平台与工具,主要介绍国内综合语音平台、国外综合语音平台、常用的专业化语音平台、重要的开源AI语音模型等;

第4篇AI语音场景应用,主要介绍声音处理、声音识别、语音合成和音乐生成4种常见的AI语音场景应用;

第5篇AI语音综合应用实战,首先介绍AI语音类工作流,然后介绍如何综合使用前面章节介绍的工具、模型和技巧,带领读者进行应用实践,从而完成AI翻唱、文案配音、“复活”亲人和郭老师说英语4个热门AI语音综合应用实战案例。

目录

  • 版权信息
  • 内容简介
  • 作者简介
  • 前言
  • 第1篇 AI语音概论
  • 第1章 AI语音简史
  • 1.1 缓慢进步时期
  • 1.2 快速发展时期
  • 1.3 突破爆发时期
  • 第2章 AI语音技术引发的社会争议
  • 2.1 AI语音电诈
  • 2.2 利用AI语音“复活”亲人
  • 2.3 AI语音产品版权之争
  • 第3章 AI语音未来展望
  • 3.1 AI音乐——让听觉更自由
  • 3.2 语音交互——迎接智能新世界
  • 第2篇 音频技术原理
  • 第4章 语音识别原理
  • 4.1 传统语音识别系统的构成
  • 4.2 传统语音识别流程
  • 4.3 端到端语音识别系统的构成
  • 4.4 端到端语音识别流程
  • 第5章 语音合成原理
  • 5.1 语音合成基础
  • 5.2 语音合成技术框架
  • 第6章 音乐生成原理
  • 6.1 音乐生成基础
  • 6.2 如何通过提示词控制音乐生成效果
  • 第3篇 AI语音平台与工具
  • 第7章 国内综合语音平台
  • 7.1 百度语音平台
  • 7.2 讯飞开放语音平台
  • 7.3 华为云语音平台
  • 7.4 阿里云语音平台
  • 7.5 其他语音平台
  • 第8章 国外综合语音平台
  • 8.1 Microsoft Azure语音平台
  • 8.2 Google Cloud语音平台
  • 8.3 其他语音平台
  • 第9章 常用的专业化语音平台
  • 9.1 文本转语音类在线平台
  • 9.2 音乐生成类在线平台
  • 9.3 音频处理类在线平台
  • 9.4 综合类在线平台
  • 9.5 多模态语音平台
  • 第10章 重要的开源AI语音模型
  • 10.1 环境搭建
  • 10.2 语音识别开源模型
  • 10.3 语音合成开源模型
  • 10.4 声音转换开源模型
  • 10.5 音乐生成开源模型
  • 第4篇 AI语音场景应用
  • 第11章 声音处理
  • 11.1 UVR5使用简介
  • 11.2 声音降噪
  • 11.3 音频切割
  • 11.4 音频分离
  • 11.5 其他处理工具
  • 第12章 声音识别
  • 12.1 语音识别案例:将语音记录成文字
  • 12.2 语种识别案例:德语还是法语
  • 12.3 声纹识别案例:嗓音身份证
  • 12.4 情感识别案例:开心还是悲伤
  • 12.5 语音唤醒案例:打开空调
  • 12.6 声音分析案例:发电站水泵安全检测
  • 12.7 音乐分析案例:用Sonoteller工具专业化分析音乐
  • 12.8 其他识别工具
  • 第13章 语音合成
  • 13.1 文字转语音案例:盲人听报
  • 13.2 声音克隆案例:声纹永生
  • 13.3 语言替换案例:中、日、英全精通
  • 13.4 音色替换案例:零门槛翻唱热门歌曲
  • 13.5 实时变声案例:变声器
  • 第14章 音乐生成
  • 14.1 提示词基础
  • 14.2 文生音乐
  • 14.3 通过图像生成音乐和音效
  • 14.4 通过参考音乐生成新的音乐
  • 第5篇 AI语音综合应用实战
  • 第15章 AI语音类工作流
  • 15.1 文字转语音
  • 15.2 数字人口播
  • 15.3 语音克隆
  • 15.4 音乐生成
  • 第16章 AI翻唱
  • 16.1 数据预处理
  • 16.2 声音训练
  • 16.3 声音推理
  • 16.4 影响声音模型质量的因素和其他音色替换工具与应用场景
  • 第17章 文案配音
  • 17.1 生成文案
  • 17.2 基于在线平台和开源模型进行文案配音
  • 17.3 生成背景音乐
  • 17.4 生成视频和图片
  • 17.5 剪辑整合
  • 17.6 其他文案配音工具与应用场景
  • 第18章 “复活”亲人
  • 18.1 声音克隆
  • 18.2 数字人对口型
  • 18.3 工作流整合
  • 18.4 其他语音合成工具与应用场景
  • 第19章 郭老师说英语
  • 19.1 使用开源模型进行同声传译
  • 19.2 使用在线平台进行同声传译
  • 19.3 其他同声传译工具与应用场景
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。