科技
类型
可以朗读
语音朗读
158千字
字数
2025-07-01
发行日期
展开全部
主编推荐语
详解Al语音与音乐生成的核心知识与应用。
内容简介
本书结合33个典型案例,从AI语音与音乐生成的发展历史、基本原理、平台与工具、场景应用、综合实战5方面详细介绍其核心知识、主流工具、操作技巧和应用实践等,从而帮助读者系统掌握AI语音与音乐生成的相关知识,并给相关企业解决真实场景问题提供参考。
全书共19章,分为5篇。
第1篇AI语音概论,系统介绍AI语音发展历史、AI语音技术引发的社会争议和AI语音未来展望;
第2篇音频技术原理,主要介绍语音识别、语音合成和音乐生成的基本原理等;
第3篇AI语音平台与工具,主要介绍国内综合语音平台、国外综合语音平台、常用的专业化语音平台、重要的开源AI语音模型等;
第4篇AI语音场景应用,主要介绍声音处理、声音识别、语音合成和音乐生成4种常见的AI语音场景应用;
第5篇AI语音综合应用实战,首先介绍AI语音类工作流,然后介绍如何综合使用前面章节介绍的工具、模型和技巧,带领读者进行应用实践,从而完成AI翻唱、文案配音、“复活”亲人和郭老师说英语4个热门AI语音综合应用实战案例。
目录
- 版权信息
- 内容简介
- 作者简介
- 前言
- 第1篇 AI语音概论
- 第1章 AI语音简史
- 1.1 缓慢进步时期
- 1.2 快速发展时期
- 1.3 突破爆发时期
- 第2章 AI语音技术引发的社会争议
- 2.1 AI语音电诈
- 2.2 利用AI语音“复活”亲人
- 2.3 AI语音产品版权之争
- 第3章 AI语音未来展望
- 3.1 AI音乐——让听觉更自由
- 3.2 语音交互——迎接智能新世界
- 第2篇 音频技术原理
- 第4章 语音识别原理
- 4.1 传统语音识别系统的构成
- 4.2 传统语音识别流程
- 4.3 端到端语音识别系统的构成
- 4.4 端到端语音识别流程
- 第5章 语音合成原理
- 5.1 语音合成基础
- 5.2 语音合成技术框架
- 第6章 音乐生成原理
- 6.1 音乐生成基础
- 6.2 如何通过提示词控制音乐生成效果
- 第3篇 AI语音平台与工具
- 第7章 国内综合语音平台
- 7.1 百度语音平台
- 7.2 讯飞开放语音平台
- 7.3 华为云语音平台
- 7.4 阿里云语音平台
- 7.5 其他语音平台
- 第8章 国外综合语音平台
- 8.1 Microsoft Azure语音平台
- 8.2 Google Cloud语音平台
- 8.3 其他语音平台
- 第9章 常用的专业化语音平台
- 9.1 文本转语音类在线平台
- 9.2 音乐生成类在线平台
- 9.3 音频处理类在线平台
- 9.4 综合类在线平台
- 9.5 多模态语音平台
- 第10章 重要的开源AI语音模型
- 10.1 环境搭建
- 10.2 语音识别开源模型
- 10.3 语音合成开源模型
- 10.4 声音转换开源模型
- 10.5 音乐生成开源模型
- 第4篇 AI语音场景应用
- 第11章 声音处理
- 11.1 UVR5使用简介
- 11.2 声音降噪
- 11.3 音频切割
- 11.4 音频分离
- 11.5 其他处理工具
- 第12章 声音识别
- 12.1 语音识别案例:将语音记录成文字
- 12.2 语种识别案例:德语还是法语
- 12.3 声纹识别案例:嗓音身份证
- 12.4 情感识别案例:开心还是悲伤
- 12.5 语音唤醒案例:打开空调
- 12.6 声音分析案例:发电站水泵安全检测
- 12.7 音乐分析案例:用Sonoteller工具专业化分析音乐
- 12.8 其他识别工具
- 第13章 语音合成
- 13.1 文字转语音案例:盲人听报
- 13.2 声音克隆案例:声纹永生
- 13.3 语言替换案例:中、日、英全精通
- 13.4 音色替换案例:零门槛翻唱热门歌曲
- 13.5 实时变声案例:变声器
- 第14章 音乐生成
- 14.1 提示词基础
- 14.2 文生音乐
- 14.3 通过图像生成音乐和音效
- 14.4 通过参考音乐生成新的音乐
- 第5篇 AI语音综合应用实战
- 第15章 AI语音类工作流
- 15.1 文字转语音
- 15.2 数字人口播
- 15.3 语音克隆
- 15.4 音乐生成
- 第16章 AI翻唱
- 16.1 数据预处理
- 16.2 声音训练
- 16.3 声音推理
- 16.4 影响声音模型质量的因素和其他音色替换工具与应用场景
- 第17章 文案配音
- 17.1 生成文案
- 17.2 基于在线平台和开源模型进行文案配音
- 17.3 生成背景音乐
- 17.4 生成视频和图片
- 17.5 剪辑整合
- 17.6 其他文案配音工具与应用场景
- 第18章 “复活”亲人
- 18.1 声音克隆
- 18.2 数字人对口型
- 18.3 工作流整合
- 18.4 其他语音合成工具与应用场景
- 第19章 郭老师说英语
- 19.1 使用开源模型进行同声传译
- 19.2 使用在线平台进行同声传译
- 19.3 其他同声传译工具与应用场景
- 参考文献
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。
