互联网
类型
可以朗读
语音朗读
128千字
字数
2025-05-01
发行日期
展开全部
主编推荐语
帮助你在实践中学习和掌握Stable Diffusion。
内容简介
本书内容涵盖了Stable Diffusion的各个方面,从环境搭建到模型优化,从图像生成到视频制作,从LoRA到ControlNet。作者以清晰的思路和通俗易懂的语言,将复杂的理论知识和代码实现娓娓道来,并辅以大量的示例和插图,使读者能够轻松理解和上手。
本书还深入探讨了Stable Diffusion的一些高级应用,例如图像修复、超分辨率、文本反转、自定义提示词、生成视频、模型微调等,为读者打开了更广阔的应用空间。
目录
- 版权信息
- 译者序
- 序言
- 前言
- 作者简介
- 审校者简介
- 第一部分 Stable Diffusion的旋风
- 第1章 Stable Diffusion介绍
- 1.1 扩散模型的演变
- 1.2 为何选择Stable Diffusion
- 1.3 使用哪一个版本的Stable Diffusion
- 1.4 为什么选择本书
- 1.5 参考文献
- 第2章 搭建Stable Diffusion的开发环境
- 2.1 硬件要求
- 2.2 软件要求
- 2.3 运行Stable Diffusion管道
- 2.4 使用Google Colab
- 2.5 使用Google Colab运行Stable Diffusion管道
- 2.6 总结
- 2.7 参考文献
- 第3章 使用Stable Diffusion生成图像
- 3.1 登录Hugging Face
- 3.2 生成图像
- 3.3 生成器种子
- 3.4 采样调度器
- 3.5 更换模型
- 3.6 引导比例
- 3.7 总结
- 3.8 参考文献
- 第4章 理解扩散模型背后的理论
- 4.1 理解图像到噪声的转换过程
- 4.2 一种更高效的前向扩散过程
- 4.3 噪声到图像的训练过程
- 4.4 噪声到图像的采样过程
- 4.5 理解分类器引导去噪
- 4.6 总结
- 4.7 参考文献
- 第5章 理解Stable Diffusion的工作原理
- 5.1 潜空间中的Stable Diffusion
- 5.2 使用diffusers生成潜向量
- 5.3 使用CLIP生成文本嵌入
- 5.4 初始化时间步嵌入
- 5.5 初始化Stable Diffusion的UNet
- 5.6 实现一个文本到图像的Stable Diffusion推理管道
- 5.7 实现一个文本引导的图像到图像Stable Diffusion推理管道
- 5.8 总结
- 5.9 参考文献
- 5.10 扩展阅读
- 第6章 使用Stable Diffusion模型
- 6.1 技术要求
- 6.2 加载Diffusers模型
- 6.3 从safetensors和.ckpt文件加载模型的检查点
- 6.4 在Diffusers中使用.ckpt和safetensors文件
- 6.5 关闭模型安全检查器
- 6.6 将检查点模型文件转换为Diffusers格式
- 6.7 使用Stable Diffusion XL
- 6.8 总结
- 6.9 参考文献
- 第二部分 通过自定义功能改进扩散模型
- 第7章 优化性能和显存的使用
- 7.1 设置基线
- 7.2 优化方案1:使用float16或bfloat16数据类型
- 7.3 优化方案2:启用VAE平铺
- 7.4 优化方案3:启用Xformers或使用PyTorch 2.0
- 7.5 优化方案4:启用顺序CPU卸载
- 7.6 优化方案5:启用模型CPU卸载
- 7.7 优化方案6:令牌合并
- 7.8 总结
- 7.9 参考文献
- 第8章 使用社区共享的LoRA
- 8.1 技术要求
- 8.2 LoRA技术的工作原理
- 8.3 深入探索LoRA的内部结构
- 8.4 创建一个加载LoRA的函数
- 8.5 为什么LoRA有效
- 8.6 总结
- 8.7 参考文献
- 第9章 使用文本反转
- 9.1 使用文本反转进行Diffusers推理
- 9.2 文本反转的工作原理
- 9.3 构建一个自定义的文本反转加载器
- 9.4 总结
- 9.5 参考文献
- 第10章 破解77个令牌限制和启用提示权重
- 10.1 理解77个令牌的限制
- 10.2 突破77个令牌的限制
- 10.3 启用带权重的长提示
- 10.4 验证工作
- 10.5 使用社区管道突破77个令牌的限制
- 10.6 总结
- 10.7 参考文献
- 第11章 图像修复和超分辨率
- 11.1 理解相关术语
- 11.2 使用图像到图像的扩散技术进行图像放大
- 11.3 ControlNet分块图像放大
- 11.4 总结
- 11.5 参考文献
- 第12章 计划提示解析
- 12.1 技术要求
- 12.2 使用Compel包
- 12.3 构建自定义的计划提示管道
- 12.4 总结
- 12.5 参考文献
- 第三部分 高级主题
- 第13章 使用ControlNet生成图像
- 13.1 什么是ControlNet,它有哪些独特之处
- 13.2 如何使用ControlNet
- 13.3 在管道中使用多个ControlNet
- 13.4 ControlNet的工作原理
- 13.5 ControlNet的更多用法
- 13.6 总结
- 13.7 参考文献
- 第14章 使用Stable Diffusion生成视频
- 14.1 技术要求
- 14.2 文本到视频生成的原理
- 14.3 AnimateDiff的实际应用
- 14.4 使用Motion LoRA控制动画运动
- 14.5 总结
- 14.6 参考文献
- 第15章 使用BLIP-2和LLaVA生成图像描述
- 15.1 技术要求
- 15.2 BLIP-2——启动语言-图像预训练
- 15.3 LLaVA——大型语言与视觉助手
- 15.4 总结
- 15.5 参考文献
- 第16章 探索Stable Diffusion XL
- 16.1 Stable Diffusion XL有哪些新变化
- 16.2 使用Stable Diffusion XL
- 16.3 总结
- 16.4 参考文献
- 第17章 Stable Diffusion提示词优化之道
- 17.1 什么是好的提示词
- 17.2 使用LLM生成更好的提示词
- 17.3 总结
- 17.4 参考文献
- 第四部分 将Stable Diffusion集成到应用中
- 第18章 对象编辑和风格迁移
- 18.1 使用Stable Diffusion编辑图像
- 18.2 对象和风格迁移
- 18.3 总结
- 18.4 参考文献
- 第19章 生成数据持久化
- 19.1 探索和理解PNG文件结构
- 19.2 在PNG图像文件中保存文本数据
- 19.3 PNG数据存储限制
- 19.4 总结
- 19.5 参考文献
- 第20章 创建交互式用户界面
- 20.1 Gradio介绍
- 20.2 开始使用Gradio
- 20.3 Gradio基础知识
- 20.4 使用Gradio构建一个Stable Diffusion文本到图像管道
- 20.5 总结
- 20.6 参考文献
- 第21章 扩散模型的迁移学习
- 21.1 技术要求
- 21.2 使用PyTorch训练神经网络模型
- 21.3 使用Hugging Face的Accelerate训练模型
- 21.4 训练Stable Diffusion v1.5 LoRA
- 21.5 总结
- 21.6 参考文献
- 第22章 Stable Diffusion与未来
- 22.1 这波人工智能浪潮有何不同
- 22.2 数学和编程的持久价值
- 22.3 跟上人工智能创新的步伐
- 22.4 构建负责任、遵守道德、保护隐私和安全的人工智能
- 22.5 我们与人工智能不断演变的关系
- 22.6 总结
- 22.7 参考文献
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。