展开全部

主编推荐语

帮助你在实践中学习和掌握Stable Diffusion。

内容简介

本书内容涵盖了Stable Diffusion的各个方面,从环境搭建到模型优化,从图像生成到视频制作,从LoRA到ControlNet。作者以清晰的思路和通俗易懂的语言,将复杂的理论知识和代码实现娓娓道来,并辅以大量的示例和插图,使读者能够轻松理解和上手。

本书还深入探讨了Stable Diffusion的一些高级应用,例如图像修复、超分辨率、文本反转、自定义提示词、生成视频、模型微调等,为读者打开了更广阔的应用空间。

目录

  • 版权信息
  • 译者序
  • 序言
  • 前言
  • 作者简介
  • 审校者简介
  • 第一部分 Stable Diffusion的旋风
  • 第1章 Stable Diffusion介绍
  • 1.1 扩散模型的演变
  • 1.2 为何选择Stable Diffusion
  • 1.3 使用哪一个版本的Stable Diffusion
  • 1.4 为什么选择本书
  • 1.5 参考文献
  • 第2章 搭建Stable Diffusion的开发环境
  • 2.1 硬件要求
  • 2.2 软件要求
  • 2.3 运行Stable Diffusion管道
  • 2.4 使用Google Colab
  • 2.5 使用Google Colab运行Stable Diffusion管道
  • 2.6 总结
  • 2.7 参考文献
  • 第3章 使用Stable Diffusion生成图像
  • 3.1 登录Hugging Face
  • 3.2 生成图像
  • 3.3 生成器种子
  • 3.4 采样调度器
  • 3.5 更换模型
  • 3.6 引导比例
  • 3.7 总结
  • 3.8 参考文献
  • 第4章 理解扩散模型背后的理论
  • 4.1 理解图像到噪声的转换过程
  • 4.2 一种更高效的前向扩散过程
  • 4.3 噪声到图像的训练过程
  • 4.4 噪声到图像的采样过程
  • 4.5 理解分类器引导去噪
  • 4.6 总结
  • 4.7 参考文献
  • 第5章 理解Stable Diffusion的工作原理
  • 5.1 潜空间中的Stable Diffusion
  • 5.2 使用diffusers生成潜向量
  • 5.3 使用CLIP生成文本嵌入
  • 5.4 初始化时间步嵌入
  • 5.5 初始化Stable Diffusion的UNet
  • 5.6 实现一个文本到图像的Stable Diffusion推理管道
  • 5.7 实现一个文本引导的图像到图像Stable Diffusion推理管道
  • 5.8 总结
  • 5.9 参考文献
  • 5.10 扩展阅读
  • 第6章 使用Stable Diffusion模型
  • 6.1 技术要求
  • 6.2 加载Diffusers模型
  • 6.3 从safetensors和.ckpt文件加载模型的检查点
  • 6.4 在Diffusers中使用.ckpt和safetensors文件
  • 6.5 关闭模型安全检查器
  • 6.6 将检查点模型文件转换为Diffusers格式
  • 6.7 使用Stable Diffusion XL
  • 6.8 总结
  • 6.9 参考文献
  • 第二部分 通过自定义功能改进扩散模型
  • 第7章 优化性能和显存的使用
  • 7.1 设置基线
  • 7.2 优化方案1:使用float16或bfloat16数据类型
  • 7.3 优化方案2:启用VAE平铺
  • 7.4 优化方案3:启用Xformers或使用PyTorch 2.0
  • 7.5 优化方案4:启用顺序CPU卸载
  • 7.6 优化方案5:启用模型CPU卸载
  • 7.7 优化方案6:令牌合并
  • 7.8 总结
  • 7.9 参考文献
  • 第8章 使用社区共享的LoRA
  • 8.1 技术要求
  • 8.2 LoRA技术的工作原理
  • 8.3 深入探索LoRA的内部结构
  • 8.4 创建一个加载LoRA的函数
  • 8.5 为什么LoRA有效
  • 8.6 总结
  • 8.7 参考文献
  • 第9章 使用文本反转
  • 9.1 使用文本反转进行Diffusers推理
  • 9.2 文本反转的工作原理
  • 9.3 构建一个自定义的文本反转加载器
  • 9.4 总结
  • 9.5 参考文献
  • 第10章 破解77个令牌限制和启用提示权重
  • 10.1 理解77个令牌的限制
  • 10.2 突破77个令牌的限制
  • 10.3 启用带权重的长提示
  • 10.4 验证工作
  • 10.5 使用社区管道突破77个令牌的限制
  • 10.6 总结
  • 10.7 参考文献
  • 第11章 图像修复和超分辨率
  • 11.1 理解相关术语
  • 11.2 使用图像到图像的扩散技术进行图像放大
  • 11.3 ControlNet分块图像放大
  • 11.4 总结
  • 11.5 参考文献
  • 第12章 计划提示解析
  • 12.1 技术要求
  • 12.2 使用Compel包
  • 12.3 构建自定义的计划提示管道
  • 12.4 总结
  • 12.5 参考文献
  • 第三部分 高级主题
  • 第13章 使用ControlNet生成图像
  • 13.1 什么是ControlNet,它有哪些独特之处
  • 13.2 如何使用ControlNet
  • 13.3 在管道中使用多个ControlNet
  • 13.4 ControlNet的工作原理
  • 13.5 ControlNet的更多用法
  • 13.6 总结
  • 13.7 参考文献
  • 第14章 使用Stable Diffusion生成视频
  • 14.1 技术要求
  • 14.2 文本到视频生成的原理
  • 14.3 AnimateDiff的实际应用
  • 14.4 使用Motion LoRA控制动画运动
  • 14.5 总结
  • 14.6 参考文献
  • 第15章 使用BLIP-2和LLaVA生成图像描述
  • 15.1 技术要求
  • 15.2 BLIP-2——启动语言-图像预训练
  • 15.3 LLaVA——大型语言与视觉助手
  • 15.4 总结
  • 15.5 参考文献
  • 第16章 探索Stable Diffusion XL
  • 16.1 Stable Diffusion XL有哪些新变化
  • 16.2 使用Stable Diffusion XL
  • 16.3 总结
  • 16.4 参考文献
  • 第17章 Stable Diffusion提示词优化之道
  • 17.1 什么是好的提示词
  • 17.2 使用LLM生成更好的提示词
  • 17.3 总结
  • 17.4 参考文献
  • 第四部分 将Stable Diffusion集成到应用中
  • 第18章 对象编辑和风格迁移
  • 18.1 使用Stable Diffusion编辑图像
  • 18.2 对象和风格迁移
  • 18.3 总结
  • 18.4 参考文献
  • 第19章 生成数据持久化
  • 19.1 探索和理解PNG文件结构
  • 19.2 在PNG图像文件中保存文本数据
  • 19.3 PNG数据存储限制
  • 19.4 总结
  • 19.5 参考文献
  • 第20章 创建交互式用户界面
  • 20.1 Gradio介绍
  • 20.2 开始使用Gradio
  • 20.3 Gradio基础知识
  • 20.4 使用Gradio构建一个Stable Diffusion文本到图像管道
  • 20.5 总结
  • 20.6 参考文献
  • 第21章 扩散模型的迁移学习
  • 21.1 技术要求
  • 21.2 使用PyTorch训练神经网络模型
  • 21.3 使用Hugging Face的Accelerate训练模型
  • 21.4 训练Stable Diffusion v1.5 LoRA
  • 21.5 总结
  • 21.6 参考文献
  • 第22章 Stable Diffusion与未来
  • 22.1 这波人工智能浪潮有何不同
  • 22.2 数学和编程的持久价值
  • 22.3 跟上人工智能创新的步伐
  • 22.4 构建负责任、遵守道德、保护隐私和安全的人工智能
  • 22.5 我们与人工智能不断演变的关系
  • 22.6 总结
  • 22.7 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。