展开全部

主编推荐语

一本了解扩散模型从原理到实战。

内容简介

AIGC的应用领域日益广泛,而在图像生成领域,扩散模型则是AIGC技术的一个重要应用。本书以扩散模型理论知识为切入点,由浅入深地介绍了扩散模型的相关知识,并以大量生动有趣的实战案例帮助读者理解扩散模型的相关细节。

全书共8章,详细介绍了扩散模型的原理,以及扩散模型退化、采样、DDIM反转等重要概念与方法,此外还介绍了StableDiffusion、ControlNet与音频扩散模型等内容。最后,附录提供由扩散模型生成的高质量图像集以及HuggingFace社区的相关资源。

本书既适合所有对扩散模型感兴趣的AI研究人员、相关科研人员以及在工作中有绘图需求的从业人员阅读,也可以作为计算机等相关专业学生的参考书。

目录

  • 版权信息
  • 内容提要
  • 大咖推荐
  • 前言
  • 致谢
  • 资源与支持
  • 第1章 扩散模型简介
  • 1.1 扩散模型的原理
  • 1.1.1 生成模型
  • 1.1.2 扩散过程
  • 1.2 扩散模型的发展
  • 1.2.1 开始扩散:基础扩散模型的提出与改进
  • 1.2.2 加速生成:采样器
  • 1.2.3 刷新纪录:基于显式分类器引导的扩散模型
  • 1.2.4 引爆网络:基于CLIP的多模态图像生成
  • 1.2.5 再次“出圈”:大模型的“再学习”方法——DreamBooth、LoRA和ControlNet
  • 1.2.6 开启AI作画时代:众多商业公司提出成熟的图像生成解决方案
  • 1.3 扩散模型的应用
  • 1.3.1 计算机视觉
  • 1.3.2 时序数据预测
  • 1.3.3 自然语言
  • 1.3.4 基于文本的多模态
  • 1.3.5 AI基础科学
  • 第2章 Hugging Face简介
  • 2.1 Hugging Face核心功能介绍
  • 2.2 Hugging Face开源库
  • 2.3 Gradio工具介绍
  • 第3章 从零开始搭建扩散模型
  • 3.1 环境准备
  • 3.1.1 环境的创建与导入
  • 3.1.2 数据集测试
  • 3.2 扩散模型之退化过程
  • 3.3 扩散模型之训练
  • 3.3.1 UNet网络
  • 3.3.2 开始训练模型
  • 3.4 扩散模型之采样过程
  • 3.4.1 采样过程
  • 3.4.2 与DDPM的区别
  • 3.4.3 UNet2DModel模型
  • 3.5 扩散模型之退化过程示例
  • 3.5.1 退化过程
  • 3.5.2 最终的训练目标
  • 3.6 拓展知识
  • 3.6.1 时间步的调节
  • 3.6.2 采样(取样)的关键问题
  • 3.7 本章小结
  • 第4章 Diffusers实战
  • 4.1 环境准备
  • 4.1.1 安装Diffusers库
  • 4.1.2 DreamBooth
  • 4.1.3 Diffusers核心API
  • 4.2 实战:生成美丽的蝴蝶图像
  • 4.2.1 下载蝴蝶图像集
  • 4.2.2 扩散模型之调度器
  • 4.2.3 定义扩散模型
  • 4.2.4 创建扩散模型训练循环
  • 4.2.5 图像的生成
  • 4.3 拓展知识
  • 4.3.1 将模型上传到Hugging Face Hub
  • 4.3.2 使用Accelerate库扩大训练模型的规模
  • 4.4 本章小结
  • 第5章 微调和引导
  • 5.1 环境准备
  • 5.2 载入一个预训练过的管线
  • 5.3 DDIM——更快的采样过程
  • 5.4 扩散模型之微调
  • 5.4.1 实战:微调
  • 5.4.2 使用一个最小化示例程序来微调模型
  • 5.4.3 保存和载入微调过的管线
  • 5.5 扩散模型之引导
  • 5.5.1 实战:引导
  • 5.5.2 CLIP引导
  • 5.6 分享你的自定义采样训练
  • 5.7 实战:创建一个类别条件扩散模型
  • 5.7.1 配置和数据准备
  • 5.7.2 创建一个以类别为条件的UNet模型
  • 5.7.3 训练和采样
  • 5.8 本章小结
  • 第6章 Stable Diffusion
  • 6.1 基本概念
  • 6.1.1 隐式扩散
  • 6.1.2 以文本为生成条件
  • 6.1.3 无分类器引导
  • 6.1.4 其他类型的条件生成模型:Img2Img、Inpainting与Depth2Img模型
  • 6.1.5 使用DreamBooth进行微调
  • 6.2 环境准备
  • 6.3 从文本生成图像
  • 6.4 Stable Diffusion Pipeline
  • 6.4.1 可变分自编码器
  • 6.4.2 分词器和文本编码器
  • 6.4.3 UNet
  • 6.4.4 调度器
  • 6.4.5 DIY采样循环
  • 6.5 其他管线介绍
  • 6.5.1 Img2Img
  • 6.5.2 Inpainting
  • 6.5.3 Depth2Image
  • 6.6 本章小结
  • 第7章 DDIM反转
  • 7.1 实战:反转
  • 7.1.1 配置
  • 7.1.2 载入一个预训练过的管线
  • 7.1.3 DDIM采样
  • 7.1.4 反转
  • 7.2 组合封装
  • 7.3 ControlNet的结构与训练过程
  • 7.4 ControlNet示例
  • 7.4.1 ControlNet与Canny Edge
  • 7.4.2 ControlNet与M-LSD Lines
  • 7.4.3 ControlNet与HED Boundary
  • 7.4.4 ControlNet与涂鸦画
  • 7.4.5 ControlNet与人体关键点
  • 7.4.6 ControlNet与语义分割
  • 7.5 ControlNet实战
  • 7.6 本章小结
  • 第8章 音频扩散模型
  • 8.1 实战:音频扩散模型
  • 8.1.1 设置与导入
  • 8.1.2 从预训练的音频扩散模型管线中进行采样
  • 8.1.3 从音频到频谱的转换
  • 8.1.4 微调管线
  • 8.1.5 训练循环
  • 8.2 将模型上传到Hugging Face Hub
  • 8.3 本章小结
  • 附录A 精美图像集展示
  • 附录B Hugging Face相关资源
  • B.1 学习资源
  • B.2 保持联络
展开全部

评分及书评

评分不足
1个评分
  • 用户头像
    给这本书评了
    5.0

    一本值得细细体会的书,里面代码都可以直接 run,可以慢慢体会扩散模型。

      转发
      评论

    出版方

    人民邮电出版社

    人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。