科技
类型
可以朗读
语音朗读
111千字
字数
2025-11-01
发行日期
展开全部
主编推荐语
深入解析扩散模型,强化学习的核心融合,实现生成与决策双向赋能。
内容简介
本书通过系统化的理论讲解与实战导向的案例分析,帮助读者掌握扩散模型与强化学习的结合应用,探索其针对实际问题的解决方案。
书中首先介绍了生成模型的发展史,特别是扩散模型的起源和核心思想,为读者学习后续章节奠定基础;然后深入探讨了扩散模型在构建决策智能体、结合价值函数等方面的应用,还详细讲解了如何利用扩散模型解决轨迹优化和策略优化等问题;接下来探索了扩散模型在多任务泛化和世界模型建模方面的扩展应用,展示了其在复杂环境中的适应性和灵活性;最后讨论了利用强化学习优化扩散模型的新进展,以及扩散模型在决策问题上的前沿研究方向。
目录
- 版权信息
- 内容提要
- 前言
- 资源与支持
- 第1章 起源:扩散模型简介
- 1.1 生成模型的发展史
- 1.2 扩散模型核心思想介绍
- 1.2.1 扩散过程及其逆过程
- 1.2.2 扩散模型的训练
- 1.2.3 扩散模型的推断
- 1.2.4 扩散模型的评价指标
- 1.2.5 扩散模型的类型
- 1.3 条件扩散模型
- 1.3.1 分类器引导采样和无分类器引导采样
- 1.3.2 ControlNet
- 1.4 扩散模型加速采样方法
- 1.4.1 training-free加速采样方法
- 1.4.2 training-based加速采样方法
- 参考文献
- 第2章 基石:扩散模型与轨迹优化问题
- 2.1 离线强化学习
- 2.2 第一个基于扩散模型的决策智能体:Plan Diffuser
- 2.2.1 以轨迹片段为对象的扩散模型
- 2.2.2 Plan Diffuser的建模与优化
- 2.2.3 Plan Diffuser的特性
- 2.2.4 从实验中解析Plan Diffuser
- 2.2.5 灵活的测试目标
- 2.2.6 离线强化学习
- 2.2.7 扩散模型热启动
- 2.3 条件生成决策模型的集大成者:Decision Diffuser
- 2.3.1 Decision Diffuser的建模与优化
- 2.3.2 回报以外的条件变量
- 2.4 代码实战
- 2.4.1 导入第三方库
- 2.4.2 准备数据集
- 2.4.3 配置扩散模型
- 2.4.4 实例化扩散模型
- 2.4.5 训练条件扩散模型
- 2.4.6 条件采样
- 参考文献
- 第3章 基石:扩散模型与价值函数的结合
- 3.1 强化学习中基于价值函数的策略优化
- 3.2 Diffusion-QL:高效建模离线数据集中的行为策略
- 3.3 CEP和QGPO:借助能量函数设计新的引导器
- 3.3.1 对比能量预测法
- 3.3.2 基于Q价值函数引导的策略优化
- 3.4 LDCQ:扩散模型约束下的Q-learning
- 3.4.1 背景知识
- 3.4.2 隐空间扩散强化学习
- 3.4.3 以目标为条件的隐空间扩散模型
- 3.4.4 实验与分析
- 3.4.5 局限性与展望
- 参考文献
- 第4章 基石:扩散模型训练技巧指南
- 4.1 如何设计去噪网络
- 4.1.1 U-Net
- 4.1.2 DiT
- 4.1.3 文本编码器
- 4.2 如何设计训练方案
- 4.2.1 连续时间扩散模型的训练
- 4.2.2 扩散过程的设计与选择
- 4.2.3 扩散模型建模目标与训练方式的选择
- 4.3 如何选择扩散模型的类型
- 4.4 代码实战
- 参考文献
- 第5章 扩展:多任务泛化
- 5.1 离线元强化学习
- 5.2 MetaDiffuser
- 5.2.1 面向任务的上下文编码器
- 5.2.2 条件扩散模型架构
- 5.2.3 双引导增强规划器
- 参考文献
- 第6章 扩展:世界模型建模
- 6.1 世界模型简介
- 6.2 基于RNN的世界模型
- 6.2.1 论文“World Models”
- 6.2.2 DreamerV3
- 6.3 基于Transformer的世界模型
- 6.3.1 IRIS
- 6.3.2 TWM
- 6.3.3 STORM
- 6.4 基于扩散模型的世界模型
- 6.4.1 扩散范式的最佳实践
- 6.4.2 实验结果
- 参考文献
- 第7章 反转:用强化学习来优化扩散模型
- 7.1 引言
- 7.2 DDPO:将去噪过程建模为序列决策过程
- 7.2.1 将扩散模型建模为多步MDP
- 7.2.2 策略梯度估计
- 7.2.3 各种奖励模型下的采样表现
- 7.3 Diffusion-DPO:运用于扩散模型的直接偏好优化
- 7.3.1 从RLHF到DPO
- 7.3.2 将RLHF用于文本图像对齐
- 7.3.3 将DPO用于文本图像对齐
- 7.3.4 将DPO用于扩散模型优化
- 7.3.5 文本图像对齐实验
- 7.3.6 从强化学习角度推导Diffusion-DPO
- 7.4 DRaFT:通过可微分奖励函数直接优化扩散模型
- 7.4.1 DRaFT
- 7.4.2 DRaFT-K
- 7.4.3 DRaFT-LV
- 7.4.4 实验结果
- 7.5 代码实战
- 参考文献
- 第8章 扩展:扩散模型在决策问题上的新进展
- 8.1 基于生成模型的强化学习策略
- 8.2 决策基模型中的扩散模型
- 8.2.1 ViNT
- 8.2.2 NoMaD
- 8.2.3 SuSIE
- 8.3 总结与展望
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。
