科技
类型
可以朗读
语音朗读
103千字
字数
2025-04-01
发行日期
展开全部
主编推荐语
为强化学习的读者专门打造的一本深入实践的全新教程。
内容简介
全书大部分内容基于3位作者的实践经验,涵盖马尔可夫决策过程、动态规划、免模型预测、免模型控制、深度学习基础、DQN算法、DQN算法进阶、策略梯度、Actor-Critic算法、DDPG与TD3算法、PPO算法等内容,旨在帮助读者快速入门强化学习的代码实践,并辅以一套开源代码框架“JoyRL”,便于读者适应业界应用研究风格的代码。
与“蘑菇书”不同,本书对强化学习核心理论进行提炼,并串联知识点,重视强化学习代码实践的指导而不是对理论的详细讲解。
目录
- 版权信息
- 内容提要
- 前言
- 资源与支持
- 第1章 绪论
- 1.1 为什么要学习强化学习?
- 1.2 强化学习的应用
- 1.3 强化学习方向概述
- 1.3.1 多智能体强化学习
- 1.3.2 模仿学习和逆强化学习
- 1.3.3 探索策略
- 1.3.4 实时环境
- 1.3.5 多任务强化学习
- 1.4 学习本书之前的一些准备
- 第2章 马尔可夫决策过程
- 2.1 马尔可夫决策过程
- 2.2 马尔可夫性质
- 2.3 回报
- 2.4 状态转移矩阵
- 2.5 本章小结
- 2.6 练习题
- 第3章 动态规划
- 3.1 动态规划的编程思想
- 3.2 状态价值函数和动作价值函数
- 3.3 贝尔曼方程
- 3.4 策略迭代算法
- 3.5 价值迭代算法
- 3.6 本章小结
- 3.7 练习题
- 第4章 免模型预测
- 4.1 有模型与免模型
- 4.2 预测与控制
- 4.3 蒙特卡罗方法
- 4.4 时序差分方法
- 4.5 时序差分方法和蒙特卡罗方法的差异
- 4.6 n步时序差分方法
- 4.7 本章小结
- 4.8 练习题
- 第5章 免模型控制
- 5.1 Q-learning 算法
- 5.1.1 Q表格
- 5.1.2 探索策略
- 5.2 Sarsa 算法
- 5.3 同策略算法与异策略算法
- 5.4 实战:Q-learning算法
- 5.4.1 定义训练
- 5.4.2 定义算法
- 5.4.3 定义环境
- 5.4.4 设置参数
- 5.4.5 开始训练
- 5.4.6 结果分析
- 5.4.7 消融实验
- 5.5 实战:Sarsa算法
- 5.6 本章小结
- 5.7 练习题
- 第6章 深度学习基础
- 6.1 强化学习与深度学习的关系
- 6.2 线性回归模型
- 6.3 梯度下降
- 6.4 逻辑回归模型
- 6.5 全连接网络
- 6.6 高级的神经网络模型
- 6.7 本章小结
- 6.8 练习题
- 第7章 DQN算法
- 7.1 深度神经网络
- 7.2 经验回放
- 7.3 目标网络
- 7.4 实战:DQN算法
- 7.4.1 伪代码
- 7.4.2 定义模型
- 7.4.3 经验回放
- 7.4.4 定义智能体
- 7.4.5 定义环境
- 7.4.6 设置参数
- 7.5 本章小结
- 7.6 练习题
- 第8章 DQN算法进阶
- 8.1 Double DQN算法
- 8.2 Dueling DQN 算法
- 8.3 Noisy DQN 算法
- 8.4 PER DQN算法
- 8.5 实战:Double DQN 算法
- 8.6 实战:Dueling DQN算法
- 8.7 实战:Noisy DQN算法
- 8.8 实战:PER DQN 算法
- 8.8.1 伪代码
- 8.8.2 SumTree结构
- 8.8.3 PER
- 8.9 本章小结
- 8.10 练习题
- 第9章 策略梯度
- 9.1 基于价值的算法的缺点
- 9.2 策略梯度算法
- 9.3 REINFORCE算法
- 9.4 策略梯度推导进阶
- 9.4.1 平稳分布
- 9.4.2 基于平稳分布的策略梯度推导
- 9.5 策略函数的设计
- 9.5.1 离散动作空间的策略函数
- 9.5.2 连续动作空间的策略函数
- 9.6 本章小结
- 9.7 练习题
- 第10章 Actor-Critic算法
- 10.1 策略梯度算法的优缺点
- 10.2 Q Actor-Critic算法
- 10.3 A2C与A3C算法
- 10.4 广义优势估计
- 10.5 实战:A2C算法
- 10.5.1 定义模型
- 10.5.2 采样动作
- 10.5.3 策略更新
- 10.6 本章小结
- 10.7 练习题
- 第11章 DDPG与TD3算法
- 11.1 DPG算法
- 11.2 DDPG算法
- 11.3 DDPG算法的优缺点
- 11.4 TD3算法
- 11.4.1 双Q网络
- 11.4.2 延迟更新
- 11.4.3 噪声正则化
- 11.5 实战:DDPG算法
- 11.5.1 DDPG伪代码
- 11.5.2 定义模型
- 11.5.3 动作采样
- 11.6 实战:TD3算法
- 11.7 本章小结
- 11.8 练习题
- 第12章 PPO算法
- 12.1 重要性采样
- 12.2 PPO算法
- 12.3 一个常见的误区
- 12.4 实战:PPO算法
- 12.4.1 PPO算法伪代码
- 12.4.2 PPO算法更新
- 12.5 本章小结
- 12.6 练习题
- 练习题答案
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。