展开全部

主编推荐语

为强化学习的读者专门打造的一本深入实践的全新教程。

内容简介

全书大部分内容基于3位作者的实践经验,涵盖马尔可夫决策过程、动态规划、免模型预测、免模型控制、深度学习基础、DQN算法、DQN算法进阶、策略梯度、Actor-Critic算法、DDPG与TD3算法、PPO算法等内容,旨在帮助读者快速入门强化学习的代码实践,并辅以一套开源代码框架“JoyRL”,便于读者适应业界应用研究风格的代码。

与“蘑菇书”不同,本书对强化学习核心理论进行提炼,并串联知识点,重视强化学习代码实践的指导而不是对理论的详细讲解。

目录

  • 版权信息
  • 内容提要
  • 前言
  • 资源与支持
  • 第1章 绪论
  • 1.1 为什么要学习强化学习?
  • 1.2 强化学习的应用
  • 1.3 强化学习方向概述
  • 1.3.1 多智能体强化学习
  • 1.3.2 模仿学习和逆强化学习
  • 1.3.3 探索策略
  • 1.3.4 实时环境
  • 1.3.5 多任务强化学习
  • 1.4 学习本书之前的一些准备
  • 第2章 马尔可夫决策过程
  • 2.1 马尔可夫决策过程
  • 2.2 马尔可夫性质
  • 2.3 回报
  • 2.4 状态转移矩阵
  • 2.5 本章小结
  • 2.6 练习题
  • 第3章 动态规划
  • 3.1 动态规划的编程思想
  • 3.2 状态价值函数和动作价值函数
  • 3.3 贝尔曼方程
  • 3.4 策略迭代算法
  • 3.5 价值迭代算法
  • 3.6 本章小结
  • 3.7 练习题
  • 第4章 免模型预测
  • 4.1 有模型与免模型
  • 4.2 预测与控制
  • 4.3 蒙特卡罗方法
  • 4.4 时序差分方法
  • 4.5 时序差分方法和蒙特卡罗方法的差异
  • 4.6 n步时序差分方法
  • 4.7 本章小结
  • 4.8 练习题
  • 第5章 免模型控制
  • 5.1 Q-learning 算法
  • 5.1.1 Q表格
  • 5.1.2 探索策略
  • 5.2 Sarsa 算法
  • 5.3 同策略算法与异策略算法
  • 5.4 实战:Q-learning算法
  • 5.4.1 定义训练
  • 5.4.2 定义算法
  • 5.4.3 定义环境
  • 5.4.4 设置参数
  • 5.4.5 开始训练
  • 5.4.6 结果分析
  • 5.4.7 消融实验
  • 5.5 实战:Sarsa算法
  • 5.6 本章小结
  • 5.7 练习题
  • 第6章 深度学习基础
  • 6.1 强化学习与深度学习的关系
  • 6.2 线性回归模型
  • 6.3 梯度下降
  • 6.4 逻辑回归模型
  • 6.5 全连接网络
  • 6.6 高级的神经网络模型
  • 6.7 本章小结
  • 6.8 练习题
  • 第7章 DQN算法
  • 7.1 深度神经网络
  • 7.2 经验回放
  • 7.3 目标网络
  • 7.4 实战:DQN算法
  • 7.4.1 伪代码
  • 7.4.2 定义模型
  • 7.4.3 经验回放
  • 7.4.4 定义智能体
  • 7.4.5 定义环境
  • 7.4.6 设置参数
  • 7.5 本章小结
  • 7.6 练习题
  • 第8章 DQN算法进阶
  • 8.1 Double DQN算法
  • 8.2 Dueling DQN 算法
  • 8.3 Noisy DQN 算法
  • 8.4 PER DQN算法
  • 8.5 实战:Double DQN 算法
  • 8.6 实战:Dueling DQN算法
  • 8.7 实战:Noisy DQN算法
  • 8.8 实战:PER DQN 算法
  • 8.8.1 伪代码
  • 8.8.2 SumTree结构
  • 8.8.3 PER
  • 8.9 本章小结
  • 8.10 练习题
  • 第9章 策略梯度
  • 9.1 基于价值的算法的缺点
  • 9.2 策略梯度算法
  • 9.3 REINFORCE算法
  • 9.4 策略梯度推导进阶
  • 9.4.1 平稳分布
  • 9.4.2 基于平稳分布的策略梯度推导
  • 9.5 策略函数的设计
  • 9.5.1 离散动作空间的策略函数
  • 9.5.2 连续动作空间的策略函数
  • 9.6 本章小结
  • 9.7 练习题
  • 第10章 Actor-Critic算法
  • 10.1 策略梯度算法的优缺点
  • 10.2 Q Actor-Critic算法
  • 10.3 A2C与A3C算法
  • 10.4 广义优势估计
  • 10.5 实战:A2C算法
  • 10.5.1 定义模型
  • 10.5.2 采样动作
  • 10.5.3 策略更新
  • 10.6 本章小结
  • 10.7 练习题
  • 第11章 DDPG与TD3算法
  • 11.1 DPG算法
  • 11.2 DDPG算法
  • 11.3 DDPG算法的优缺点
  • 11.4 TD3算法
  • 11.4.1 双Q网络
  • 11.4.2 延迟更新
  • 11.4.3 噪声正则化
  • 11.5 实战:DDPG算法
  • 11.5.1 DDPG伪代码
  • 11.5.2 定义模型
  • 11.5.3 动作采样
  • 11.6 实战:TD3算法
  • 11.7 本章小结
  • 11.8 练习题
  • 第12章 PPO算法
  • 12.1 重要性采样
  • 12.2 PPO算法
  • 12.3 一个常见的误区
  • 12.4 实战:PPO算法
  • 12.4.1 PPO算法伪代码
  • 12.4.2 PPO算法更新
  • 12.5 本章小结
  • 12.6 练习题
  • 练习题答案
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。