展开全部

主编推荐语

强化学习14章全书概括:基础知识、主要方法、算法集成、博弈问题应用。

内容简介

该书共14章,大致分为4个部分:第1部分介绍强化学习的基础知识,包括强化学习的定义,发展历程,以及要解决的问题。第2部分包括动态规划方法,蒙特卡罗方法,时间差分方法。第3部分通过集成多个基本算法,或者将值函数、策略做函数近似,第4部分使用强化学习解决两类博弈问题:完美信息博弈和不完美信息博弈。

目录

  • 封面页
  • 书名页
  • 版权页
  • 内容简介
  • 彩插
  • 序言
  • 自序
  • 前言
  • 目录
  • 第1章 强化学习概述
  • 1.1 强化学习的背景
  • 1.2 强化学习初探
  • 1.2.1 智能体和环境
  • 1.2.2 智能体主要组成
  • 1.2.3 强化学习、监督学习、非监督学习
  • 1.2.4 强化学习分类
  • 1.2.5 研究方法
  • 1.2.6 发展历程
  • 1.3 强化学习的重点概念
  • 1.3.1 学习与规划
  • 1.3.2 探索与利用
  • 1.3.3 预测与控制
  • 1.4 小结
  • 1.5 习题
  • 第2章 马尔可夫决策过程
  • 2.1 马尔可夫基本概念
  • 2.1.1 马尔可夫性
  • 2.1.2 马尔可夫过程
  • 2.1.3 马尔可夫决策过程
  • 2.2 贝尔曼方程
  • 2.2.1 贝尔曼期望方程
  • 2.2.2 贝尔曼最优方程
  • 2.3 最优策略
  • 2.3.1 最优策略定义
  • 2.3.2 求解最优策略
  • 2.4 小结
  • 2.5 习题
  • 第3章 动态规划
  • 3.1 动态规划简介
  • 3.2 策略评估
  • 3.3 策略改进
  • 3.4 策略迭代
  • 3.5 值迭代
  • 3.6 实例讲解
  • 3.6.1 “找宝藏”环境描述
  • 3.6.2 策略迭代
  • 3.6.3 值迭代
  • 3.6.4 实例小结
  • 3.7 小结
  • 3.8 习题
  • 第4章 蒙特卡罗
  • 4.1 蒙特卡罗简介
  • 4.2 蒙特卡罗评估
  • 4.3 蒙特卡罗控制
  • 4.4 在线策略蒙特卡罗
  • 4.5 离线策略蒙特卡罗
  • 4.5.1 重要性采样离线策略蒙特卡罗
  • 4.5.2 加权重要性采样离线策略蒙特卡罗
  • 4.6 实例讲解
  • 4.6.1 “十点半”游戏
  • 4.6.2 在线策略蒙特卡罗
  • 4.6.3 离线策略蒙特卡罗
  • 4.6.4 实例小结
  • 4.7 小结
  • 4.8 习题
  • 第5章 时序差分
  • 5.1 时序差分简介
  • 5.2 三种方法的性质对比
  • 5.3 Sarsa:在线策略TD
  • 5.4 Q-learning:离线策略TD方法
  • 5.5 实例讲解
  • 5.5.1 迷宫寻宝
  • 5.5.2 Sarsa方法
  • 5.5.3 Q-learning方法
  • 5.5.4 实例小结
  • 5.6 小结
  • 5.7 习题
  • 第6章 资格迹
  • 6.1 资格迹简介
  • 6.2 多步TD评估
  • 6.3 前向算法
  • 6.4 后向算法
  • 6.5 前向算法与后向算法的统一
  • 6.6 Sarsa(λ)方法
  • 6.6.1 前向Sarsa(λ)方法
  • 6.6.2 后向Sarsa(λ)方法
  • 6.7 Q(λ)方法
  • 6.7.1 前向Watkins's Q(λ)方法
  • 6.7.2 后向Watkins's Q(λ)方法
  • *6.7.3 Peng's Q(λ)方法
  • 6.8 实例讲解
  • 6.8.1 风格子世界
  • 6.8.2 后向Sarsa(λ)
  • 6.8.3 后向Q(λ)
  • 6.8.4 实例小结
  • 6.9 小结
  • 6.10 习题
  • 第7章 值函数逼近
  • 7.1 值函数逼近简介
  • 7.2 线性逼近
  • 7.2.1 增量法
  • 7.2.2 批量法
  • 7.3 非线性逼近
  • 7.3.1 DQN方法
  • 7.3.2 Double DQN方法
  • 7.3.3 Dueling DQN方法
  • 7.4 实例讲解
  • 7.4.1 游戏简介
  • 7.4.2 环境描述
  • 7.4.3 算法详情
  • 7.4.4 核心代码
  • 7.5 小结
  • 7.6 习题
  • 第8章 随机策略梯度
  • 8.1 随机策略梯度简介
  • 8.1.1 策略梯度优缺点
  • 8.1.2 策略梯度方法分类
  • 8.2 随机策略梯度定理及证明
  • 8.2.1 随机策略梯度定理
  • *8.2.2 随机策略梯度定理证明
  • 8.3 蒙特卡罗策略梯度
  • 8.3.1 REINFORCE方法
  • 8.3.2 带基线的REINFORCE方法
  • 8.4 TRPO方法
  • 8.5 实例讲解
  • 8.5.1 游戏简介及环境描述
  • 8.5.2 算法详情
  • 8.5.3 核心代码
  • 8.6 小结
  • 8.7 习题
  • 第9章 Actor-Critic及变种
  • 9.1 AC方法
  • 9.1.1 在线策略AC方法
  • 9.1.2 离线策略AC方法
  • 9.1.3 兼容性近似函数定理
  • 9.2 A2C方法
  • 9.3 A3C方法
  • 9.3.1 简介
  • 9.3.2 异步Q-learning方法
  • 9.3.3 异步Sarsa方法
  • 9.3.4 异步n步Q-learning方法
  • 9.3.5 A3C方法详述
  • 9.4 实例讲解
  • 9.4.1 AC实例
  • 9.4.2 A3C实例
  • 9.5 小结
  • 9.6 习题
  • 第10章 确定性策略梯度
  • 10.1 确定性策略梯度及证明
  • 10.1.1 确定性策略梯度定理
  • *10.1.2 确定性策略梯度定理证明
  • 10.2 DPG方法
  • 10.2.1 在线策略确定性AC方法
  • 10.2.2 离线策略确定性AC
  • 10.2.3 兼容性近似函数定理
  • 10.3 DDPG方法
  • 10.3.1 DDPG简介
  • 10.3.2 算法要点
  • 10.3.3 算法流程
  • 10.4 实例讲解
  • 10.4.1 游戏简介及环境描述
  • 10.4.2 算法详情
  • 10.4.3 核心代码
  • 10.5 小结
  • 10.6 习题
  • 第11章 学习与规划
  • 11.1 有模型方法和无模型方法
  • 11.2 模型拟合
  • 11.2.1 模型数学表示
  • 11.2.2 监督式学习构建模型
  • 11.2.3 利用模型进行规划
  • 11.3 Dyna框架及相关算法
  • 11.3.1 Dyna-Q
  • 11.3.2 Dyna-Q
  • 11.3.3 优先级扫描的Dyna-Q
  • 11.4 Dyna-2
  • 11.5 实例讲解
  • 11.5.1 游戏简介及环境描述
  • 11.5.2 算法详情
  • 11.5.3 核心代码
  • 11.6 小结
  • 11.7 习题
  • 第12章 探索与利用
  • 12.1 探索-利用困境
  • 12.2 多臂赌博机问题
  • 12.3 朴素探索
  • 12.4 乐观初始值估计
  • 12.5 置信区间上界
  • 12.6 概率匹配
  • 12.7 信息价值
  • 12.8 实例讲解
  • 12.8.1 游戏简介及环境描述
  • 12.8.2 算法详情
  • 12.8.3 核心代码
  • 12.9 小结
  • 12.10 习题
  • 第13章 博弈强化学习
  • 13.1 博弈及博弈树
  • 13.2 极大极小搜索
  • 13.3 Alpha-Beta搜索
  • 13.4 蒙特卡罗树搜索
  • 13.5 AlphaGo
  • 13.5.1 监督学习策略网络p_σ
  • 13.5.2 快速走子策略网络p_π
  • 13.5.3 强化学习策略网络p_ρ
  • 13.5.4 价值网络v_θ
  • 13.5.5 蒙特卡罗树搜索
  • 13.5.6 总结
  • 13.6 AlphaGo Zero
  • 13.6.1 下棋原理
  • 13.6.2 网络结构
  • 13.6.3 蒙特卡罗树搜索
  • 13.6.4 总结
  • 13.7 AlphaZero
  • 13.8 实例讲解
  • 13.8.1 游戏简介及环境描述
  • 13.8.2 算法流程描述
  • 13.8.3 算法细节
  • 13.8.4 核心代码
  • 13.9 小结
  • 13.10 习题
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。