人工智能
类型
可以朗读
语音朗读
217千字
字数
2020-06-01
发行日期
展开全部
主编推荐语
强化学习14章全书概括:基础知识、主要方法、算法集成、博弈问题应用。
内容简介
该书共14章,大致分为4个部分:第1部分介绍强化学习的基础知识,包括强化学习的定义,发展历程,以及要解决的问题。第2部分包括动态规划方法,蒙特卡罗方法,时间差分方法。第3部分通过集成多个基本算法,或者将值函数、策略做函数近似,第4部分使用强化学习解决两类博弈问题:完美信息博弈和不完美信息博弈。
目录
- 封面页
- 书名页
- 版权页
- 内容简介
- 彩插
- 序言
- 自序
- 前言
- 目录
- 第1章 强化学习概述
- 1.1 强化学习的背景
- 1.2 强化学习初探
- 1.2.1 智能体和环境
- 1.2.2 智能体主要组成
- 1.2.3 强化学习、监督学习、非监督学习
- 1.2.4 强化学习分类
- 1.2.5 研究方法
- 1.2.6 发展历程
- 1.3 强化学习的重点概念
- 1.3.1 学习与规划
- 1.3.2 探索与利用
- 1.3.3 预测与控制
- 1.4 小结
- 1.5 习题
- 第2章 马尔可夫决策过程
- 2.1 马尔可夫基本概念
- 2.1.1 马尔可夫性
- 2.1.2 马尔可夫过程
- 2.1.3 马尔可夫决策过程
- 2.2 贝尔曼方程
- 2.2.1 贝尔曼期望方程
- 2.2.2 贝尔曼最优方程
- 2.3 最优策略
- 2.3.1 最优策略定义
- 2.3.2 求解最优策略
- 2.4 小结
- 2.5 习题
- 第3章 动态规划
- 3.1 动态规划简介
- 3.2 策略评估
- 3.3 策略改进
- 3.4 策略迭代
- 3.5 值迭代
- 3.6 实例讲解
- 3.6.1 “找宝藏”环境描述
- 3.6.2 策略迭代
- 3.6.3 值迭代
- 3.6.4 实例小结
- 3.7 小结
- 3.8 习题
- 第4章 蒙特卡罗
- 4.1 蒙特卡罗简介
- 4.2 蒙特卡罗评估
- 4.3 蒙特卡罗控制
- 4.4 在线策略蒙特卡罗
- 4.5 离线策略蒙特卡罗
- 4.5.1 重要性采样离线策略蒙特卡罗
- 4.5.2 加权重要性采样离线策略蒙特卡罗
- 4.6 实例讲解
- 4.6.1 “十点半”游戏
- 4.6.2 在线策略蒙特卡罗
- 4.6.3 离线策略蒙特卡罗
- 4.6.4 实例小结
- 4.7 小结
- 4.8 习题
- 第5章 时序差分
- 5.1 时序差分简介
- 5.2 三种方法的性质对比
- 5.3 Sarsa:在线策略TD
- 5.4 Q-learning:离线策略TD方法
- 5.5 实例讲解
- 5.5.1 迷宫寻宝
- 5.5.2 Sarsa方法
- 5.5.3 Q-learning方法
- 5.5.4 实例小结
- 5.6 小结
- 5.7 习题
- 第6章 资格迹
- 6.1 资格迹简介
- 6.2 多步TD评估
- 6.3 前向算法
- 6.4 后向算法
- 6.5 前向算法与后向算法的统一
- 6.6 Sarsa(λ)方法
- 6.6.1 前向Sarsa(λ)方法
- 6.6.2 后向Sarsa(λ)方法
- 6.7 Q(λ)方法
- 6.7.1 前向Watkins's Q(λ)方法
- 6.7.2 后向Watkins's Q(λ)方法
- *6.7.3 Peng's Q(λ)方法
- 6.8 实例讲解
- 6.8.1 风格子世界
- 6.8.2 后向Sarsa(λ)
- 6.8.3 后向Q(λ)
- 6.8.4 实例小结
- 6.9 小结
- 6.10 习题
- 第7章 值函数逼近
- 7.1 值函数逼近简介
- 7.2 线性逼近
- 7.2.1 增量法
- 7.2.2 批量法
- 7.3 非线性逼近
- 7.3.1 DQN方法
- 7.3.2 Double DQN方法
- 7.3.3 Dueling DQN方法
- 7.4 实例讲解
- 7.4.1 游戏简介
- 7.4.2 环境描述
- 7.4.3 算法详情
- 7.4.4 核心代码
- 7.5 小结
- 7.6 习题
- 第8章 随机策略梯度
- 8.1 随机策略梯度简介
- 8.1.1 策略梯度优缺点
- 8.1.2 策略梯度方法分类
- 8.2 随机策略梯度定理及证明
- 8.2.1 随机策略梯度定理
- *8.2.2 随机策略梯度定理证明
- 8.3 蒙特卡罗策略梯度
- 8.3.1 REINFORCE方法
- 8.3.2 带基线的REINFORCE方法
- 8.4 TRPO方法
- 8.5 实例讲解
- 8.5.1 游戏简介及环境描述
- 8.5.2 算法详情
- 8.5.3 核心代码
- 8.6 小结
- 8.7 习题
- 第9章 Actor-Critic及变种
- 9.1 AC方法
- 9.1.1 在线策略AC方法
- 9.1.2 离线策略AC方法
- 9.1.3 兼容性近似函数定理
- 9.2 A2C方法
- 9.3 A3C方法
- 9.3.1 简介
- 9.3.2 异步Q-learning方法
- 9.3.3 异步Sarsa方法
- 9.3.4 异步n步Q-learning方法
- 9.3.5 A3C方法详述
- 9.4 实例讲解
- 9.4.1 AC实例
- 9.4.2 A3C实例
- 9.5 小结
- 9.6 习题
- 第10章 确定性策略梯度
- 10.1 确定性策略梯度及证明
- 10.1.1 确定性策略梯度定理
- *10.1.2 确定性策略梯度定理证明
- 10.2 DPG方法
- 10.2.1 在线策略确定性AC方法
- 10.2.2 离线策略确定性AC
- 10.2.3 兼容性近似函数定理
- 10.3 DDPG方法
- 10.3.1 DDPG简介
- 10.3.2 算法要点
- 10.3.3 算法流程
- 10.4 实例讲解
- 10.4.1 游戏简介及环境描述
- 10.4.2 算法详情
- 10.4.3 核心代码
- 10.5 小结
- 10.6 习题
- 第11章 学习与规划
- 11.1 有模型方法和无模型方法
- 11.2 模型拟合
- 11.2.1 模型数学表示
- 11.2.2 监督式学习构建模型
- 11.2.3 利用模型进行规划
- 11.3 Dyna框架及相关算法
- 11.3.1 Dyna-Q
- 11.3.2 Dyna-Q
- 11.3.3 优先级扫描的Dyna-Q
- 11.4 Dyna-2
- 11.5 实例讲解
- 11.5.1 游戏简介及环境描述
- 11.5.2 算法详情
- 11.5.3 核心代码
- 11.6 小结
- 11.7 习题
- 第12章 探索与利用
- 12.1 探索-利用困境
- 12.2 多臂赌博机问题
- 12.3 朴素探索
- 12.4 乐观初始值估计
- 12.5 置信区间上界
- 12.6 概率匹配
- 12.7 信息价值
- 12.8 实例讲解
- 12.8.1 游戏简介及环境描述
- 12.8.2 算法详情
- 12.8.3 核心代码
- 12.9 小结
- 12.10 习题
- 第13章 博弈强化学习
- 13.1 博弈及博弈树
- 13.2 极大极小搜索
- 13.3 Alpha-Beta搜索
- 13.4 蒙特卡罗树搜索
- 13.5 AlphaGo
- 13.5.1 监督学习策略网络p_σ
- 13.5.2 快速走子策略网络p_π
- 13.5.3 强化学习策略网络p_ρ
- 13.5.4 价值网络v_θ
- 13.5.5 蒙特卡罗树搜索
- 13.5.6 总结
- 13.6 AlphaGo Zero
- 13.6.1 下棋原理
- 13.6.2 网络结构
- 13.6.3 蒙特卡罗树搜索
- 13.6.4 总结
- 13.7 AlphaZero
- 13.8 实例讲解
- 13.8.1 游戏简介及环境描述
- 13.8.2 算法流程描述
- 13.8.3 算法细节
- 13.8.4 核心代码
- 13.9 小结
- 13.10 习题
- 参考文献
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。