科技
类型
9.3
豆瓣评分
可以朗读
语音朗读
169千字
字数
No.75
科学技术
2024-08-01
发行日期
展开全部
主编推荐语
深度学习入门经典,从零开始掌握强化学习。
内容简介
本书前半部分介绍强化学习的重要思想和基础知识,后半部分介绍如何将深度学习应用于强化学习,遴选讲解了深度强化学习的最新技术。
全书从最适合入门的多臂老虎机问题切入,依次介绍了定义一般强化学习问题的马尔可夫决策过程、用于寻找最佳答案的贝尔曼方程,以及解决贝尔曼方程的动态规划法、蒙特卡洛方法和TD方法。随后,神经网络和Q学习、DQN、策略梯度法等几章则分别讨论了深度学习在强化学习领域的应用。
本书延续“鱼书”系列的风格,搭配丰富的图、表、代码示例,加上轻松、简明的讲解,让人循序渐进地理解强化学习中各种方法之间的关系,于不知不觉中登堂入室。
目录
- 版权信息
- O'Reilly Media, Inc. 介绍
- 前言
- 第1章 老虎机问题
- 1.1 机器学习的分类与强化学习
- 1.1.1 监督学习
- 1.1.2 无监督学习
- 1.1.3 强化学习
- 1.2 老虎机问题
- 1.2.1 什么是老虎机问题
- 1.2.2 什么是好的老虎机
- 1.2.3 使用数学式表示
- 1.3 老虎机算法
- 1.3.1 价值的估计方法
- 1.3.2 求平均值的实现
- 1.3.3 玩家的策略
- 1.4 老虎机算法的实现
- 1.4.1 老虎机的实现
- 1.4.2 智能代理的实现
- 1.4.3 尝试运行
- 1.4.4 算法平均的特性
- 1.5 非稳态问题
- 1.5.1 解决非稳态问题前的准备工作
- 1.5.2 解决非稳态问题
- 1.6 小结
- 第2章 马尔可夫决策过程
- 2.1 什么是MDP
- 2.1.1 MDP的具体例子
- 2.1.2 智能代理与环境的互动
- 2.2 环境和智能代理的数学表示
- 2.2.1 状态迁移
- 2.2.2 奖励函数
- 2.2.3 智能代理的策略
- 2.3 MDP的目标
- 2.3.1 回合制任务和连续性任务
- 2.3.2 收益
- 2.3.3 状态价值函数
- 2.3.4 最优策略和最优价值函数
- 2.4 MDP的例子
- 2.4.1 回溯线形图
- 2.4.2 找出最优策略
- 2.5 小结
- 第3章 贝尔曼方程
- 3.1 贝尔曼方程的推导
- 3.1.1 概率和期望值(推导贝尔曼方程的准备)
- 3.1.2 贝尔曼方程的推导
- 3.2 贝尔曼方程的例子
- 3.2.1 有两个方格的网格世界
- 3.2.2 贝尔曼方程的意义
- 3.3 行动价值函数与贝尔曼方程
- 3.3.1 行动价值函数
- 3.3.2 使用行动价值函数的贝尔曼方程
- 3.4 贝尔曼最优方程
- 3.4.1 状态价值函数的贝尔曼最优方程
- 3.4.2 Q函数的贝尔曼最优方程
- 3.5 贝尔曼最优方程的示例
- 3.5.1 应用贝尔曼最优方程
- 3.5.2 得到最优策略
- 3.6 小结
- 第4章 动态规划法
- 4.1 动态规划法和策略评估
- 4.1.1 动态规划法简介
- 4.1.2 尝试迭代策略评估
- 4.1.3 迭代策略评估的其他实现方式
- 4.2 解决更大的问题
- 4.2.1 GridWorld类的实现
- 4.2.2 defaultdict的用法
- 4.2.3 迭代策略评估的实现
- 4.3 策略迭代法
- 4.3.1 策略的改进
- 4.3.2 重复评估和改进
- 4.4 实施策略迭代法
- 4.4.1 改进策略
- 4.4.2 重复评估和改进
- 4.5 价值迭代法
- 4.5.1 价值迭代法的推导
- 4.5.2 价值迭代法的实现
- 4.6 小结
- 第5章 蒙特卡洛方法
- 5.1 蒙特卡洛方法的基础知识
- 5.1.1 骰子的点数和
- 5.1.2 分布模型和样本模型
- 5.1.3 蒙特卡洛方法的实现
- 5.2 使用蒙特卡洛方法评估策略
- 5.2.1 使用蒙特卡洛方法计算价值函数
- 5.2.2 求所有状态的价值函数
- 5.2.3 蒙特卡洛方法的高效实现
- 5.3 蒙特卡洛方法的实现
- 5.3.1 step方法
- 5.3.2 智能代理类的实现
- 5.3.3 运行蒙特卡洛方法
- 5.4 使用蒙特卡洛方法的策略控制
- 5.4.1 评估和改进
- 5.4.2 使用蒙特卡洛方法实现策略控制
- 5.4.3 ε-greedy算法(第1个修改)
- 5.4.4 修改为固定值α的方式(第2个修改)
- 5.4.5 [ 修改版 ]使用蒙特卡洛方法实现策略迭代法
- 5.5 异策略型和重要性采样
- 5.5.1 同策略型和异策略型
- 5.5.2 重要性采样
- 5.5.3 如何减小方差
- 5.6 小结
- 第6章 TD方法
- 6.1 使用TD方法评估策略
- 6.1.1 TD方法的推导
- 6.1.2 MC方法和TD方法的比较
- 6.1.3 TD方法的实现
- 6.2 SARSA
- 6.2.1 同策略型的SARSA
- 6.2.2 SARSA的实现
- 6.3 异策略型的SARSA
- 6.3.1 异策略型和重要性采样
- 6.3.2 异策略型的SARSA的实现
- 6.4 Q学习
- 6.4.1 贝尔曼方程与SARSA
- 6.4.2 贝尔曼最优方程与Q学习
- 6.4.3 Q学习的实现
- 6.5 分布模型与样本模型
- 6.5.1 分布模型与样本模型
- 6.5.2 样本模型版的Q学习
- 6.6 小结
- 第7章 神经网络和Q学习
- 7.1 DeZero简介
- 7.1.1 使用DeZero
- 7.1.2 多维数组(张量)和函数
- 7.1.3 最优化
- 7.2 线性回归
- 7.2.1 玩具数据集
- 7.2.2 线性回归的理论知识
- 7.2.3 线性回归的实现
- 7.3 神经网络
- 7.3.1 非线性数据集
- 7.3.2 线性变换和激活函数
- 7.3.3 神经网络的实现
- 7.3.4 层与模型
- 7.3.5 优化器(最优化方法)
- 7.4 Q学习与神经网络
- 7.4.1 神经网络的预处理
- 7.4.2 表示Q函数的神经网络
- 7.4.3 神经网络和Q学习
- 7.5 小结
- 第8章 DQN
- 8.1 OpenAI Gym
- 8.1.1 OpenAIGym的基础知识
- 8.1.2 随机智能代理
- 8.2 DQN的核心技术
- 8.2.1 经验回放
- 8.2.2 经验回放的实现
- 8.2.3 目标网络
- 8.2.4 目标网络的实现
- 8.2.5 运行DQN
- 8.3 DQN与Atari
- 8.3.1 Atari的游戏环境
- 8.3.2 预处理
- 8.3.3 CNN
- 8.3.4 其他技巧
- 8.4 DQN的扩展
- 8.4.1 DoubleDQN
- 8.4.2 优先级经验回放
- 8.4.3 DuelingDQN
- 8.5 小结
- 第9章 策略梯度法
- 9.1 最简单的策略梯度法
- 9.1.1 策略梯度法的推导
- 9.1.2 策略梯度法的算法
- 9.1.3 策略梯度法的实现
- 9.2 REINFORCE
- 9.2.1 REINFORCE算法
- 9.2.2 REINFORCE的实现
- 9.3 基线
- 9.3.1 基线的思路
- 9.3.2 带基线的策略梯度法
- 9.4 Actor-Critic
- 9.4.1 Actor-Critic的推导
- 9.4.2 Actor-Critic的实现
- 9.5 基于策略的方法的优点
- 9.6 小结
- 第10章 进一步学习
- 10.1 深度强化学习算法的分类
- 10.2 策略梯度法的改进算法
- 10.2.1 A3C和A2C
- 10.2.2 DDPG
- 10.2.3 TRPO和PPO
- 10.3 DQN的改进算法
- 10.3.1 分类DQN
- 10.3.2 NoisyNetwork
- 10.3.3 Rainbow
- 10.3.4 在Rainbow以后提出的改进算法
- 10.4 案例研究
- 10.4.1 棋盘游戏
- 10.4.2 机器人控制
- 10.4.3 NAS
- 10.4.4 其他案例
- 10.5 深度强化学习的挑战和可能性
- 10.5.1 应用于实际系统
- 10.5.2 将问题表示为MDP形式时的建议
- 10.5.3 通用人工智能系统
- 10.6 小结
- 附录A 异策略型的蒙特卡洛方法
- A.1 异策略型的蒙特卡洛方法的理论知识
- A.2 异策略型的蒙特卡洛方法的实现
- 附录B n-step TD方法
- 附录C Double DQN的理解
- C.1 什么是过估计
- C.2 过估计的解决方法
- 附录D 策略梯度法的证明
- D.1 策略梯度法的推导
- D.2 基线的推导
- 后记
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。
