展开全部

主编推荐语

携七大优势,带你一书学透强化学习,掌握ChatGPT背后的关键技术。

内容简介

本书从原理和实战两个方面介绍了强化学习。原理方面,深入介绍了主流强化学习理论和算法,覆盖资格迹等经典算法和MuZero等深度强化学习算法;实战方面,每章都配套了编程案例,以方便读者学习。

目录

  • 版权信息
  • 数学符号表
  • 前言
  • 第1章 初识强化学习
  • 1.1 强化学习及其关键元素
  • 1.2 强化学习的应用
  • 1.3 智能体/环境接口
  • 1.4 强化学习的分类
  • 1.5 强化学习算法的性能指标
  • 1.6 案例:基于Gym库的智能体/环境接口
  • 1.7 本章小结
  • 1.8 练习与模拟面试
  • 第2章 Markov决策过程
  • 2.1 Markov决策过程模型
  • 2.2 价值
  • 2.3 带折扣的分布
  • 2.4 最优策略与最优价值
  • 2.5 案例:悬崖寻路
  • 2.6 本章小结
  • 2.7 练习与模拟面试
  • 第3章 有模型数值迭代
  • 3.1 Bellman算子及其性质
  • 3.2 有模型策略迭代
  • 3.3 价值迭代
  • 3.4 自益与动态规划
  • 3.5 案例:冰面滑行
  • 3.6 本章小结
  • 3.7 练习与模拟面试
  • 第4章 回合更新价值迭代
  • 4.1 同策回合更新
  • 4.2 异策回合更新
  • 4.3 实验:21点游戏
  • 4.4 本章小结
  • 4.5 练习与模拟面试
  • 第5章 时序差分价值迭代
  • 5.1 时序差分目标
  • 5.2 同策时序差分更新
  • 5.3 异策时序差分更新
  • 5.4 资格迹
  • 5.5 案例:的士调度
  • 5.6 本章小结
  • 5.7 练习与模拟面试
  • 第6章 函数近似方法
  • 6.1 函数近似原理
  • 6.2 基于梯度的参数更新
  • 6.3 函数近似的收敛性
  • 6.4 深度Q网络
  • 6.5 案例:小车上山
  • 6.6 本章小结
  • 6.7 练习与模拟面试
  • 第7章 回合更新策略梯度方法
  • 7.1 策略梯度算法的原理
  • 7.2 同策回合更新策略梯度算法
  • 7.3 异策回合更新策略梯度算法
  • 7.4 案例:车杆平衡
  • 7.5 本章小结
  • 7.6 练习与模拟面试
  • 第8章 执行者/评论者
  • 8.1 执行者/评论者方法
  • 8.2 同策执行者/评论者算法
  • 8.3 基于代理优势的同策算法
  • 8.4 自然梯度和信赖域算法
  • 8.5 重要性采样异策执行者/评论者算法
  • 8.6 案例:双节倒立摆
  • 8.7 本章小结
  • 8.8 练习与模拟面试
  • 第9章 连续动作空间的确定性策略
  • 9.1 确定性策略梯度定理
  • 9.2 同策确定性算法
  • 9.3 异策确定性算法
  • 9.4 探索过程
  • 9.5 案例:倒立摆的控制
  • 9.6 本章小结
  • 9.7 练习与模拟面试
  • 第10章 最大熵强化学习
  • 10.1 最大熵强化学习与柔性强化学习理论
  • 10.2 柔性强化学习算法
  • 10.3 自动熵调节
  • 10.4 案例:月球登陆器
  • 10.5 本章小结
  • 10.6 练习与模拟面试
  • 第11章 基于策略的无梯度算法
  • 11.1 无梯度算法
  • 11.2 无梯度算法和策略梯度算法的比较
  • 11.3 案例:双足机器人
  • 11.4 本章小结
  • 11.5 练习与模拟面试
  • 第12章 值分布强化学习
  • 12.1 价值分布及其性质
  • 12.2 效用最大化强化学习
  • 12.3 基于概率分布的算法
  • 12.4 基于分位数的值分布强化学习
  • 12.5 类别深度Q网络算法和分位数回归算法的比较
  • 12.6 案例:Atari电动游戏Pong
  • 12.7 本章小结
  • 12.8 练习与模拟面试
  • 第13章 最小化遗憾
  • 13.1 遗憾
  • 13.2 多臂赌博机
  • 13.3 置信上界价值迭代
  • 13.4 案例:Bernoulli奖励多臂赌博机
  • 13.5 本章小结
  • 13.6 练习与模拟面试
  • 第14章 树搜索
  • 14.1 回合更新树搜索
  • 14.2 回合更新树搜索在棋盘游戏中的应用
  • 14.3 案例:井字棋
  • 14.4 本章小结
  • 14.5 练习与模拟面试
  • 第15章 模仿学习和人类反馈强化学习
  • 15.1 模仿学习
  • 15.2 人类反馈强化学习和生成性预训练变换模型
  • 15.3 案例:机器人行走
  • 15.4 本章小结
  • 15.5 练习与模拟面试
  • 第16章 更多智能体/环境接口模型
  • 16.1 平均奖励离散时间Markov决策过程
  • 16.2 连续时间Markov决策过程
  • 16.3 非齐次Markov决策过程
  • 16.4 半Markov决策过程
  • 16.5 部分可观测Markov决策过程
  • 16.6 案例:老虎
  • 16.7 本章小结
  • 16.8 练习与模拟面试
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。