展开全部

主编推荐语

深入学习强化学习,带你深入学习AlphaGo系列算法。

内容简介

本书比较全面、系统地介绍了深度强化学习的理论和算法,并配有大量的案例和编程实现。全书核心内容可以分为3部分,第一部分为经典强化学习,包括第2、3、4章,主要内容有动态规划法,蒙特卡洛法、时序差分法;第二部分为深度强化学习,包括第6、7、8章,主要内容有值函数近似法、策略梯度法、策略梯度法进阶;第三部分重点介绍了深度强化学习的经典应用——AlphaGo系列算法。另外,作为理论和算法的辅助,第1章介绍了强化学习的模型,第5章简单介绍了深度学习和PyTorch编程框架。本书可以作为理工科大学相关专业研究生的学位课教材,也可以作为人工智能、机器学习相关专业高年级本科生的选修课教材,还可以作为相关领域学术研究人员、教师和工程技术人员的参考资料。

目录

  • 版权信息
  • 作者简介
  • 内容简介
  • 前言
  • 第1章强化学习的模型
  • 1.1 强化学习简介
  • 1.2 强化学习的模型
  • 1.3 Gym介绍
  • 第2章动态规划法
  • 2.1 动态规划法简介
  • 2.2 值函数和贝尔曼方程
  • 2.3 策略评估
  • 2.4 策略改进
  • 2.5 最优值函数和最优策略
  • 2.6 策略迭代和值迭代
  • 2.7 动态规划法求解强化学习案例
  • 第3章蒙特卡罗法
  • 3.1 蒙特卡罗法简介
  • 3.2 蒙特卡罗策略评估
  • 3.3 蒙特卡罗强化学习
  • 3.4 异策略蒙特卡罗强化学习
  • 3.5 蒙特卡罗树搜索
  • 第4章时序差分法
  • 4.1 时序差分策略评估
  • 4.2 同策略时序差分强化学习
  • 4.3 异策略时序差分强化学习
  • 4.4 n步时序差分强化学习
  • 4.5 TD(λ)算法
  • 第5章深度学习与PyTorch
  • 5.1 从感知机到神经网络
  • 5.2 深度神经网络
  • 5.3 激活函数、损失函数和数据预处理
  • 5.4 PyTorch深度学习软件包
  • 5.5 深度学习案例
  • 第6章值函数近似算法
  • 6.1 线性值函数近似算法
  • 6.2 神经网络值函数近似法
  • 6.3 Double DQN(DDQN)算法
  • 6.4 Prioritized Replay DQN算法
  • 6.5 Dueling DQN算法
  • 第7章策略梯度算法
  • 7.1 策略梯度算法的基本原理
  • 7.2 策略梯度定理
  • 7.3 蒙特卡罗策略梯度算法(REINFORCE)
  • 7.4 演员-评论家策略梯度算法
  • 第8章策略梯度法进阶
  • 8.1 异步优势演员:评论家算法
  • 8.2 深度确定性策略梯度算法
  • 8.3 近端策略优化算法
  • 8.4 柔性演员-评论家算法
  • 第9章深度强化学习案例:AlphaGo系列算法
  • 9.1 AlphaGo算法介绍
  • 9.2 AlphaGo Zero算法介绍
  • 9.3 AlphaZero算法介绍
  • 9.4 MuZero算法介绍
  • 9.5 AlphaGo系列算法的应用与启示
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。