人工智能
类型
可以朗读
语音朗读
150千字
字数
2023-01-01
发行日期
展开全部
主编推荐语
深入学习强化学习,带你深入学习AlphaGo系列算法。
内容简介
本书比较全面、系统地介绍了深度强化学习的理论和算法,并配有大量的案例和编程实现。全书核心内容可以分为3部分,第一部分为经典强化学习,包括第2、3、4章,主要内容有动态规划法,蒙特卡洛法、时序差分法;第二部分为深度强化学习,包括第6、7、8章,主要内容有值函数近似法、策略梯度法、策略梯度法进阶;第三部分重点介绍了深度强化学习的经典应用——AlphaGo系列算法。另外,作为理论和算法的辅助,第1章介绍了强化学习的模型,第5章简单介绍了深度学习和PyTorch编程框架。本书可以作为理工科大学相关专业研究生的学位课教材,也可以作为人工智能、机器学习相关专业高年级本科生的选修课教材,还可以作为相关领域学术研究人员、教师和工程技术人员的参考资料。
目录
- 版权信息
- 作者简介
- 内容简介
- 前言
- 第1章强化学习的模型
- 1.1 强化学习简介
- 1.2 强化学习的模型
- 1.3 Gym介绍
- 第2章动态规划法
- 2.1 动态规划法简介
- 2.2 值函数和贝尔曼方程
- 2.3 策略评估
- 2.4 策略改进
- 2.5 最优值函数和最优策略
- 2.6 策略迭代和值迭代
- 2.7 动态规划法求解强化学习案例
- 第3章蒙特卡罗法
- 3.1 蒙特卡罗法简介
- 3.2 蒙特卡罗策略评估
- 3.3 蒙特卡罗强化学习
- 3.4 异策略蒙特卡罗强化学习
- 3.5 蒙特卡罗树搜索
- 第4章时序差分法
- 4.1 时序差分策略评估
- 4.2 同策略时序差分强化学习
- 4.3 异策略时序差分强化学习
- 4.4 n步时序差分强化学习
- 4.5 TD(λ)算法
- 第5章深度学习与PyTorch
- 5.1 从感知机到神经网络
- 5.2 深度神经网络
- 5.3 激活函数、损失函数和数据预处理
- 5.4 PyTorch深度学习软件包
- 5.5 深度学习案例
- 第6章值函数近似算法
- 6.1 线性值函数近似算法
- 6.2 神经网络值函数近似法
- 6.3 Double DQN(DDQN)算法
- 6.4 Prioritized Replay DQN算法
- 6.5 Dueling DQN算法
- 第7章策略梯度算法
- 7.1 策略梯度算法的基本原理
- 7.2 策略梯度定理
- 7.3 蒙特卡罗策略梯度算法(REINFORCE)
- 7.4 演员-评论家策略梯度算法
- 第8章策略梯度法进阶
- 8.1 异步优势演员:评论家算法
- 8.2 深度确定性策略梯度算法
- 8.3 近端策略优化算法
- 8.4 柔性演员-评论家算法
- 第9章深度强化学习案例:AlphaGo系列算法
- 9.1 AlphaGo算法介绍
- 9.2 AlphaGo Zero算法介绍
- 9.3 AlphaZero算法介绍
- 9.4 MuZero算法介绍
- 9.5 AlphaGo系列算法的应用与启示
- 参考文献
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。