人工智能
类型
5.3
豆瓣评分
可以朗读
语音朗读
110千字
字数
2018-01-01
发行日期
展开全部
主编推荐语
阿法狗背后的深度强化学习:一本零基础入门教程。
内容简介
阿法狗击败世界围棋冠军柯洁,标志着人工智能进入一个新的阶段。阿法狗背后的核心算法——深度强化学习——成为继深度学习之后广泛受人关注的前沿热点。本书由浅入深地阐述了强化学习的基础理念与实践,包括数学基础、强化学习基本原理、强化学习的应用与实践,是一本零基础的入门学习书籍。
目录
- 封面
- 版权页
- 推荐序一
- 推荐序二
- 推荐序三
- 推荐序四
- 推荐序五
- 前言
- 目录
- 1 绪论
- 1.1 这是一本什么书
- 1.2 强化学习可以解决什么问题
- 1.3 强化学习如何解决问题
- 1.4 强化学习算法分类及发展趋势
- 1.5 强化学习仿真环境构建
- 1.5.1 gym安装及简单的demo示例
- 1.5.2 深入剖析gym环境构建
- 1.6 本书主要内容及安排
- 第一篇 强化学习基础
- 2 马尔科夫决策过程
- 2.1 马尔科夫决策过程理论讲解
- 2.2 MDP中的概率学基础讲解
- 2.3 基于gym的MDP实例讲解
- 2.4 习题
- 3 基于模型的动态规划方法
- 3.1 基于模型的动态规划方法理论
- 3.2 动态规划中的数学基础讲解
- 3.2.1 线性方程组的迭代解法
- 3.2.2 压缩映射证明策略评估的收敛性
- 3.3 基于gym的编程实例
- 3.4 最优控制与强化学习比较
- 3.5 习题
- 第二篇 基于值函数的强化学习方法
- 4 基于蒙特卡罗的强化学习方法
- 4.1 基于蒙特卡罗方法的理论
- 4.2 统计学基础知识
- 4.3 基于Python的编程实例
- 4.4 习题
- 5 基于时间差分的强化学习方法
- 5.1 基于时间差分强化学习算法理论讲解
- 5.2 基于Python和gym的编程实例
- 5.3 习题
- 6 基于值函数逼近的强化学习方法
- 6.1 基于值函数逼近的理论讲解
- 6.2 DQN及其变种
- 6.2.1 DQN方法
- 6.2.2 Double DQN
- 6.2.3 优先回放(Prioritized Replay)
- 6.2.4 Dueling DQN
- 6.3 函数逼近方法
- 6.3.1 基于非参数的函数逼近
- 6.3.2 基于参数的函数逼近
- 6.3.3 卷积神经网络
- 6.4 习题
- 第三篇 基于直接策略搜索的强化学习方法
- 7 基于策略梯度的强化学习方法
- 7.1 基于策略梯度的强化学习方法理论讲解
- 7.2 基于gym和TensorFlow的策略梯度算法实现
- 7.2.1 安装Tensorflow
- 7.2.2 策略梯度算法理论基础
- 7.2.3 Softmax策略及其损失函数
- 7.2.4 基于TensorFlow的策略梯度算法实现
- 7.2.5 基于策略梯度算法的小车倒立摆问题
- 7.3 习题
- 8 基于置信域策略优化的强化学习方法
- 8.1 理论基础
- 8.2 TRPO中的数学知识
- 8.2.1 信息论
- 8.2.2 优化方法
- 8.3 习题
- 9 基于确定性策略搜索的强化学习方法
- 9.1 理论基础
- 9.2 习题
- 10 基于引导策略搜索的强化学习方法
- 10.1 理论基础
- 10.2 GPS中涉及的数学基础
- 10.2.1 监督相LBFGS优化方法
- 10.2.2 ADMM算法
- 10.2.3 KL散度与变分推理
- 10.3 习题
- 第四篇 强化学习研究及前沿
- 11 逆向强化学习
- 11.1 概述
- 11.2 基于最大边际的逆向强化学习
- 11.3 基于最大熵的逆向强化学习
- 11.4 习题
- 12 组合策略梯度和值函数方法
- 13 值迭代网络
- 13.1 为什么要提出值迭代网络
- 13.2 值迭代网络
- 14 基于模型的强化学习方法:PILCO及其扩展
- 14.1 概述
- 14.2 PILCO
- 14.3 滤波PILCO和探索PILCO
- 14.3.1 滤波PILCO算法
- 14.3.2 有向探索PILCO算法
- 14.4 深度PILCO
- 后记
- 参考文献
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。