人工智能
类型
可以朗读
语音朗读
165千字
字数
2022-04-01
发行日期
展开全部
主编推荐语
深度强化学习入门:基于PyTorch框架与算法实现
内容简介
本书从强化学习的基础知识出发,结合PyTorch深度学习框架,介绍深度强化学习算法各种模型的相关算法原理和基于PyTorch的代码实现。作为一本介绍深度强化学习知识的相关图书,本书介绍了常用的强化学习环境,基于价值网络的强化学习算法和基于策略梯度的强化学习算法,以及一些常用的比较流行的深度强化学习算法(如蒙特卡洛树搜索)等。另外,还介绍了深度强化学习算法在实际问题中的一些应用。作为一本深度强化学习的入门书籍,本书主要面向有深度学习和Python基础,并且希望对深度强化学习有所了解的读者。读者不仅可以从本书中获取深度强化学习有关的理论知识,还可以得到深度强化学习领域的实践知识。
目录
- 版权信息
- 内容简介
- 序
- 第1章 强化学习简介
- 1.1 强化学习的历史
- 1.2 强化学习基本概念
- 1.3 强化学习算法的分类
- 1.4 深度强化学习基本概念
- 1.5 强化学习的优缺点
- 1.6 蒙特卡洛梯度估计
- 1.7 总结
- 第2章 深入了解强化学习
- 2.1 强化学习基本要素
- 2.2 强化学习的探索和利用
- 2.3 策略迭代和价值迭代
- 2.4 贝尔曼方程及其应用
- 2.5 总结
- 第3章 强化学习环境
- 3.1 简单的强化学习环境
- 3.2 OpenAI Gym环境
- 3.3 DeepMind Lab强化学习环境
- 3.4 其他强化学习环境
- 3.5 深度强化学习框架简介
- 3.6 总结
- 第4章 深度Q函数强化学习算法
- 4.1 经典深度Q网络算法(DQN)
- 4.2 双网络Q学习算法(Double Q-Learning)
- 4.3 优先经验回放(Prioritized Experience Replay)
- 4.4 竞争DQN算法(Duel DQN)
- 4.5 分布形式的DQN算法(Distributional DQN)
- 4.6 彩虹算法(Rainbow)
- 4.7 总结
- 第5章 策略梯度强化学习算法
- 5.1 经典策略梯度算法(VPG)
- 5.2 优势演员-评论家算法(A2C和A3C)
- 5.3 置信区间策略优化算法
- 5.4 克罗内克分解近似置信区间算法(ACKTR)
- 5.5 软演员-评论家算法(SAC)
- 5.6 总结
- 第6章 其他强化学习算法
- 6.1 噪声网络(Noisy Networks)
- 6.2 深度确定性策略梯度算法(DDPG)
- 6.3 双延迟深度确定性策略梯度算法(TD3)
- 6.4 蒙特卡洛树搜索(MCTS)
- 6.5 总结
- 第7章 深度强化学习在实践中的应用
- 7.1 神经网络结构搜索(NAS)
- 7.2 超分辨率模型(SRGAN)
- 7.3 序列生成模型(SeqGAN)
- 7.4 基于深度强化学习的推荐系统
- 7.5 基于深度强化学习的交易系统
- 7.6 总结
- 附录A 本书使用的数学符号
- 参考文献
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。