科技
类型
7.3
豆瓣评分
可以朗读
语音朗读
31千字
字数
2025-06-01
发行日期
展开全部
主编推荐语
本书以通俗易懂、大量图解的方式剖析了DeepSeek的底层技术。
内容简介
全书分为3章和附录,第1章详细分析了推理大模型的范式转变,即从“训练时计算”到“测试时计算”;第2章解读了DeepSeek-R1的架构——混合专家(MoE);第3章展示了DeepSeek-R1详细的训练过程及核心技术,涵盖基于GRPO的强化学习等;附录分享了DeepSeek开源周活动。
目录
- 版权信息
- 译者序
- 前言
- 第1章 测试时计算
- 1.1 什么是推理大模型
- 1.2 什么是训练时计算
- 缩放定律
- 1.3 什么是测试时计算
- 1.3.1 缩放定律
- 1.3.2 测试时计算的分类
- 1.4 基于验证器的搜索
- 1.4.1 多数投票法
- 1.4.2 Best-of-N采样
- 1.4.3 基于过程奖励模型的束搜索
- 1.4.4 蒙特卡洛树搜索
- 1.5 调整提议分布
- 1.5.1 提示工程
- 1.5.2 STaR方法
- 1.6 小结
- 1.7 延伸阅读
- 第2章 架构设计
- 2.1 稠密层
- 2.2 MoE层
- 2.2.1 专家机制
- 2.2.2 路由机制
- 2.2.3 DeepSeekMoE
- 2.3 小结
- 第3章 DeepSeek-R1训练方案
- 3.1 回顾:大模型的训练原理
- 3.2 DeepSeek-R1-Zero的推理能力
- 3.2.1 示例:推理问题的自动验证
- 3.2.2 DeepSeek-R1-Zero的完整训练过程
- 3.3 DeepSeek-V3的效率优化策略
- 3.3.1 多头潜在注意力机制
- 3.3.2 混合精度训练
- 3.3.3 多词元预测
- 3.4 构建DeepSeek-R1
- 3.5 通过DeepSeek-R1蒸馏推理能力
- 3.6 未成功的尝试
- 3.7 基于GRPO的强化学习
- 3.7.1 奖励值与优势值
- 3.7.2 KL散度惩罚项
- 3.7.3 GRPO目标函数
- 3.7.4 GRPO算法
- 3.7.5 GRPO参考实现
- 3.8 小结
- 附录 DeepSeek开源周
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。
