展开全部

主编推荐语

本书以通俗易懂、大量图解的方式剖析了DeepSeek的底层技术。

内容简介

全书分为3章和附录,第1章详细分析了推理大模型的范式转变,即从“训练时计算”到“测试时计算”;第2章解读了DeepSeek-R1的架构——混合专家(MoE);第3章展示了DeepSeek-R1详细的训练过程及核心技术,涵盖基于GRPO的强化学习等;附录分享了DeepSeek开源周活动。

目录

  • 版权信息
  • 译者序
  • 前言
  • 第1章 测试时计算
  • 1.1 什么是推理大模型
  • 1.2 什么是训练时计算
  • 缩放定律
  • 1.3 什么是测试时计算
  • 1.3.1 缩放定律
  • 1.3.2 测试时计算的分类
  • 1.4 基于验证器的搜索
  • 1.4.1 多数投票法
  • 1.4.2 Best-of-N采样
  • 1.4.3 基于过程奖励模型的束搜索
  • 1.4.4 蒙特卡洛树搜索
  • 1.5 调整提议分布
  • 1.5.1 提示工程
  • 1.5.2 STaR方法
  • 1.6 小结
  • 1.7 延伸阅读
  • 第2章 架构设计
  • 2.1 稠密层
  • 2.2 MoE层
  • 2.2.1 专家机制
  • 2.2.2 路由机制
  • 2.2.3 DeepSeekMoE
  • 2.3 小结
  • 第3章 DeepSeek-R1训练方案
  • 3.1 回顾:大模型的训练原理
  • 3.2 DeepSeek-R1-Zero的推理能力
  • 3.2.1 示例:推理问题的自动验证
  • 3.2.2 DeepSeek-R1-Zero的完整训练过程
  • 3.3 DeepSeek-V3的效率优化策略
  • 3.3.1 多头潜在注意力机制
  • 3.3.2 混合精度训练
  • 3.3.3 多词元预测
  • 3.4 构建DeepSeek-R1
  • 3.5 通过DeepSeek-R1蒸馏推理能力
  • 3.6 未成功的尝试
  • 3.7 基于GRPO的强化学习
  • 3.7.1 奖励值与优势值
  • 3.7.2 KL散度惩罚项
  • 3.7.3 GRPO目标函数
  • 3.7.4 GRPO算法
  • 3.7.5 GRPO参考实现
  • 3.8 小结
  • 附录 DeepSeek开源周
展开全部

评分及书评

评分不足
1个评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。