科技
类型
可以朗读
语音朗读
93千字
字数
2025-05-01
发行日期
展开全部
主编推荐语
本书深入剖析DeepSeek的核心技术,介绍了提示词的原理与高级应用。
内容简介
本书对DeepSeek的模型架构、训练框架,以及MoE优化、MLA、思维链、GRPO算法、奖励模型等技术细节进行了探讨。此外,本书对DeepSeek给人工智能行业格局带来的影响及DeepSeek的开源贡献进行了分析,对大模型的发展趋势进行了展望。
目录
- 版权信息
- 内容简介
- 前言
- 第1章 技惊四座的DeepSeek
- 1.1 石破天惊的产品发布
- 1.2 DeepSeek-V3和DeepSeek-R1可以做什么
- 1.3 DeepSeek-V3的技术突破与创新
- 1.3.1 架构创新
- 1.3.2 训练优化
- 1.3.3 推理与部署优化
- 1.3.4 效果的全面提升
- 1.4 DeepSeek-R系列的技术突破与创新
- 1.4.1 DeepSeek-R1-Zero的技术突破与创新
- 1.4.2 DeepSeek-R1的技术突破与创新
- 1.4.3 推理能力的提升
- 1.5 DeepSeek发布的模型家族
- 1.5.1 通用语言大模型
- 1.5.2 多模态大模型
- 1.5.3 代码大模型
- 1.5.4 数学推理大模型
- 1.5.5 混合专家模型
- 1.5.6 MoE专用微调模型
- 1.5.7 基于LLaMA架构的模型
- 第2章 提示词的原理与应用
- 2.1 推理模型与通用模型
- 2.2 提示工程
- 2.2.1 提示词的类型
- 2.2.2 提示词的基本元素
- 2.2.3 有效的提示词
- 2.2.4 正确地表达需求
- 2.3 提示词高级技巧:提示词链
- 2.3.1 提示词链的设计过程
- 2.3.2 提示词链的应用案例
- 第3章 DeepSeek-V3技术剖析
- 3.1 DeepSeek的模型架构
- 3.1.1 MoE的起源与发展
- 3.1.2 DeepSeek-V3的MoE优化
- 3.1.3 DeepSeek-V3的MoE架构的优势
- 3.1.4 DeepSeek-V3的MLA
- 3.1.5 DeepSeek-V3的MTP
- 3.2 DeepSeek的训练框架
- 3.2.1 常见的并行策略
- 3.2.2 DeepSeek的并行策略
- 3.2.3 DeepSeek的FP8混合精度训练
- 3.3 DeepSeek的推理阶段优化
- 3.3.1 PD分离架构
- 3.3.2 DeepSeek的预填充阶段优化
- 3.3.3 DeepSeek的解码阶段优化
- 3.4 DeepSeek的后训练优化
- 3.5 小结
- 第4章 DeepSeek-R1技术剖析
- 4.1 预备知识
- 4.1.1 思维链
- 4.1.2 有监督微调
- 4.1.3 强化学习
- 4.2 DeepSeek对训练推理模型的探索
- 4.3 DeepSeek-R1-Zero的训练
- 4.3.1 GRPO算法
- 4.3.2 奖励模型
- 4.4 DeepSeek-R1的训练
- 4.4.1 阶段一训练
- 4.4.2 阶段二训练
- 4.4.3 推理能力的蒸馏
- 4.5 小结
- 第5章 DeepSeek的影响与成功启示
- 5.1 DeepSeek对AI格局的影响
- 5.1.1 打破硬件依赖的迷思
- 5.1.2 对英伟达CUDA护城河的冲击
- 5.1.3 对大模型技术路线的重新思考
- 5.1.4 投资风向的改变
- 5.1.5 对商业模式的冲击
- 5.1.6 对创新文化的冲击
- 5.1.7 对地缘政治的冲击
- 5.2 DeepSeek的成功启示
- 5.2.1 领导者的技术直觉
- 5.2.2 长期主义
- 5.2.3 极致的工程优化
- 5.2.4 对资源的高效利用
- 5.2.5 团队的创新文化
- 第6章 DeepSeek开源技术剖析
- 6.1 DeepSeek的“开源周”
- 6.2 FlashMLA:减少显存消耗
- 6.2.1 项目特点
- 6.2.2 应用场景
- 6.2.3 技术剖析
- 6.2.4 影响与展望
- 6.3 DeepEP:通信系统的优化
- 6.3.1 项目特点
- 6.3.2 应用场景
- 6.3.3 技术剖析
- 6.3.4 影响与展望
- 6.4 DeepGEMM:让矩阵乘法起飞
- 6.4.1 项目特点
- 6.4.2 应用场景
- 6.4.3 技术剖析
- 6.4.4 影响与展望
- 6.5 DualPipe与EPLB:集群并行计算优化
- 6.5.1 项目特点
- 6.5.2 技术剖析
- 6.5.3 影响与展望
- 6.6 3FS:为AI加速
- 6.6.1 项目特点
- 6.6.2 应用场景
- 6.6.3 技术剖析
- 6.6.4 影响与展望
- 第7章 大模型未来发展展望
- 7.1 MoE的未来
- 7.1.1 专家数量与规模的优化
- 7.1.2 MoE分布式训练工具进一步完善
- 7.1.3 门控算法的改进
- 7.1.4 跨领域应用与融合
- 7.2 MLA的未来
- 7.3 大模型训练方法的发展趋势
- 7.3.1 三阶段训练法的普及
- 7.3.2 混合精度训练的推广
- 7.3.3 并行策略的优化
- 7.4 推理部署的发展趋势
- 7.4.1 PD分离模式的普及
- 7.4.2 集群化推理的优化与推理加速技术研究
- 7.5 GPU硬件的未来发展
- 7.5.1 软硬件协同升级
- 7.5.2 存储与通信能力的优化
- 7.5.3 低精度计算的支持
- 7.5.4 异构计算的支持
- 7.6 从LLaMA 4看推理模型的发展
- 7.6.1 LLaMA 4简介
- 7.6.2 LLaMA 4的核心技术细节
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。
