展开全部

主编推荐语

大模型技术全解析,实用面试指南。

内容简介

本书收录了约百道大模型工程师常见的面试题目和解答,系统、全面地介绍了与大模型相关的技术,涵盖语义表达、数据预处理、预训练、对齐、垂类微调、组件、评估、架构、检索增强生成(RAG)、智能体、PEFT(参数高效微调),以及训练与推理等内容。

书中通过丰富的实例、图表及代码讲解,将复杂概念阐释得通俗易懂,是大模型领域的一本不可多得的实用指南。本书适合对大模型和Transformer等技术感兴趣的学生、研究者和工程师阅读和参考。

目录

  • 版权信息
  • 内容提要
  • 前言
  • 第1章 语义表达
  • 1.1 词向量与语义信息
  • 1.1.1 稀疏词向量
  • 1.1.2 分布式语义假设
  • 1.1.3 稠密词向量
  • 1.2 溢出词表词的处理方法
  • 1.3 分词方法的区别与影响
  • 1.3.1 词(word)
  • 1.3.2 子词(subword)
  • 1.3.3 字符(char)
  • 1.4 词向量与语义相似度
  • 1.5 构建句子向量
  • 1.6 预训练的位置编码
  • 1.7 BERT的不同嵌入类型
  • 1.8 大模型语义建模的典型架构
  • 第2章 大模型的数据
  • 2.1 大模型训练开源数据集
  • 2.2 大模型不同训练环节与数据量
  • 2.3 大模型数据预处理
  • 2.3.1 数据的质量
  • 2.3.2 数据的多样性
  • 2.4 大模型扩展法则
  • 2.5 持续预训练与灾难性遗忘
  • 2.6 大模型指令微调的数据筛选
  • 第3章 大模型的预训练
  • 3.1 预训练与监督微调辨析
  • 3.2 大模型的涌现能力
  • 3.3 大模型预训练阶段的实验提效方法
  • 3.4 大模型开发流程三阶段:预训练、监督微调和强化学习
  • 3.4.1 大模型预训练
  • 3.4.2 大模型的监督微调
  • 3.4.3 大模型的强化学习
  • 3.5 大模型训练显存计算与优化
  • 3.6 大模型训练通信开销计算
  • 3.6.1 集合通信原语
  • 3.6.2 数据并行的工作原理和通信开销计算
  • 3.6.3 张量并行的工作原理和通信开销计算
  • 3.6.4 流水线并行的工作原理和通信开销计算
  • 3.6.5 使用ZeRO优化技术时的通信开销计算
  • 第4章 大模型的对齐
  • 4.1 对齐数据构造
  • 4.2 PPO算法
  • 4.3 奖励模型训练
  • 4.4 PPO稳定训练的方法
  • 4.4.1 设计合理的评估指标对PPO训练过程进行监控
  • 4.4.2 对损失和梯度进行标准化和裁剪
  • 4.4.3 改进损失函数
  • 4.4.4 优化评论家模型和演员模型的初始化方式
  • 4.5 DPO算法
  • 4.6 DPO与PPO辨析
  • 4.6.1 计算资源方面:DPO所需计算资源比PPO少
  • 4.6.2 训练稳定性方面:DPO的训练稳定性高于PPO
  • 4.6.3 效果方面:PPO的泛化能力优于DPO
  • 4.7 其他偏好对齐方法综述
  • 4.7.1 PPO类
  • 4.7.2 DPO类
  • 4.7.3 非强化学习类
  • 4.7.4 数据类
  • 4.8 对齐训练稳定性监测
  • 4.8.1 监督微调阶段
  • 4.8.2 强化学习对齐训练阶段
  • 4.9 大模型后训练环节辨析
  • 第5章 大模型的垂类微调
  • 5.1 (垂类)监督微调
  • 5.2 后训练的词表扩充
  • 5.3 有效的长度外推方法
  • 5.4 大模型微调的损失函数
  • 5.4.1 Cross Entropy Loss(交叉熵损失)
  • 5.4.2 z-loss
  • 5.4.3 EMO loss
  • 5.5 大模型知识注入方法
  • 5.5.1 模型的继续预训练与监督微调
  • 5.5.2 检索增强生成
  • 第6章 大模型的组件
  • 6.1 Transformer的架构
  • 6.2 注意力分数计算细节
  • 6.3 词元化算法的区别与特点
  • 6.3.1 基于单词的词元化
  • 6.3.2 基于字符的词元化
  • 6.3.3 基于子词的词元化
  • 6.4 RoPE
  • 6.5 ALiBi
  • 6.5.1 ALiBi的工作原理
  • 6.5.2 ALiBi的外推能力实验
  • 6.5.3 ALiBi的训练推理效率实验
  • 6.5.4 ALiBi的代码实现
  • 6.6 Sparse Attention
  • 6.7 Linear Attention
  • 6.8 多头注意力机制及其优化(MHA、MQA和GQA)
  • 6.8.1 多头注意力机制的代码实现
  • 6.8.2 Transformer解码器在解码过程中的性能瓶颈
  • 6.8.3 多查询注意力和分组查询注意力的工作原理
  • 6.9 各种归一化方法
  • 6.9.1 归一化方法的作用
  • 6.9.2 BatchNorm的工作原理
  • 6.9.3 LayerNorm的工作原理
  • 6.9.4 RMSNorm的工作原理
  • 6.10 归一化模块位置的影响
  • 6.10.1 PostNorm和PreNorm的工作原理
  • 6.10.2 PostNorm和PreNorm的差异
  • 6.11 Dropout机制
  • 6.11.1 Dropout的实现流程和原理
  • 6.11.2 避免训练和推理时的期望偏移
  • 6.11.3 避免训练和推理时的方差偏移
  • 6.12 模型训练参数初始化方法概述
  • 6.12.1 固定值初始化
  • 6.12.2 预训练初始化
  • 6.12.3 基于固定方差的初始化
  • 6.12.4 基于方差缩放的初始化
  • 第7章 大模型的评估
  • 7.1 大模型的评测榜单与内容
  • 7.2 大模型评测的原则
  • 7.3 大模型的修复方法
  • 7.3.1 badcase定义
  • 7.3.2 badcase修复思路
  • 7.3.3 实践解法
  • 7.4 生成式模型的评测指标
  • 7.5 大模型的自动化评估
  • 7.6 大模型的对抗性测试
  • 7.7 大模型的备案流程
  • 第8章 大模型的架构
  • 8.1 因果解码器架构成为主流的原因
  • 8.2 大模型的集成融合方法
  • 8.3 MoE
  • 第9章 检索增强生成
  • 9.1 RAG的组成与评估
  • 9.2 RAG中的召回方法
  • 9.3 RAG与重排
  • 9.4 RAG的工程化问题
  • 第10章 大模型智能体
  • 10.1 智能体的组成
  • 10.2 智能体的规划能力
  • 10.3 智能体的记忆模块
  • 10.4 智能体的工具调用
  • 10.5 XAgent框架
  • 10.6 AutoGen框架
  • 10.7 智能体框架实践
  • 第11章 大模型PEFT
  • 11.1 LoRA
  • 11.1.1 LoRA的设计思路
  • 11.1.2 LoRA的具体实现流程
  • 11.2 PEFT方法概述
  • 11.3 PEFT与全参数微调
  • 第12章 大模型的训练与推理
  • 12.1 大模型解码与采样方法综述
  • 12.2 大模型生成参数及其含义
  • 12.3 大模型训练与推理预填充阶段的加速方法
  • 12.4 大模型专家并行训练
  • 12.5 大模型推理加速
  • 12.5.1 为什么对KV缓存的内存管理效率是影响推理系统吞吐量的关键因素
  • 12.5.2 PagedAttention如何提高对KV缓存的内存管理效率
  • 12.6 大模型量化的细节
  • 12.7 大模型多维并行化训练策略
  • 第13章 DeepSeek
  • 13.1 DeepSeek系列模型架构创新
  • 13.1.1 大数量小尺寸的混合专家设计
  • 13.1.2 MLA
  • 13.1.3 多词元预测
  • 13.2 DeepSeek-R1训练流程
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。