人工智能
类型
7.1
豆瓣评分
可以朗读
语音朗读
278千字
字数
2025-05-01
发行日期
展开全部
主编推荐语
大模型技术全解析,实用面试指南。
内容简介
本书收录了约百道大模型工程师常见的面试题目和解答,系统、全面地介绍了与大模型相关的技术,涵盖语义表达、数据预处理、预训练、对齐、垂类微调、组件、评估、架构、检索增强生成(RAG)、智能体、PEFT(参数高效微调),以及训练与推理等内容。
书中通过丰富的实例、图表及代码讲解,将复杂概念阐释得通俗易懂,是大模型领域的一本不可多得的实用指南。本书适合对大模型和Transformer等技术感兴趣的学生、研究者和工程师阅读和参考。
目录
- 版权信息
- 内容提要
- 序
- 前言
- 第1章 语义表达
- 1.1 词向量与语义信息
- 1.1.1 稀疏词向量
- 1.1.2 分布式语义假设
- 1.1.3 稠密词向量
- 1.2 溢出词表词的处理方法
- 1.3 分词方法的区别与影响
- 1.3.1 词(word)
- 1.3.2 子词(subword)
- 1.3.3 字符(char)
- 1.4 词向量与语义相似度
- 1.5 构建句子向量
- 1.6 预训练的位置编码
- 1.7 BERT的不同嵌入类型
- 1.8 大模型语义建模的典型架构
- 第2章 大模型的数据
- 2.1 大模型训练开源数据集
- 2.2 大模型不同训练环节与数据量
- 2.3 大模型数据预处理
- 2.3.1 数据的质量
- 2.3.2 数据的多样性
- 2.4 大模型扩展法则
- 2.5 持续预训练与灾难性遗忘
- 2.6 大模型指令微调的数据筛选
- 第3章 大模型的预训练
- 3.1 预训练与监督微调辨析
- 3.2 大模型的涌现能力
- 3.3 大模型预训练阶段的实验提效方法
- 3.4 大模型开发流程三阶段:预训练、监督微调和强化学习
- 3.4.1 大模型预训练
- 3.4.2 大模型的监督微调
- 3.4.3 大模型的强化学习
- 3.5 大模型训练显存计算与优化
- 3.6 大模型训练通信开销计算
- 3.6.1 集合通信原语
- 3.6.2 数据并行的工作原理和通信开销计算
- 3.6.3 张量并行的工作原理和通信开销计算
- 3.6.4 流水线并行的工作原理和通信开销计算
- 3.6.5 使用ZeRO优化技术时的通信开销计算
- 第4章 大模型的对齐
- 4.1 对齐数据构造
- 4.2 PPO算法
- 4.3 奖励模型训练
- 4.4 PPO稳定训练的方法
- 4.4.1 设计合理的评估指标对PPO训练过程进行监控
- 4.4.2 对损失和梯度进行标准化和裁剪
- 4.4.3 改进损失函数
- 4.4.4 优化评论家模型和演员模型的初始化方式
- 4.5 DPO算法
- 4.6 DPO与PPO辨析
- 4.6.1 计算资源方面:DPO所需计算资源比PPO少
- 4.6.2 训练稳定性方面:DPO的训练稳定性高于PPO
- 4.6.3 效果方面:PPO的泛化能力优于DPO
- 4.7 其他偏好对齐方法综述
- 4.7.1 PPO类
- 4.7.2 DPO类
- 4.7.3 非强化学习类
- 4.7.4 数据类
- 4.8 对齐训练稳定性监测
- 4.8.1 监督微调阶段
- 4.8.2 强化学习对齐训练阶段
- 4.9 大模型后训练环节辨析
- 第5章 大模型的垂类微调
- 5.1 (垂类)监督微调
- 5.2 后训练的词表扩充
- 5.3 有效的长度外推方法
- 5.4 大模型微调的损失函数
- 5.4.1 Cross Entropy Loss(交叉熵损失)
- 5.4.2 z-loss
- 5.4.3 EMO loss
- 5.5 大模型知识注入方法
- 5.5.1 模型的继续预训练与监督微调
- 5.5.2 检索增强生成
- 第6章 大模型的组件
- 6.1 Transformer的架构
- 6.2 注意力分数计算细节
- 6.3 词元化算法的区别与特点
- 6.3.1 基于单词的词元化
- 6.3.2 基于字符的词元化
- 6.3.3 基于子词的词元化
- 6.4 RoPE
- 6.5 ALiBi
- 6.5.1 ALiBi的工作原理
- 6.5.2 ALiBi的外推能力实验
- 6.5.3 ALiBi的训练推理效率实验
- 6.5.4 ALiBi的代码实现
- 6.6 Sparse Attention
- 6.7 Linear Attention
- 6.8 多头注意力机制及其优化(MHA、MQA和GQA)
- 6.8.1 多头注意力机制的代码实现
- 6.8.2 Transformer解码器在解码过程中的性能瓶颈
- 6.8.3 多查询注意力和分组查询注意力的工作原理
- 6.9 各种归一化方法
- 6.9.1 归一化方法的作用
- 6.9.2 BatchNorm的工作原理
- 6.9.3 LayerNorm的工作原理
- 6.9.4 RMSNorm的工作原理
- 6.10 归一化模块位置的影响
- 6.10.1 PostNorm和PreNorm的工作原理
- 6.10.2 PostNorm和PreNorm的差异
- 6.11 Dropout机制
- 6.11.1 Dropout的实现流程和原理
- 6.11.2 避免训练和推理时的期望偏移
- 6.11.3 避免训练和推理时的方差偏移
- 6.12 模型训练参数初始化方法概述
- 6.12.1 固定值初始化
- 6.12.2 预训练初始化
- 6.12.3 基于固定方差的初始化
- 6.12.4 基于方差缩放的初始化
- 第7章 大模型的评估
- 7.1 大模型的评测榜单与内容
- 7.2 大模型评测的原则
- 7.3 大模型的修复方法
- 7.3.1 badcase定义
- 7.3.2 badcase修复思路
- 7.3.3 实践解法
- 7.4 生成式模型的评测指标
- 7.5 大模型的自动化评估
- 7.6 大模型的对抗性测试
- 7.7 大模型的备案流程
- 第8章 大模型的架构
- 8.1 因果解码器架构成为主流的原因
- 8.2 大模型的集成融合方法
- 8.3 MoE
- 第9章 检索增强生成
- 9.1 RAG的组成与评估
- 9.2 RAG中的召回方法
- 9.3 RAG与重排
- 9.4 RAG的工程化问题
- 第10章 大模型智能体
- 10.1 智能体的组成
- 10.2 智能体的规划能力
- 10.3 智能体的记忆模块
- 10.4 智能体的工具调用
- 10.5 XAgent框架
- 10.6 AutoGen框架
- 10.7 智能体框架实践
- 第11章 大模型PEFT
- 11.1 LoRA
- 11.1.1 LoRA的设计思路
- 11.1.2 LoRA的具体实现流程
- 11.2 PEFT方法概述
- 11.3 PEFT与全参数微调
- 第12章 大模型的训练与推理
- 12.1 大模型解码与采样方法综述
- 12.2 大模型生成参数及其含义
- 12.3 大模型训练与推理预填充阶段的加速方法
- 12.4 大模型专家并行训练
- 12.5 大模型推理加速
- 12.5.1 为什么对KV缓存的内存管理效率是影响推理系统吞吐量的关键因素
- 12.5.2 PagedAttention如何提高对KV缓存的内存管理效率
- 12.6 大模型量化的细节
- 12.7 大模型多维并行化训练策略
- 第13章 DeepSeek
- 13.1 DeepSeek系列模型架构创新
- 13.1.1 大数量小尺寸的混合专家设计
- 13.1.2 MLA
- 13.1.3 多词元预测
- 13.2 DeepSeek-R1训练流程
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。
