互联网
类型
可以朗读
语音朗读
118千字
字数
2025-06-01
发行日期
展开全部
主编推荐语
本书系统地介绍大语言模型(LLM)的理论基础、实现方法及在多种场景中的应用实践。
内容简介
全书共分为12章。
第1~3章介绍Transformer模型的基本架构与核心概念,包括编解码器的结构、自注意力机制、多头注意力的设计和工作原理;第4~6章结合实际案例,讲解如何利用PyTorch和Hugging Face库构建、训练和微调LLM;
第7~9章介绍生成模型的推理和优化技术,包括量化、剪技、多GPU并行处理、混合精度训练等,以提高模型在大规模数据集上的训练和推理效率;第10、11章通过实例讲解Transformer在实际NLP任务中的应用以及模型可解释性技术;
第12章通过一个企业级文本分析平台项目的搭建,介绍从数据预处理、文本生成、高级分析到容器化与云端部署的完整流程,并提供了代码示例、模块化测试和性能评估方法,帮助读者实际构建满足企业需求的智能应用系统。
目录
- 版权信息
- 作者简介
- 内容简介
- 前言
- 本书源码下载
- 第1章 Transformer与PyTorch的集成应用概述
- 1.1 大模型与Transformer的技术背景
- 1.1.1 自注意力机制的原理与实现细节
- 1.1.2 多层堆叠与残差连接:Transformer的高效信息流
- 1.2 PyTorch的应用场景与技术特点
- 1.2.1 动态图计算与自动微分机制
- 1.2.2 GPU加速与多设备支持
- 1.3 快速上手:使用PyTorch实现一个简单的Transformer模型
- 1.3.1 Transformer编码器的基础实现与训练流程
- 1.3.2 解码器与完整Transformer模型的拼接与测试
- 1.4 本章小结
- 1.5 思考题
- 第2章 Transformer编码器与解码器的原理与实现
- 2.1 Transformer编码器与解码器结构分析
- 2.1.1 位置编码的设计与实现
- 2.1.2 多头注意力与前馈层的层次关系
- 2.2 基于PyTorch实现编码器-解码器架构
- 2.2.1 多头注意力模块的独立实现与测试
- 2.2.2 残差连接与层归一化的模块化实现
- 2.3 Transformer的编码解码过程
- 2.3.1 编码器多层堆叠与信息流动的实现
- 2.3.2 解码器自回归生成过程的实现与可视化
- 2.3.3 基于文本的Transformer实例:逐步打印编码解码过程
- 2.4 编码器和解码器的双向训练流程
- 2.4.1 编码器与解码器的联合训练策略
- 2.4.2 掩码机制在双向训练中的应用
- 2.5 本章小结
- 2.6 思考题
- 第3章 注意力机制与多头注意力的实现
- 3.1 注意力机制的基础与实现原理
- 3.1.1 点积注意力与缩放机制
- 3.1.2 注意力权重的归一化与Softmax函数应用
- 3.2 多头注意力的设计与实现细节
- 3.2.1 多头分组与并行计算策略
- 3.2.2 多头注意力的拼接与线性变换
- 3.3 使用PyTorch实现多头注意力并进行可视化
- 3.3.1 注意力矩阵的生成与可视化
- 3.3.2 不同头注意力分布的可视化分析
- 3.4 多头注意力权重的提取与应用
- 3.4.1 多头注意力权重提取与解读:理解模型的关注点
- 3.4.2 多头注意力权重的优化与调控
- 3.5 本章小结
- 3.6 思考题
- 第4章 Hugging Face Transformers库的应用
- 4.1 Transformer模型的加载与配置
- 4.1.1 预训练模型的加载与管理
- 4.1.2 模型配置自定义与参数调整
- 4.2 使用Hugging Face库进行模型训练与推理
- 4.2.1 模型训练数据的预处理与标注
- 4.2.2 训练过程中的参数优化与监控
- 4.3 Hugging Face生态系统的其他工具介绍
- 4.3.1 Tokenizer的自定义与高效分词方法
- 4.3.2 Dataset和Pipeline工具的集成应用
- 4.4 自定义Hugging Face的模型训练流程
- 4.4.1 自定义训练循环与评估指标
- 4.4.2 迁移学习与微调:从预训练到特定任务
- 4.5 本章小结
- 4.6 思考题
- 第5章 数据预处理与文本分词技术
- 5.1 文本数据的清洗与标准化
- 5.1.1 特殊字符和标点的处理
- 5.1.2 停用词去除与大小写规范化
- 5.2 分词方法及其在不同模型中的应用
- 5.2.1 词级分词与子词分词
- 5.2.2 BPE与WordPiece分词算法的实现原理
- 5.3 使用PyTorch和Hugging Face进行分词与词嵌入
- 5.3.1 基于Hugging Face Tokenizer的高效分词
- 5.3.2 Embedding层的定义与词嵌入矩阵的初始化
- 5.4 动态分词与序列截断技术
- 5.4.1 处理变长文本输入
- 5.4.2 长序列的截断与填充
- 5.4.3 综合案例:文本清洗、分词、词嵌入与动态填充
- 5.5 本章小结
- 5.6 思考题
- 第6章 模型微调与迁移学习
- 6.1 微调与迁移学习的基本概念与方法
- 6.1.1 迁移学习的体系结构:模型的选择与适配
- 6.1.2 全参数微调与部分参数微调的优缺点
- 6.2 使用预训练模型进行领域微调
- 6.2.1 领域特定数据的预处理与加载
- 6.2.2 调节学习率与损失函数
- 6.3 微调策略与优化技巧:冻结层、增量训练等
- 6.3.1 冻结模型层的选择与解冻
- 6.3.2 增量训练中的数据选择与样本权重分配
- 6.4 增量学习:如何在新数据上继续微调
- 6.4.1 基于新数据的微调策略:避免灾难性遗忘
- 6.4.2 使用正则化与约束技术保持原模型性能
- 6.4.3 综合案例:增量学习中的微调策略与优化
- 6.5 本章小结
- 6.6 思考题
- 第7章 文本生成与推理技术
- 7.1 文本生成方法概述:Beam Search、Top-K与Top-P采样
- 7.1.1 Beam Search的多路径生成与评估
- 7.1.2 Top-K采样的限制与稀疏性控制
- 7.1.3 Top-P采样的自适应概率截断机制
- 7.2 文本生成模型的应用实例
- 7.2.1 使用预训练语言模型生成长篇文本
- 7.2.2 生成多轮对话的上下文保持与管理
- 7.2.3 引导生成特定情绪的文本
- 7.3 生成模型的实现与优化
- 7.3.1 使用PyTorch和Transformers库实现生成模型
- 7.3.2 生成模型的批量处理与并行加速
- 7.3.3 生成结果的后处理与数据清洗
- 7.4 控制生成式模型输出的技术手段
- 7.4.1 温度调控参数的设置与生成调节
- 7.4.2 限制生成输出的内容
- 7.4.3 生成限制:控制模型输出的重复与一致性
- 7.5 句子长度与风格调控
- 7.5.1 强制生成短句或长句
- 7.5.2 生成特定语法与风格的文本
- 7.5.3 语言风格迁移与自定义风格调控
- 7.6 本章小结
- 7.7 思考题
- 第8章 模型优化与量化技术
- 8.1 模型优化策略概述:剪枝与蒸馏
- 8.1.1 剪枝策略的类型与应用场景
- 8.1.2 蒸馏模型的设计与小模型训练技巧
- 8.2 模型量化方法在推理中的加速效果
- 8.2.1 静态量化与动态量化
- 8.2.2 量化感知训练
- 8.3 基于PyTorch的模型优化与性能测试
- 8.3.1 TorchScript在优化模型中的应用
- 8.3.2 使用PyTorch Profiler进行性能分析
- 8.4 混合精度训练与内存优化
- 8.4.1 使用AMP进行混合精度训练
- 8.4.2 Gradient Checkpointing的内存管理
- 8.5 本章小结
- 8.6 思考题
- 第9章 分布式训练与多GPU并行处理
- 9.1 分布式训练的基本原理与架构
- 9.1.1 数据并行与模型并行的架构
- 9.1.2 分布式训练:参数服务器与All-Reduce
- 9.2 多GPU并行处理的实现与代码示例
- 9.2.1 单机多卡的实现与管理
- 9.2.2 跨机器多GPU的分布式训练配置
- 9.3 梯度累积与分布式同步优化
- 9.3.1 梯度累积应用场景与实现
- 9.3.2 分布式训练中的梯度同步与参数更新
- 9.4 本章小结
- 9.5 思考题
- 第10章 NLP任务实例:分类、问答与命名实体识别
- 10.1 文本分类任务实现与优化技巧
- 10.1.1 数据预处理与标签平衡技术
- 10.1.2 超参数调优与模型性能提升
- 10.2 问答系统的实现流程与代码演示
- 10.2.1 预训练语言模型在问答任务中的应用
- 10.2.2 答案抽取与评分机制
- 10.2.3 多轮问答中的上下文跟踪与信息保持
- 10.2.4 知识图谱增强
- 10.3 基于Transformer的序列标注任务实现
- 10.3.1 命名实体识别的标注
- 10.3.2 序列标注模型
- 10.3.3 综合案例:基于BERT的命名实体识别与上下文追踪的多轮对话系统
- 1.数据加载与预处理
- 2.标签平衡与超参数调优
- 3.多轮对话中的上下文跟踪
- 4.知识图谱增强
- 5.序列标注模型训练与推理
- 6.测试运行
- 10.4 本章小结
- 10.5 思考题
- 第11章 深度学习模型的可解释性
- 11.1 使用SHAP和LIME进行特征重要性分析
- 11.1.1 SHAP在深度模型中的应用与特征影响力排序
- 11.1.2 LIME在不同输入类型下的局部解释
- 11.2 注意力权重提取与层次分析
- 11.2.1 逐层提取多头注意力权重
- 11.2.2 跨层注意力权重变化
- 11.2.3 综合案例:基于Transformer的文本分类模型的多层次可解释性分析
- 11.3 本章小结
- 11.4 思考题
- 第12章 构建智能文本分析平台
- 12.1 项目概述与模块划分
- 12.1.1 项目概述
- 12.1.2 模块划分
- 12.2 模块化开发与测试
- 12.2.1 数据收集与预处理
- 1.原始数据的收集与清理
- 2.数据预处理与转换
- 3.构建词汇表与词嵌入矩阵
- 12.2.2 文本生成与内容生成
- 1.加载预训练模型并进行微调
- 2.文本生成的温度调控与采样策略
- 3.测试用例实现与输出分析
- 12.2.3 高级文本分析
- 1.情感分析
- 2.关键词抽取
- 3.话题建模
- 12.2.4 模型优化与推理性能提升
- 1.模型剪枝
- 2.模型量化
- 3.推理加速:使用TorchScript
- 4.综合测试:剪枝+量化+TorchScript
- 12.2.5 多GPU与分布式训练
- 1.基本原理
- 2.代码实现
- 12.2.6 可解释性分析与模型可控性
- 1.基本原理
- 2.代码实现
- 12.2.7 单元测试
- 12.2.8 集成测试
- 12.3 平台容器化部署与云端部署
- 12.3.1 使用Docker进行容器化部署
- 1.Docker简介与基本原理
- 2.Dockerfile编写与构建流程
- 3.Dockerfile代码详解
- 4.构建和运行Docker镜像
- 5.验证容器化部署是否成功
- 6.常见问题与排查
- 12.3.2 使用Kubernetes实现云端可扩展性和高可用性
- 1.Kubernetes简介与架构概述
- 2.编写Kubernetes部署文件
- 3.部署应用至Kubernetes集群
- 4.实现云端的高可用性和自动扩展
- 5.验证高可用性与负载均衡
- 12.4 本章小结
- 12.5 思考题
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。
