展开全部

主编推荐语

本书系统地介绍大语言模型(LLM)的理论基础、实现方法及在多种场景中的应用实践。

内容简介

全书共分为12章。

第1~3章介绍Transformer模型的基本架构与核心概念,包括编解码器的结构、自注意力机制、多头注意力的设计和工作原理;第4~6章结合实际案例,讲解如何利用PyTorch和Hugging Face库构建、训练和微调LLM;

第7~9章介绍生成模型的推理和优化技术,包括量化、剪技、多GPU并行处理、混合精度训练等,以提高模型在大规模数据集上的训练和推理效率;第10、11章通过实例讲解Transformer在实际NLP任务中的应用以及模型可解释性技术;

第12章通过一个企业级文本分析平台项目的搭建,介绍从数据预处理、文本生成、高级分析到容器化与云端部署的完整流程,并提供了代码示例、模块化测试和性能评估方法,帮助读者实际构建满足企业需求的智能应用系统。

目录

  • 版权信息
  • 作者简介
  • 内容简介
  • 前言
  • 本书源码下载
  • 第1章 Transformer与PyTorch的集成应用概述
  • 1.1 大模型与Transformer的技术背景
  • 1.1.1 自注意力机制的原理与实现细节
  • 1.1.2 多层堆叠与残差连接:Transformer的高效信息流
  • 1.2 PyTorch的应用场景与技术特点
  • 1.2.1 动态图计算与自动微分机制
  • 1.2.2 GPU加速与多设备支持
  • 1.3 快速上手:使用PyTorch实现一个简单的Transformer模型
  • 1.3.1 Transformer编码器的基础实现与训练流程
  • 1.3.2 解码器与完整Transformer模型的拼接与测试
  • 1.4 本章小结
  • 1.5 思考题
  • 第2章 Transformer编码器与解码器的原理与实现
  • 2.1 Transformer编码器与解码器结构分析
  • 2.1.1 位置编码的设计与实现
  • 2.1.2 多头注意力与前馈层的层次关系
  • 2.2 基于PyTorch实现编码器-解码器架构
  • 2.2.1 多头注意力模块的独立实现与测试
  • 2.2.2 残差连接与层归一化的模块化实现
  • 2.3 Transformer的编码解码过程
  • 2.3.1 编码器多层堆叠与信息流动的实现
  • 2.3.2 解码器自回归生成过程的实现与可视化
  • 2.3.3 基于文本的Transformer实例:逐步打印编码解码过程
  • 2.4 编码器和解码器的双向训练流程
  • 2.4.1 编码器与解码器的联合训练策略
  • 2.4.2 掩码机制在双向训练中的应用
  • 2.5 本章小结
  • 2.6 思考题
  • 第3章 注意力机制与多头注意力的实现
  • 3.1 注意力机制的基础与实现原理
  • 3.1.1 点积注意力与缩放机制
  • 3.1.2 注意力权重的归一化与Softmax函数应用
  • 3.2 多头注意力的设计与实现细节
  • 3.2.1 多头分组与并行计算策略
  • 3.2.2 多头注意力的拼接与线性变换
  • 3.3 使用PyTorch实现多头注意力并进行可视化
  • 3.3.1 注意力矩阵的生成与可视化
  • 3.3.2 不同头注意力分布的可视化分析
  • 3.4 多头注意力权重的提取与应用
  • 3.4.1 多头注意力权重提取与解读:理解模型的关注点
  • 3.4.2 多头注意力权重的优化与调控
  • 3.5 本章小结
  • 3.6 思考题
  • 第4章 Hugging Face Transformers库的应用
  • 4.1 Transformer模型的加载与配置
  • 4.1.1 预训练模型的加载与管理
  • 4.1.2 模型配置自定义与参数调整
  • 4.2 使用Hugging Face库进行模型训练与推理
  • 4.2.1 模型训练数据的预处理与标注
  • 4.2.2 训练过程中的参数优化与监控
  • 4.3 Hugging Face生态系统的其他工具介绍
  • 4.3.1 Tokenizer的自定义与高效分词方法
  • 4.3.2 Dataset和Pipeline工具的集成应用
  • 4.4 自定义Hugging Face的模型训练流程
  • 4.4.1 自定义训练循环与评估指标
  • 4.4.2 迁移学习与微调:从预训练到特定任务
  • 4.5 本章小结
  • 4.6 思考题
  • 第5章 数据预处理与文本分词技术
  • 5.1 文本数据的清洗与标准化
  • 5.1.1 特殊字符和标点的处理
  • 5.1.2 停用词去除与大小写规范化
  • 5.2 分词方法及其在不同模型中的应用
  • 5.2.1 词级分词与子词分词
  • 5.2.2 BPE与WordPiece分词算法的实现原理
  • 5.3 使用PyTorch和Hugging Face进行分词与词嵌入
  • 5.3.1 基于Hugging Face Tokenizer的高效分词
  • 5.3.2 Embedding层的定义与词嵌入矩阵的初始化
  • 5.4 动态分词与序列截断技术
  • 5.4.1 处理变长文本输入
  • 5.4.2 长序列的截断与填充
  • 5.4.3 综合案例:文本清洗、分词、词嵌入与动态填充
  • 5.5 本章小结
  • 5.6 思考题
  • 第6章 模型微调与迁移学习
  • 6.1 微调与迁移学习的基本概念与方法
  • 6.1.1 迁移学习的体系结构:模型的选择与适配
  • 6.1.2 全参数微调与部分参数微调的优缺点
  • 6.2 使用预训练模型进行领域微调
  • 6.2.1 领域特定数据的预处理与加载
  • 6.2.2 调节学习率与损失函数
  • 6.3 微调策略与优化技巧:冻结层、增量训练等
  • 6.3.1 冻结模型层的选择与解冻
  • 6.3.2 增量训练中的数据选择与样本权重分配
  • 6.4 增量学习:如何在新数据上继续微调
  • 6.4.1 基于新数据的微调策略:避免灾难性遗忘
  • 6.4.2 使用正则化与约束技术保持原模型性能
  • 6.4.3 综合案例:增量学习中的微调策略与优化
  • 6.5 本章小结
  • 6.6 思考题
  • 第7章 文本生成与推理技术
  • 7.1 文本生成方法概述:Beam Search、Top-K与Top-P采样
  • 7.1.1 Beam Search的多路径生成与评估
  • 7.1.2 Top-K采样的限制与稀疏性控制
  • 7.1.3 Top-P采样的自适应概率截断机制
  • 7.2 文本生成模型的应用实例
  • 7.2.1 使用预训练语言模型生成长篇文本
  • 7.2.2 生成多轮对话的上下文保持与管理
  • 7.2.3 引导生成特定情绪的文本
  • 7.3 生成模型的实现与优化
  • 7.3.1 使用PyTorch和Transformers库实现生成模型
  • 7.3.2 生成模型的批量处理与并行加速
  • 7.3.3 生成结果的后处理与数据清洗
  • 7.4 控制生成式模型输出的技术手段
  • 7.4.1 温度调控参数的设置与生成调节
  • 7.4.2 限制生成输出的内容
  • 7.4.3 生成限制:控制模型输出的重复与一致性
  • 7.5 句子长度与风格调控
  • 7.5.1 强制生成短句或长句
  • 7.5.2 生成特定语法与风格的文本
  • 7.5.3 语言风格迁移与自定义风格调控
  • 7.6 本章小结
  • 7.7 思考题
  • 第8章 模型优化与量化技术
  • 8.1 模型优化策略概述:剪枝与蒸馏
  • 8.1.1 剪枝策略的类型与应用场景
  • 8.1.2 蒸馏模型的设计与小模型训练技巧
  • 8.2 模型量化方法在推理中的加速效果
  • 8.2.1 静态量化与动态量化
  • 8.2.2 量化感知训练
  • 8.3 基于PyTorch的模型优化与性能测试
  • 8.3.1 TorchScript在优化模型中的应用
  • 8.3.2 使用PyTorch Profiler进行性能分析
  • 8.4 混合精度训练与内存优化
  • 8.4.1 使用AMP进行混合精度训练
  • 8.4.2 Gradient Checkpointing的内存管理
  • 8.5 本章小结
  • 8.6 思考题
  • 第9章 分布式训练与多GPU并行处理
  • 9.1 分布式训练的基本原理与架构
  • 9.1.1 数据并行与模型并行的架构
  • 9.1.2 分布式训练:参数服务器与All-Reduce
  • 9.2 多GPU并行处理的实现与代码示例
  • 9.2.1 单机多卡的实现与管理
  • 9.2.2 跨机器多GPU的分布式训练配置
  • 9.3 梯度累积与分布式同步优化
  • 9.3.1 梯度累积应用场景与实现
  • 9.3.2 分布式训练中的梯度同步与参数更新
  • 9.4 本章小结
  • 9.5 思考题
  • 第10章 NLP任务实例:分类、问答与命名实体识别
  • 10.1 文本分类任务实现与优化技巧
  • 10.1.1 数据预处理与标签平衡技术
  • 10.1.2 超参数调优与模型性能提升
  • 10.2 问答系统的实现流程与代码演示
  • 10.2.1 预训练语言模型在问答任务中的应用
  • 10.2.2 答案抽取与评分机制
  • 10.2.3 多轮问答中的上下文跟踪与信息保持
  • 10.2.4 知识图谱增强
  • 10.3 基于Transformer的序列标注任务实现
  • 10.3.1 命名实体识别的标注
  • 10.3.2 序列标注模型
  • 10.3.3 综合案例:基于BERT的命名实体识别与上下文追踪的多轮对话系统
  • 1.数据加载与预处理
  • 2.标签平衡与超参数调优
  • 3.多轮对话中的上下文跟踪
  • 4.知识图谱增强
  • 5.序列标注模型训练与推理
  • 6.测试运行
  • 10.4 本章小结
  • 10.5 思考题
  • 第11章 深度学习模型的可解释性
  • 11.1 使用SHAP和LIME进行特征重要性分析
  • 11.1.1 SHAP在深度模型中的应用与特征影响力排序
  • 11.1.2 LIME在不同输入类型下的局部解释
  • 11.2 注意力权重提取与层次分析
  • 11.2.1 逐层提取多头注意力权重
  • 11.2.2 跨层注意力权重变化
  • 11.2.3 综合案例:基于Transformer的文本分类模型的多层次可解释性分析
  • 11.3 本章小结
  • 11.4 思考题
  • 第12章 构建智能文本分析平台
  • 12.1 项目概述与模块划分
  • 12.1.1 项目概述
  • 12.1.2 模块划分
  • 12.2 模块化开发与测试
  • 12.2.1 数据收集与预处理
  • 1.原始数据的收集与清理
  • 2.数据预处理与转换
  • 3.构建词汇表与词嵌入矩阵
  • 12.2.2 文本生成与内容生成
  • 1.加载预训练模型并进行微调
  • 2.文本生成的温度调控与采样策略
  • 3.测试用例实现与输出分析
  • 12.2.3 高级文本分析
  • 1.情感分析
  • 2.关键词抽取
  • 3.话题建模
  • 12.2.4 模型优化与推理性能提升
  • 1.模型剪枝
  • 2.模型量化
  • 3.推理加速:使用TorchScript
  • 4.综合测试:剪枝+量化+TorchScript
  • 12.2.5 多GPU与分布式训练
  • 1.基本原理
  • 2.代码实现
  • 12.2.6 可解释性分析与模型可控性
  • 1.基本原理
  • 2.代码实现
  • 12.2.7 单元测试
  • 12.2.8 集成测试
  • 12.3 平台容器化部署与云端部署
  • 12.3.1 使用Docker进行容器化部署
  • 1.Docker简介与基本原理
  • 2.Dockerfile编写与构建流程
  • 3.Dockerfile代码详解
  • 4.构建和运行Docker镜像
  • 5.验证容器化部署是否成功
  • 6.常见问题与排查
  • 12.3.2 使用Kubernetes实现云端可扩展性和高可用性
  • 1.Kubernetes简介与架构概述
  • 2.编写Kubernetes部署文件
  • 3.部署应用至Kubernetes集群
  • 4.实现云端的高可用性和自动扩展
  • 5.验证高可用性与负载均衡
  • 12.4 本章小结
  • 12.5 思考题
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。