科技
类型
可以朗读
语音朗读
132千字
字数
2025-08-01
发行日期
展开全部
主编推荐语
本书旨在帮助读者从理论基础到实战应用,全面掌握Transformer技术。
内容简介
本书深入浅出地介绍了深度学习中的序列模型及其发展历程,重点讲解了Transformer架构及其变体的原理与实战应用。
全书共5章。第1章详细介绍RNN和LSTM的原理、代码实战及存在的问题与挑战。第2章全面剖析了Transformer的总体架构、核心思想及各组成部分的实现方法。
第3章从自定义代码出发,详细地讲解了词嵌入、多头注意力层、前馈网络层、编码器层和解码器层的构建方法,以及如何训练Transformer模型。第4章介绍Transformer变体与进阶部分。
第5章介绍利用Hugging Face实践Transformer,首先介绍了Hugging Face社区和Transformers库,然后通过实际应用案例,如文本分类、情感分类、命名实体识别等,展示了如何使用Transformers库进行项目开发。最后,讲解了模型微调的各种方法,以及Transformer的影响和未来展望。
目录
- 版权信息
- 作者简介
- 内容简介
- 前言PREFACE
- 第1章 引言
- 1.1 深度学习与序列模型的进化
- 1.深度学习
- 2.序列模型
- 1.1.1 RNN原理
- 1.传统的神经网络
- 2.循环神经网络
- 1.1.2 RNN代码实践
- 1.数据加载
- 2.创建词汇表
- 3.划分数据集
- 4.创建DataLoader
- 5.定义模型
- 6.模型训练
- 1.1.3 RNN的问题与挑战
- 1.梯度消失和梯度爆炸
- 2.原理解析
- 1.1.4 LSTM原理
- 1.遗忘门
- 2.输入门
- 3.输出门
- 4.相对于RNN的改善
- 1.1.5 LSTM代码实践
- 1.数据加载
- 2.数据处理
- 3.向量化处理
- 4.创建DataLoader
- 5.定义模型
- 6.训练模型
- 1.1.6 LSTM的问题与挑战
- 1.2 Transformer的诞生背景
- 1.2.1 Seq2Seq模型
- 1.编码器-解码器
- 2.解码器的工作原理
- 1.2.2 Seq2Seq代码实践
- 1.数据加载
- 2.数据集划分
- 3.数据预处理
- 4.定义模型
- 5.模型训练
- 1.2.3 注意力机制的崛起
- 1.Seq2Seq模型局限性
- 2.注意力机制
- 1.2.4 注意力机制代码解读
- 1.编码器
- 2.注意力机制模型
- 3.解码器
- 1.2.5 论文“Attention is All You Need”简介
- 第2章 Transformer架构解析
- 2.1 Transformer总览
- 2.1.1 Transformer的核心思想
- 1.词嵌入
- 2.自注意力机制
- 2.1.2 Transformer的总体架构
- 2.2 Transformer的实现
- 2.2.1 自注意力机制的原理和实现
- 1.线性变换
- 2.计算注意力得分
- 3.加权求和
- 2.2.2 多头注意力的原理和实现
- 1.线性变换
- 2.计算每个头的注意力
- 3.拼接和线性变换
- 2.2.3 位置编码的作用和实现
- 2.2.4 前馈网络层
- 2.2.5 残差连接和层归一化
- 1.残差连接
- 2.层归一化
- 2.2.6 解码器的结构和功能
- 1.掩码多头注意力层
- 2.交互多头注意力层
- 第3章 训练Transformer
- 3.1 自定义Transformer代码
- 1.代码环境介绍
- 2.安装虚拟环境
- 3.安装依赖包
- 3.1.1 词嵌入和位置编码
- 1.词嵌入
- 2.位置编码
- 3.1.2 多头注意力层
- 3.1.3 前馈网络层
- 3.1.4 编码器层和解码器层
- 1.编码器层
- 2.解码器层
- 3.1.5 构建Transformer模型
- 3.1.6 训练Transformer模型
- 1.参数设置
- 2.模型初始化
- 3.训练过程
- 4.结果分析
- 3.2 实践训练
- 3.2.1 数据准备
- 1.读取数据
- 2.文本分词
- 3.词嵌入
- 4.构建数据集
- 5.划分数据集
- 3.2.2 模型定义及训练
- 1.模型定义
- 2.模型训练
- 3.2.3 模型预测
- 第4章 Transformer变体与进阶
- 4.1 BERT
- 4.1.1 BERT架构与原理
- 1.掩蔽语言模型
- 2.下一句预测
- 4.1.2 BERT训练过程解析
- 1.掩蔽语言模型训练过程
- 2.下句预测训练过程
- 4.2 GPT系列
- 4.2.1 从GPT到GPT-4o
- 4.2.2 GPT训练过程解析
- 1.预训练阶段
- 2.微调阶段
- 4.3 其他变体
- 4.3.1 ALBERT
- 1.跨层参数共享
- 2.嵌入层参数因子分解
- 3.训练ALBERT模型
- 4.3.2 RoBERTa
- 1.取消下句预测任务
- 2.更大规模的训练数据
- 3.更长的训练时间与大批量训练
- 4.动态掩码机制
- 4.3.3 T5
- 1.统一的文本到文本框架
- 2.多任务学习
- 4.3.4 知识蒸馏原理及实践
- 1.知识蒸馏的基本原理
- 2.知识蒸馏训练过程
- 3.代码实践
- 第5章利用Hugging Face实践Transformer
- 5.1 Hugging Face简介
- 5.1.1 社区与资源介绍
- 5.1.2 Transformers库概览
- 5.2 快速开始
- 5.2.1 Transformers库
- 5.2.2 Datasets加载数据集
- 1.主要特点
- 2.主要功能
- 3.使用Datasets库
- 5.2.3 Tokenizer文本处理
- 1.基本功能介绍
- 2.使用方法
- 5.2.4 预训练模型的加载
- 1.模型的定义与作用
- 2.使用方法
- 5.2.5 Evaluate评估
- 1.主要功能和特点
- 2.使用方法
- 5.2.6 Trainer训练
- 1.主要功能和特点
- 2.使用方法
- 5.3 实际应用案例
- 5.3.1 文本分类
- 1.加载数据集
- 2.数据预处理
- 3.创建模型
- 4.创建评估函数
- 5.创建训练参数
- 6.创建训练器并训练模型
- 7.评估
- 8.预测
- 5.3.2 情感分类
- 1.加载数据集
- 2.数据预处理
- 3.创建模型
- 4.创建评估函数
- 5.创建训练参数
- 6.创建训练器并训练模型
- 7.评估测试集
- 8.预测
- 5.3.3 命名实体识别
- 1.标注方法
- 2.评价指标
- 3.代码实践
- 5.3.4 文本相似度
- 1.加载数据集
- 2.数据预处理
- 3.创建模型
- 4.创建评估函数
- 5.创建训练参数
- 6.创建训练器并训练
- 7.评估
- 8.预测
- 5.3.5 机器阅读理解
- 1.评价指标
- 2.代码实践
- 5.3.6 文本摘要
- 1.文本摘要简介
- 2.评价指标
- 3.计算过程演示
- 4.代码实践
- 5.3.7 生成式对话机器人
- 1.下载数据集
- 2.数据预处理
- 3.创建模型
- 4.创建训练参数
- 5.创建训练参数并训练
- 6.预测
- 5.4 模型高效微调
- 5.4.1 微调原理介绍
- 1.PEFT的主要特征
- 2.PEFT的分类
- 3.PEFT的应用场景
- 5.4.2 Freeze微调原理及实践
- 1.查看模型的总参数量
- 2.选择训练参数
- 3.开始训练
- 5.4.3 Prompt-Tuning微调原理及实践
- 1.Prompt Tuning的优势与实现
- 2.Hard Prompt代码实践
- 3.Soft Prompt代码实践
- 5.4.4 Prefix Tuning微调原理及实践
- 1.配置模型参数
- 2.查看参数配置
- 3.查看参数量
- 4.训练结果
- 5.4.5 P-Tuning微调原理及实践
- 1.P-Tuning
- 2.P_Tuning v2
- 3.代码实践P-Tuning
- 4.代码实践P-Tuning v2
- 5.4.6 LoRA微调原理及实践
- 1.配置模型参数
- 2.查看模型参数
- 3.查看参数量
- 4.训练结果
- 5.权重合并
- 5.4.7 AdaLoRA微调原理及实践
- 1.核心思想
- 2.算法原理
- 3.代码实践
- 4.综合对比
- 5.4.8 QLoRA微调原理及实践
- 1.精度介绍
- 2.低精度介绍
- 3.量化介绍
- 4.QLoRA原理介绍
- 5.QLoRA代码实践
- 5.5 Transformer的影响
- 5.6 未来展望
- 图书推荐
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。
