展开全部

主编推荐语

本书旨在帮助读者从理论基础到实战应用,全面掌握Transformer技术。

内容简介

本书深入浅出地介绍了深度学习中的序列模型及其发展历程,重点讲解了Transformer架构及其变体的原理与实战应用。

全书共5章。第1章详细介绍RNN和LSTM的原理、代码实战及存在的问题与挑战。第2章全面剖析了Transformer的总体架构、核心思想及各组成部分的实现方法。

第3章从自定义代码出发,详细地讲解了词嵌入、多头注意力层、前馈网络层、编码器层和解码器层的构建方法,以及如何训练Transformer模型。第4章介绍Transformer变体与进阶部分。

第5章介绍利用Hugging Face实践Transformer,首先介绍了Hugging Face社区和Transformers库,然后通过实际应用案例,如文本分类、情感分类、命名实体识别等,展示了如何使用Transformers库进行项目开发。最后,讲解了模型微调的各种方法,以及Transformer的影响和未来展望。

目录

  • 版权信息
  • 作者简介
  • 内容简介
  • 前言PREFACE
  • 第1章 引言
  • 1.1 深度学习与序列模型的进化
  • 1.深度学习
  • 2.序列模型
  • 1.1.1 RNN原理
  • 1.传统的神经网络
  • 2.循环神经网络
  • 1.1.2 RNN代码实践
  • 1.数据加载
  • 2.创建词汇表
  • 3.划分数据集
  • 4.创建DataLoader
  • 5.定义模型
  • 6.模型训练
  • 1.1.3 RNN的问题与挑战
  • 1.梯度消失和梯度爆炸
  • 2.原理解析
  • 1.1.4 LSTM原理
  • 1.遗忘门
  • 2.输入门
  • 3.输出门
  • 4.相对于RNN的改善
  • 1.1.5 LSTM代码实践
  • 1.数据加载
  • 2.数据处理
  • 3.向量化处理
  • 4.创建DataLoader
  • 5.定义模型
  • 6.训练模型
  • 1.1.6 LSTM的问题与挑战
  • 1.2 Transformer的诞生背景
  • 1.2.1 Seq2Seq模型
  • 1.编码器-解码器
  • 2.解码器的工作原理
  • 1.2.2 Seq2Seq代码实践
  • 1.数据加载
  • 2.数据集划分
  • 3.数据预处理
  • 4.定义模型
  • 5.模型训练
  • 1.2.3 注意力机制的崛起
  • 1.Seq2Seq模型局限性
  • 2.注意力机制
  • 1.2.4 注意力机制代码解读
  • 1.编码器
  • 2.注意力机制模型
  • 3.解码器
  • 1.2.5 论文“Attention is All You Need”简介
  • 第2章 Transformer架构解析
  • 2.1 Transformer总览
  • 2.1.1 Transformer的核心思想
  • 1.词嵌入
  • 2.自注意力机制
  • 2.1.2 Transformer的总体架构
  • 2.2 Transformer的实现
  • 2.2.1 自注意力机制的原理和实现
  • 1.线性变换
  • 2.计算注意力得分
  • 3.加权求和
  • 2.2.2 多头注意力的原理和实现
  • 1.线性变换
  • 2.计算每个头的注意力
  • 3.拼接和线性变换
  • 2.2.3 位置编码的作用和实现
  • 2.2.4 前馈网络层
  • 2.2.5 残差连接和层归一化
  • 1.残差连接
  • 2.层归一化
  • 2.2.6 解码器的结构和功能
  • 1.掩码多头注意力层
  • 2.交互多头注意力层
  • 第3章 训练Transformer
  • 3.1 自定义Transformer代码
  • 1.代码环境介绍
  • 2.安装虚拟环境
  • 3.安装依赖包
  • 3.1.1 词嵌入和位置编码
  • 1.词嵌入
  • 2.位置编码
  • 3.1.2 多头注意力层
  • 3.1.3 前馈网络层
  • 3.1.4 编码器层和解码器层
  • 1.编码器层
  • 2.解码器层
  • 3.1.5 构建Transformer模型
  • 3.1.6 训练Transformer模型
  • 1.参数设置
  • 2.模型初始化
  • 3.训练过程
  • 4.结果分析
  • 3.2 实践训练
  • 3.2.1 数据准备
  • 1.读取数据
  • 2.文本分词
  • 3.词嵌入
  • 4.构建数据集
  • 5.划分数据集
  • 3.2.2 模型定义及训练
  • 1.模型定义
  • 2.模型训练
  • 3.2.3 模型预测
  • 第4章 Transformer变体与进阶
  • 4.1 BERT
  • 4.1.1 BERT架构与原理
  • 1.掩蔽语言模型
  • 2.下一句预测
  • 4.1.2 BERT训练过程解析
  • 1.掩蔽语言模型训练过程
  • 2.下句预测训练过程
  • 4.2 GPT系列
  • 4.2.1 从GPT到GPT-4o
  • 4.2.2 GPT训练过程解析
  • 1.预训练阶段
  • 2.微调阶段
  • 4.3 其他变体
  • 4.3.1 ALBERT
  • 1.跨层参数共享
  • 2.嵌入层参数因子分解
  • 3.训练ALBERT模型
  • 4.3.2 RoBERTa
  • 1.取消下句预测任务
  • 2.更大规模的训练数据
  • 3.更长的训练时间与大批量训练
  • 4.动态掩码机制
  • 4.3.3 T5
  • 1.统一的文本到文本框架
  • 2.多任务学习
  • 4.3.4 知识蒸馏原理及实践
  • 1.知识蒸馏的基本原理
  • 2.知识蒸馏训练过程
  • 3.代码实践
  • 第5章利用Hugging Face实践Transformer
  • 5.1 Hugging Face简介
  • 5.1.1 社区与资源介绍
  • 5.1.2 Transformers库概览
  • 5.2 快速开始
  • 5.2.1 Transformers库
  • 5.2.2 Datasets加载数据集
  • 1.主要特点
  • 2.主要功能
  • 3.使用Datasets库
  • 5.2.3 Tokenizer文本处理
  • 1.基本功能介绍
  • 2.使用方法
  • 5.2.4 预训练模型的加载
  • 1.模型的定义与作用
  • 2.使用方法
  • 5.2.5 Evaluate评估
  • 1.主要功能和特点
  • 2.使用方法
  • 5.2.6 Trainer训练
  • 1.主要功能和特点
  • 2.使用方法
  • 5.3 实际应用案例
  • 5.3.1 文本分类
  • 1.加载数据集
  • 2.数据预处理
  • 3.创建模型
  • 4.创建评估函数
  • 5.创建训练参数
  • 6.创建训练器并训练模型
  • 7.评估
  • 8.预测
  • 5.3.2 情感分类
  • 1.加载数据集
  • 2.数据预处理
  • 3.创建模型
  • 4.创建评估函数
  • 5.创建训练参数
  • 6.创建训练器并训练模型
  • 7.评估测试集
  • 8.预测
  • 5.3.3 命名实体识别
  • 1.标注方法
  • 2.评价指标
  • 3.代码实践
  • 5.3.4 文本相似度
  • 1.加载数据集
  • 2.数据预处理
  • 3.创建模型
  • 4.创建评估函数
  • 5.创建训练参数
  • 6.创建训练器并训练
  • 7.评估
  • 8.预测
  • 5.3.5 机器阅读理解
  • 1.评价指标
  • 2.代码实践
  • 5.3.6 文本摘要
  • 1.文本摘要简介
  • 2.评价指标
  • 3.计算过程演示
  • 4.代码实践
  • 5.3.7 生成式对话机器人
  • 1.下载数据集
  • 2.数据预处理
  • 3.创建模型
  • 4.创建训练参数
  • 5.创建训练参数并训练
  • 6.预测
  • 5.4 模型高效微调
  • 5.4.1 微调原理介绍
  • 1.PEFT的主要特征
  • 2.PEFT的分类
  • 3.PEFT的应用场景
  • 5.4.2 Freeze微调原理及实践
  • 1.查看模型的总参数量
  • 2.选择训练参数
  • 3.开始训练
  • 5.4.3 Prompt-Tuning微调原理及实践
  • 1.Prompt Tuning的优势与实现
  • 2.Hard Prompt代码实践
  • 3.Soft Prompt代码实践
  • 5.4.4 Prefix Tuning微调原理及实践
  • 1.配置模型参数
  • 2.查看参数配置
  • 3.查看参数量
  • 4.训练结果
  • 5.4.5 P-Tuning微调原理及实践
  • 1.P-Tuning
  • 2.P_Tuning v2
  • 3.代码实践P-Tuning
  • 4.代码实践P-Tuning v2
  • 5.4.6 LoRA微调原理及实践
  • 1.配置模型参数
  • 2.查看模型参数
  • 3.查看参数量
  • 4.训练结果
  • 5.权重合并
  • 5.4.7 AdaLoRA微调原理及实践
  • 1.核心思想
  • 2.算法原理
  • 3.代码实践
  • 4.综合对比
  • 5.4.8 QLoRA微调原理及实践
  • 1.精度介绍
  • 2.低精度介绍
  • 3.量化介绍
  • 4.QLoRA原理介绍
  • 5.QLoRA代码实践
  • 5.5 Transformer的影响
  • 5.6 未来展望
  • 图书推荐
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。