展开全部

主编推荐语

本书全面、系统地介绍从神经网络到Transformer的相关知识。

内容简介

本书共20章。

第1、2章介绍神经网络的基础与典型神经网络,带领读者手推前向与反向传播、写一个神经网络;

第3、4、5章介绍编解码-神经网络架构、Tokenlization与数学基础;

第6、7、8、9章详细介绍Transformer各模块的基本原理;第10章介绍Transformer模型的超参数,并在第11章给出Transformer实现代码;

第12、13、14章介绍Transformer面试常见问题、最新模型及Transformer模型的各种变体;

第15到20章是GPT模型构建实战,包括MiniMind大模型案例构建、MiniMind代码详解、MiniMind安装、MiniMind训练、MiniMind微调、Minimind推理。

目录

  • 版权信息
  • 作者简介
  • 内容简介
  • 前言
  • 第1篇 神经网络快速入门
  • 第1章 神经网络基础
  • 1.1 神经元
  • 1.2 手算神经网络
  • 1.3 手推前向传播
  • 1.4 手推反向传播
  • 第2章 手搓神经网络
  • 2.1 写一个神经网络并训练
  • 2.2 经典神经网络——CNN
  • 2.3 经典神经网络——RNN
  • 第2篇 Transformer架构基础
  • 第3章 编解码架构概述
  • 3.1 数据处理的高效邮递员——Auto encoder
  • 3.2 温故而知新——VAE
  • 3.3 深度学习中的猫鼠游戏——GAN
  • 3.4 变形金刚——Transformer
  • 第4章 Tokenization基础
  • 4.1 文字转数字
  • 4.2 词嵌入
  • 第5章 Transformer架构的数学基础
  • 5.1 向量和矩阵相乘的变换
  • 5.2 空间变化的性质
  • 5.3 层归一化
  • 第3篇 Transformer模型剖析
  • 第6章 Transformer架构概述
  • 6.1 大语言模型概述
  • 6.2 Transformer架构基础
  • 第7章 词汇输入模块
  • 7.1 Tokenization方法
  • 7.2 位置编码
  • 7.3 深入理解词嵌入与位置信息
  • 第8章 注意力机制模块
  • 8.1 注意力机制的运算
  • 8.2 交叉注意力
  • 8.3 多头注意力
  • 第9章 输出模块
  • 9.1 残差连接和Norm处理
  • 9.2 全连接前馈神经网络
  • 9.3 mask处理
  • 9.4 最终输出逻辑及参数量
  • 第10章 基于Transformer架构的模型训练、推理与优化
  • 10.1 训练过程
  • 10.2 推理过程
  • 10.3 Seq2Seq的优化过程
  • 第11章 Transformer模型的超参数
  • 11.1 学习率
  • 11.2 批处理数量batch_size
  • 11.3 维度
  • 11.4 多头注意力的头数
  • 第4篇 Transformer进阶
  • 第12章 手搓Transformer架构
  • 12.1 Transformer的核心架构代码
  • 12.2 Encoder代码详解
  • 12.3 Decoder代码详解
  • 第13章 经典大语言模型
  • 13.1 只使用编码端的经典BERT模型剖析
  • 13.2 只使用解码端的经典GPT模型剖析
  • 13.3 BERT模型与GPT模型的对比
  • 第14章 Transformer算法面试12问
  • 14.1 Transformer模型为什么使用Layer Norm
  • 14.2 在Transformer模型中FFN有什么作用
  • 14.3 在Transformer模型中Position Embedding有什么作用
  • 14.4 Transformer模型中的Weight Tying是什么
  • 14.5 为什么大多数大语言模型都是仅解码器架构
  • 14.6 在Transformer模型中Encoder和Decoder是如何交汇的
  • 14.7 Transformer模型中的Layer Norm可以并行吗
  • 14.8 什么是张量并行
  • 14.9 在Transformer模型中为什么使用不同权重的矩阵生成Q和K
  • 14.10 更深、更宽的Transformer网络是否意味着更强的训练模型
  • 14.11 Transformer模型推理为何要做K、V缓存
  • 14.12 在Transformer模型中K、V缓存是如何工作的
  • 第5篇 GPT模型完全体验之MiniMind
  • 第15章 大模型案例之MiniMind
  • 15.1 MiniMind模型概述
  • 15.2 项目简介
  • 15.3 代码框架
  • 第16章 MiniMind代码详解
  • 16.1 输入部分
  • 16.2 MiniMind中的Transformer架构
  • 16.3 输出部分
  • 16.4 微调过程
  • 16.5 测试过程
  • 第17章 MiniMind模型的安装
  • 17.1 软硬件环境的配置
  • 17.2 项目安装
  • 第18章 MiniMind模型的训练
  • 18.1 数据集
  • 18.2 参数配置
  • 18.3 预训练
  • 第19章 MiniMind模型的微调
  • 19.1 单轮对话微调
  • 19.2 多轮对话微调
  • 第20章 MiniMind模型的推理
  • 20.1 测试模型的对话效果
  • 20.2 测试模型的接龙效果
  • 20.3 不同模型的对比
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。