展开全部

主编推荐语

从基本概念到实践技巧,全方位解读AI大模型。

内容简介

本书介绍了AI大模型的基础知识和关键技术,如Transformer、BERT、ALBERT、T5、GPT系列、InstructGPT、ChatGPT、GPT 4、PaLM和视觉模型等,并详细解释了这些模型的技术原理、实际应用以及高性能计算(HPC)技术的使用,如并行计算和内存优化。

同时,书中还提供了实践案例,详细介绍了如何使用Colossal AI训练各种模型。无论是人工智能初学者还是经验丰富的实践者,都能从本书学到实用的知识和技能,从而在迅速发展的AI领域中找到适合自己的方向。

目录

  • 版权信息
  • 前言
  • 第1章 深度学习中的AI大模型
  • 1.1 AI大模型在人工智能领域的兴起
  • 1.1.1 AI大模型的发展与挑战
  • 1.1.2 AI大模型为何难以训练
  • 1.2 深度学习框架入门
  • 1.2.1 搭建神经网络
  • 1.2.2 训练一个文本分类器
  • 第2章 分布式系统:AI大模型的诞生之所
  • 2.1 深度学习与分布式系统
  • 2.1.1 从分布式计算到分布式AI系统
  • 2.1.2 大规模分布式训练平台的关键技术
  • 2.1.3 Colossal-AI应用实践
  • 2.2 AI大模型训练方法
  • 2.2.1 梯度累积和梯度裁剪
  • 2.2.2 大批量优化器LARS/LAMB
  • 2.2.3 模型精度与混合精度训练
  • 2.3 异构训练
  • 2.3.1 异构训练的基本原理
  • 2.3.2 异构训练的实现策略
  • 2.4 实战分布式训练
  • 2.4.1 Colossal-AI环境搭建
  • 2.4.2 使用Colossal-AI训练第一个模型
  • 2.4.3 AI大模型的异构训练
  • 第3章 分布式训练:上千台机器如何共同起舞
  • 3.1 并行策略基础原理
  • 3.1.1 数据并行:最基本的并行训练范式
  • 3.1.2 张量并行:层内模型并行
  • 3.1.3 流水线并行的原理与实现
  • 3.2 高级并行策略基础原理
  • 3.2.1 序列并行:超长序列模型训练
  • 3.2.2 混合并行:扩展模型到千亿参数
  • 3.2.3 自动并行:自动化的分布式并行训练
  • 3.3 实战分布式训练
  • 3.3.1 应用模型并行策略的实际案例
  • 3.3.2 结合多种并行策略的训练实践
  • 第4章 AI大模型时代的奠基石 Transformer模型
  • 4.1 自然语言处理基础
  • 4.1.1 自然语言任务介绍
  • 4.1.2 语言输入的预处理
  • 4.1.3 序列到序列模型
  • 4.2 Transformer详解
  • 4.2.1 Transformer模型结构
  • 4.2.2 注意力与自注意力机制
  • 4.2.3 Transformer中的归一化
  • 4.3 Transformer的变体与扩展
  • 4.3.1 变体模型汇总
  • 4.3.2 Transformer序列位置信息的编码处理
  • 4.3.3 Transformer训练
  • 第5章 AI大幅度提升Google搜索质量:BERT模型
  • 5.1 BERT模型详解
  • 5.1.1 BERT模型总体架构与输入形式
  • 5.1.2 BERT模型预训练任务
  • 5.1.3 BERT模型的应用方法
  • 5.2 高效降低内存使用的ALBERT模型
  • 5.2.1 基于参数共享的参数缩减方法
  • 5.2.2 句子顺序预测(SOP)预训练任务
  • 5.3 BERT模型实战训练
  • 5.3.1 构建BERT模型
  • 5.3.2 并行训练BERT模型
  • 第6章 统一自然语言处理范式的T5模型
  • 6.1 T5模型详解
  • 6.1.1 T5模型架构和输入输出——文本到文本
  • 6.1.2 T5模型预训练
  • 6.1.3 T5模型应用前景及未来发展
  • 6.2 统一BERT和GPT的BART模型
  • 6.2.1 从BERT、GPT到BART
  • 6.2.2 BART模型预训练
  • 6.2.3 BART模型的应用
  • 6.3 统一语言学习范式的UL2框架
  • 6.3.1 关于语言模型预训练的统一视角
  • 6.3.2 结合不同预训练范式的混合去噪器
  • 6.3.3 UL2的模型性能
  • 6.4 T5模型预训练方法和关键技术
  • 第7章 作为通用人工智能起点的GPT系列模型
  • 7.1 GPT系列模型的起源
  • 7.1.1 GPT的训练方法和关键技术
  • 7.1.2 GPT的模型性能评估分析
  • 7.2 GPT-2模型详解
  • 7.2.1 GPT-2的核心思想
  • 7.2.2 GPT-2的模型性能
  • 7.3 GPT-3模型详解
  • 7.3.1 小样本学习、一次学习与零次学习的异同
  • 7.3.2 GPT-3的训练方法和关键技术
  • 7.3.3 GPT-3的模型性能与效果评估
  • 7.4 GPT-3模型构建与训练实战
  • 7.4.1 构建GPT-3模型
  • 7.4.2 使用异构训练降低GPT-3训练消耗资源
  • 第8章 兴起新一代人工智能浪潮:ChatGPT模型
  • 8.1 能与互联网交互的WebGPT
  • 8.1.1 WebGPT的训练方法和关键技术
  • 8.1.2 WebGPT的模型性能评估分析
  • 8.2 能与人类交互的InstructGPT模型
  • 8.2.1 指令学习
  • 8.2.2 近端策略优化
  • 8.2.3 基于人类反馈的强化学习(RLHF)方法汇总
  • 8.3 ChatGPT和GPT-4
  • 8.3.1 ChatGPT模型简介和应用
  • 8.3.2 GPT-4模型特点与应用
  • 8.4 构建会话系统模型
  • 8.4.1 基于监督的指令精调与模型训练
  • 8.4.2 会话系统的推理与部署策略
  • 第9章 百花齐放的自然语言模型:Switch Transfomer和PaLM
  • 9.1 万亿参数稀疏大模型Switch Transformer
  • 9.1.1 稀疏门控混合专家模型MoE
  • 9.1.2 基于MoE的万亿参数模型Switch Transformer
  • 9.2 PaLM模型:优化语言模型性能
  • 9.2.1 PaLM模型的结构、原理和关键特点
  • 9.2.2 PaLM训练策略与效果评估
  • 9.3 PaLM实战训练
  • 第10章 实现Transformer向计算机视觉进军的ViT模型
  • 10.1 Transformer在计算机视觉中的应用
  • 10.1.1 ViT模型在计算机视觉中的发展背景
  • 10.1.2 ViT模型的架构、原理和关键要素
  • 10.1.3 大规模ViT模型的应用场景和挑战
  • 10.2 视觉大模型的进一步发展:Transformer与卷积的融合
  • 10.2.1 基于Transformer的视觉模型的改进应用
  • 10.2.2 基于卷积的视觉模型的发展优化
  • 10.3 ViT模型构建与训练实战
  • 10.3.1 构建ViT模型的关键步骤与关键方法
  • 10.3.2 多维张量并行的ViT的实战演练
  • 参考文献
展开全部

评分及书评

评分不足
2个评分

出版方

机械工业出版社

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。