自我提升
类型
可以朗读
语音朗读
159千字
字数
2025-07-01
发行日期
展开全部
主编推荐语
本书深入探讨深度学习模型训练和推理加速的前沿技术。
内容简介
本书从大模型训练的挑战和分布式训练,到CUDA加速推理技术,再到端侧推理的优化部署,系统地介绍如何利用CUDA平台加速大模型的训练与推理过程,并结合具体案例深入讲解数据并行、模型并行、任务调度、负载均衡等技术。
本书共10章,首先介绍大模型训练面临的计算复杂性、内存带宽和数据传输瓶颈等问题,并讲解基于NCCL(NVIDIA Collective Communications Library)的优化方法;然后,通过深入浅出的讲解,展示如何使用TensorRT进行推理加速,并探讨多模型并行推理架构、混合精度训练与推理等优化策略;最后,详细阐述端侧推理加速,特别是在移动设备和边缘设备中的应用,强调模型量化、裁剪等技术在推理加速中的重要作用。
目录
- 版权信息
- 内容简介
- 前言
- 第1章 CUDA基础与计算平台概述
- 1.1 CUDA架构与工作原理
- 1.2 CUDA开发环境搭建
- 1.3 CUDA核心API与内存管理
- 1.4 CUDA调度与线程管理
- 1.5 CUDA性能分析与优化基础
- 1.6 本章小结
- 第2章 CUDA在深度学习中的应用
- 2.1 深度学习框架概述
- 2.2 CUDA加速的神经网络前向传播与反向传播
- 2.3 卷积操作的CUDA优化
- 2.4 CUDA在大规模数据处理中的应用
- 2.5 使用CUDA优化神经网络模型训练
- 2.6 本章小结
- 第3章 CUDA与高性能计算
- 3.1 高性能计算基础
- 3.2 大规模线性代数运算加速
- 3.3 CUDA并行算法设计
- 3.4 使用CUDA加速科学仿真与建模
- 3.5 高性能计算中GPU与CPU协同计算
- 3.6 本章小结
- 第4章 模型压缩与加速
- 4.1 模型压缩概述
- 4.2 CUDA在模型量化中的应用
- 4.3 CUDA在模型蒸馏中的应用
- 4.4 CUDA在模型剪枝中的优化
- 4.5 本章小结
- 第5章 深度学习推理加速
- 5.1 推理与训练的区别
- 5.2 CUDA推理优化技术
- 5.3 多模型并行推理
- 5.4 端侧推理加速
- 5.5 本章小结
- 第6章 NCCL加速分布式训练
- 6.1 大模型训练的挑战
- 6.2 分布式训练的基本概念
- 6.3 本章小结
- 第7章 自定义算子
- 7.1 自定义算子的定义与应用
- 7.2 TensorFlow与PyTorch中的自定义算子
- 7.3 本章小结
- 第8章 GPU内存优化
- 8.1 GPU内存管理与优化概述
- 8.2 共享内存与常量内存优化
- 8.3 内存层级与跨设备内存管理
- 8.4 本章小结
- 第9章 TensorRT推理加速
- 9.1 使用TensorRT进行推理加速
- 9.2 深度学习推理中的模型量化与剪枝
- 9.3 本章小结
- 第10章 CUDA加速大模型训练与推理过程的实战案例:气象模拟
- 10.1 气象模拟中的大模型挑战与加速方案
- 10.2 CUDA加速大模型训练:基础设施与优化
- 10.3 气象模拟模型架构
- 10.4 推理加速:气象模拟的实时响应
- 10.5 本章小结
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。
