互联网
类型
可以朗读
语音朗读
268千字
字数
2025-10-01
发行日期
展开全部
主编推荐语
本书详细阐释深度学习的数学基础与架构设计。
内容简介
本书通过精心设计的章节,逐步带领读者从基础的数学工具深入复杂的深度学习架构,涵盖从向量和矩阵到神经网络的训练、优化和正则化,再到生成模型、自编码器等前沿主题,并提供详尽的数学分析和代码示例。
作者团队结合Adobe、Google等企业的前沿实践,通过PyTorch代码逐层拆解卷积神经网络、变分自编码器等核心架构,揭示“为何这样设计”的底层逻辑。书中独创的“数学-代码对照学习法”与可视化工具,将帮助读者突破“知其然不知其所以然”的困境,适合希望从调参工程师进阶为架构设计师的深度学习从业者、研究者及高阶学习者。
目录
- 版权信息
- 译者序
- 序
- 前言
- 致谢
- 第1章 机器学习和深度学习概述
- 1.1 初探机器学习和深度学习:计算范式的转变
- 1.2 机器学习的函数逼近视角:模型及其训练
- 1.3 一个简单的机器学习模型:猫脑模型
- 1.3.1 输入特征
- 1.3.2 输出决策
- 1.3.3 模型估计
- 1.3.4 模型架构选择
- 1.3.5 模型训练
- 1.3.6 推理
- 1.4 机器学习的几何视角
- 1.5 机器学习中的回归与分类
- 1.6 线性模型与非线性模型
- 1.7 通过多个非线性层提高表达能力:深度神经网络
- 1.8 本章总结
- 第2章 机器学习中的向量、矩阵和张量
- 2.1 向量及其在机器学习中的作用
- 2.2 用于向量操作的PyTorch代码
- 2.3 矩阵及其在机器学习中的作用
- 2.4 Python代码:如何用PyTorch表示矩阵、张量和图像
- 2.5 机器学习中向量和矩阵的基本运算
- 2.5.1 矩阵和向量的转置
- 2.5.2 两个向量的点积及其在机器学习中的作用
- 2.5.3 矩阵乘法与机器学习
- 2.5.4 向量的长度(L2范数):模型误差
- 2.5.5 向量长度的直观几何解释
- 2.5.6 点积的直观几何解释:特征相似性
- 2.6 向量的正交性及其物理意义
- 2.7 Python代码:通过PyTorch进行基本的向量和矩阵操作
- 2.7.1 用于矩阵转置的PyTorch代码
- 2.7.2 用于点积运算的PyTorch代码
- 2.7.3 用于矩阵-向量乘法的PyTorch代码
- 2.7.4 用于矩阵-矩阵乘法的PyTorch代码
- 2.7.5 用于矩阵乘积转置的PyTorch代码
- 2.8 多维直线方程和平面方程以及机器学习
- 2.8.1 多维直线方程
- 2.8.2 多维平面方程及其在机器学习中的作用
- 2.9 线性组合、向量生成、基向量和共线性保持
- 2.9.1 线性相关
- 2.9.2 向量组的生成空间
- 2.9.3 向量空间、基向量与封闭性
- 2.10 线性变换:几何和代数解释
- 2.10.1 线性变换的通用多维定义
- 2.10.2 所有矩阵-向量乘法都是线性变换
- 2.11 多维数组、多线性变换和张量
- 2.12 线性系统和矩阵求逆
- 2.12.1 行列式为零或接近零的线性系统,以及病态系统
- 2.12.2 用于逆矩阵、行列式以及奇异性测试的PyTorch代码
- 2.12.3 机器学习中的超定和欠定线性系统
- 2.12.4 矩阵的Moore-Penrose伪逆
- 2.12.5 矩阵的伪逆:一个美丽的几何直观表示
- 2.12.6 使用PyTorch代码求解超定系统
- 2.13 特征值与特征向量:机器学习的最强武器
- 2.13.1 特征向量与线性无关
- 2.13.2 对称矩阵与正交特征向量
- 2.13.3 用于计算特征向量和特征值的PyTorch代码
- 2.14 正交(旋转)矩阵及其特征值和特征向量
- 2.14.1 旋转矩阵
- 2.14.2 旋转矩阵的正交性
- 2.14.3 用于验证旋转矩阵正交性的PyTorch代码
- 2.14.4 旋转矩阵的特征值和特征向量:找到旋转轴
- 2.14.5 用于计算旋转矩阵特征值和特征向量的PyTorch代码
- 2.15 矩阵对角化
- 2.15.1 矩阵对角化的PyTorch代码
- 2.15.2 不使用逆运算,通过对角化求解线性系统
- 2.15.3 通过对角化求解线性方程组的PyTorch代码
- 2.15.4 使用对角化计算矩阵的幂
- 2.16 对称矩阵的谱分解
- 2.17 一个与机器学习相关的应用:寻找超椭圆的轴
- 2.18 本章总结
- 第3章 分类器和向量积分
- 3.1 图像分类的几何视角
- 3.1.1 输入表示
- 3.1.2 分类器作为决策边界
- 3.1.3 建模简介
- 3.1.4 二元分类中曲面函数的符号
- 3.2 误差或损失函数
- 3.3 最小化损失函数:梯度向量
- 3.3.1 梯度:以机器学习为中心的介绍
- 3.3.2 等高面表示和损失最小化
- 3.4 损失函数的局部近似
- 3.4.1 一维泰勒级数回顾
- 3.4.2 多维泰勒级数和黑塞矩阵
- 3.5 梯度下降、误差最小化和模型训练的PyTorch代码实现
- 3.5.1 线性模型的PyTorch代码实现
- 3.5.2 Autograd:PyTorch自动梯度计算
- 3.5.3 使用PyTorch实现非线性模型
- 3.5.4 使用PyTorch构建猫脑线性模型
- 3.6 凸函数与非凸函数以及全局最小值与局部最小值
- 3.7 凸集和凸函数
- 3.7.1 凸集
- 3.7.2 凸曲线与凸曲面
- 3.7.3 凸性与泰勒级数
- 3.7.4 凸函数的例子
- 3.8 本章总结
- 第4章 机器学习中的线性代数工具
- 4.1 特征数据点的分布和真实维度
- 4.2 二次型及其最小化
- 4.2.1 最小化二次型
- 4.2.2 对称正(半正)定矩阵
- 4.3 矩阵的谱范数和弗罗贝尼乌斯范数
- 4.3.1 谱范数
- 4.3.2 弗罗贝尼乌斯范数
- 4.4 主成分分析
- 4.4.1 最大方差方向
- 4.4.2 PCA与降维
- 4.4.3 PyTorch代码:PCA和降维
- 4.4.4 PCA的局限性
- 4.4.5 PCA与数据压缩
- 4.5 奇异值分解
- 4.5.1 SVD定理的非形式化证明
- 4.5.2 SVD定理的证明
- 4.5.3 应用SVD:PCA计算
- 4.5.4 应用SVD:求解任意线性方程组
- 4.5.5 矩阵的秩
- 4.5.6 使用SVD求解线性方程组的PyTorch代码
- 4.5.7 通过SVD计算PCA的PyTorch代码
- 4.5.8 应用SVD:矩阵的最佳低秩近似
- 4.6 机器学习应用:文档检索
- 4.6.1 使用TF-IDF和余弦相似度
- 4.6.2 潜在语义分析
- 4.6.3 执行LSA的PyTorch代码
- 4.6.4 在大型数据集上计算LSA和SVD的PyTorch代码
- 4.7 本章总结
- 第5章 机器学习中的概率分布
- 5.1 概率:经典频率论观点
- 5.1.1 随机变量
- 5.1.2 人口直方图
- 5.2 概率分布
- 5.3 概率论的基本概念
- 5.3.1 不可能事件和必然事件的概率
- 5.3.2 互斥且完备事件
- 5.3.3 独立事件
- 5.4 联合概率及其分布
- 5.4.1 边际概率
- 5.4.2 相关事件及其联合概率分布
- 5.5 几何视角:独立变量和非独立变量的样本点分布
- 5.6 连续随机变量和概率密度
- 5.7 分布的性质:期望值、方差和协方差
- 5.7.1 期望值
- 5.7.2 方差、协方差与标准差
- 5.8 从分布中抽样
- 5.9 一些著名的概率分布
- 5.9.1 随机均匀分布
- 5.9.2 高斯(正态)分布
- 5.9.3 二项分布
- 5.9.4 多项分布
- 5.9.5 伯努利分布
- 5.9.6 分类分布和独热向量
- 5.10 本章总结
- 第6章 机器学习中的贝叶斯工具
- 6.1 条件概率与贝叶斯定理
- 6.1.1 联合概率与边际概率回顾
- 6.1.2 条件概率
- 6.1.3 贝叶斯定理
- 6.2 熵
- 6.2.1 熵的几何直觉
- 6.2.2 高斯分布的熵
- 6.3 交叉熵
- 6.4 KL散度
- 6.5 条件熵
- 6.6 模型参数估计
- 6.6.1 似然、证据以及后验概率和先验概率
- 6.6.2 最大似然估计
- 6.6.3 最大后验概率估计和正则化
- 6.7 潜在变量与证据最大化
- 6.8 高斯分布的最大似然估计
- 6.8.1 用于最大似然估计的PyTorch代码
- 6.8.2 使用梯度下降进行最大似然估计的PyTorch代码
- 6.9 高斯混合模型
- 6.9.1 高斯混合模型的概率密度函数
- 6.9.2 用于类别选择的潜在变量
- 6.9.3 通过GMM进行分类
- 6.9.4 GMM参数的最大似然估计(GMM拟合)
- 6.10 本章总结
- 第7章 函数逼近:神经网络如何建模世界
- 7.1 神经网络概览
- 7.2 现实问题的表达:目标函数
- 7.2.1 现实问题中的逻辑函数
- 7.2.2 现实问题中的分类器函数
- 7.2.3 现实问题中的一般函数
- 7.3 基本构建块或神经元:感知机
- 7.3.1 Heaviside阶跃函数
- 7.3.2 超平面
- 7.3.3 感知机与分类
- 7.3.4 使用感知机建模常见的逻辑门
- 7.4 实现更强的表达能力:多层感知机
- 7.5 层叠的感知机网络:多层感知机或神经网络
- 7.5.1 分层
- 7.5.2 使用MLP模拟逻辑函数
- 7.5.3 Cybenko通用逼近定理
- 7.5.4 用于构建多边形决策边界的多层感知机
- 7.6 本章总结
- 第8章 神经网络训练:前向传播和反向传播
- 8.1 可微分的阶跃函数
- 8.1.1 sigmoid函数
- 8.1.2 tanh函数
- 8.2 为什么要采用分层结构
- 8.3 线性层
- 8.3.1 线性层的矩阵-向量乘法表示
- 8.3.2 线性多层感知机的前向传播和输出
- 8.4 训练与反向传播
- 8.4.1 损失及其最小化:训练的目标
- 8.4.2 损失曲面与梯度下降
- 8.4.3 为什么梯度提供了最佳的下降方向
- 8.4.4 梯度下降与局部最小值
- 8.4.5 反向传播算法
- 8.4.6 整体训练过程
- 8.5 用PyTorch训练神经网络
- 8.6 本章总结
- 第9章 损失、优化和正则化
- 9.1 损失函数
- 9.1.1 损失的量化与几何视图
- 9.1.2 回归损失
- 9.1.3 交叉熵损失
- 9.1.4 图像和向量的二元交叉熵损失
- 9.1.5 softmax
- 9.1.6 softmax交叉熵损失
- 9.1.7 焦点损失
- 9.1.8 铰链损失
- 9.2 优化
- 9.2.1 优化的几何视角
- 9.2.2 随机梯度下降和小批量训练
- 9.2.3 使用PyTorch实现SGD
- 9.2.4 动量法
- 9.2.5 几何视角:损失等高图、梯度下降与动量法
- 9.2.6 Nesterov加速梯度
- 9.2.7 AdaGrad
- 9.2.8 RMSProp算法
- 9.2.9 Adam优化器
- 9.3 正则化
- 9.3.1 奥卡姆剃刀原理在优化中的应用
- 9.3.2 L2正则化
- 9.3.3 L1正则化
- 9.3.4 稀疏性:L1与L2正则化
- 9.3.5 贝叶斯定理与随机优化
- 9.3.6 Dropout
- 9.4 本章总结
- 第10章 神经网络中的卷积
- 10.1 一维卷积:图形和代数视角
- 10.1.1 通过一维卷积平滑曲线
- 10.1.2 通过一维卷积进行曲线边缘检测
- 10.1.3 一维卷积作为矩阵乘法
- 10.1.4 PyTorch:具有自定义权重的一维卷积
- 10.2 卷积输出大小
- 10.3 二维卷积:图形和代数视角
- 10.3.1 通过二维卷积平滑图像
- 10.3.2 通过二维卷积进行图像边缘检测
- 10.3.3 PyTorch:使用自定义权重的二维卷积
- 10.3.4 二维卷积作为矩阵乘法
- 10.4 三维卷积
- 10.4.1 通过三维卷积进行视频运动检测
- 10.4.2 PyTorch:带自定义权重的三维卷积
- 10.5 转置卷积或分数步长卷积
- 10.5.1 转置卷积的应用:自编码器和嵌入
- 10.5.2 转置卷积的输出大小
- 10.5.3 通过转置卷积进行上抽样
- 10.6 向神经网络添加卷积层
- 10.7 池化
- 10.8 本章总结
- 第11章 用于图像分类和目标检测的神经网络
- 11.1 用于图像分类的CNN:LeNet
- 11.2 迈向更深的神经网络
- 11.2.1 VGG网络
- 11.2.2 Inception:网络中的网络范式
- 11.2.3 ResNet:为什么无法扩展叠加层的深度
- 11.2.4 PyTorch Lightning框架
- 11.3 目标检测:一个简短的历史
- 11.3.1 R-CNN
- 11.3.2 Fast R-CNN
- 11.3.3 Faster R-CNN
- 11.4 Faster R-CNN:深入探讨
- 11.4.1 卷积主干
- 11.4.2 候选区域网络
- 11.4.3 Fast R-CNN
- 11.4.4 训练Faster R-CNN
- 11.4.5 其他的目标检测方法
- 11.5 本章总结
- 第12章 流形、同胚和神经网络
- 12.1 流形
- 12.1.1 豪斯多夫性质
- 12.1.2 第二可数性质
- 12.2 同胚
- 12.3 神经网络和流形之间的同胚
- 12.4 本章总结
- 第13章 全贝叶斯模型参数估计
- 13.1 全贝叶斯估计:非形式化介绍
- 13.2 高斯参数值的最大似然估计回顾
- 13.3 全贝叶斯参数估计:精度已知但均值未知的高斯分布
- 13.4 少量和大量的训练数据,以及强先验和弱先验
- 13.5 共轭先验
- 13.6 全贝叶斯参数估计:均值已知但精度未知的高斯分布
- 13.7 全贝叶斯参数估计:均值和精度都未知的高斯分布
- 13.7.1 正态-伽马分布
- 13.7.2 估计均值和精度
- 13.8 示例:全贝叶斯推断
- 13.8.1 最大似然估计
- 13.8.2 贝叶斯推断
- 13.9 全贝叶斯参数估计:精度已知但均值未知的多元高斯分布
- 13.10 全贝叶斯参数估计:均值已知但精度未知的多变量情况
- 13.10.1 Wishart分布
- 13.10.2 估计精度
- 13.11 本章总结
- 第14章 潜在空间与生成建模、自编码器和变分自编码器
- 14.1 潜在空间的几何视角
- 14.2 生成式分类器
- 14.3 潜在空间建模的好处和应用
- 14.4 线性潜在空间流形与PCA
- 14.5 自编码器
- 14.6 潜在空间的平滑性、连续性和正则化
- 14.7 变分自编码器
- 14.7.1 VAE的几何概述
- 14.7.2 VAE训练、损失和推理
- 14.7.3 VAE与贝叶斯定理
- 14.7.4 随机映射会实现潜在空间的平滑性
- 14.7.5 直接最小化后验概率需要防止计算成本高昂的归一化处理
- 14.7.6 ELBO与VAE
- 14.7.7 先验的选择:均值为零、协方差矩阵为单位矩阵的高斯分布
- 14.7.8 重参数化技巧
- 14.8 本章总结
- 附录
- A.1 点积和两个向量之间夹角的余弦
- A.2 行列式
- A.3 计算高斯分布的方差
- A.4 两个统计学定理
- A.4.1 詹森不等式
- A.4.2 对数和不等式
- A.5 伽马函数及其分布
- A.5.1 伽马函数
- A.5.2 伽马分布
- 符号说明
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。
