展开全部

主编推荐语

本书全面且深入地呈现了深度学习领域的知识体系。

内容简介

全书共20章。本书首先介绍深度学习的发展历程、基本概念及其在诸多领域(如医疗诊断、图像合成等)产生的深远影响;继而深入探讨支撑深度学习的数学原理,包括概率、标准分布等;在网络模型方面,从单层网络逐步深入到多层网络、深度神经网络,详细讲解其结构、功能、优化方法及其在分类、回归等任务中的应用,同时涵盖卷积网络、Transformer等前沿架构及其在计算机视觉、自然语言处理等领域的独特作用。

本书还对正则化、采样、潜变量、生成对抗网络、自编码器、扩散模型等关键技术展开深入分析,阐释其原理、算法流程及实际应用场景。对于机器学习领域的新手,本书是全面且系统的入门教材,可引领其踏入深度学习的知识殿堂;对于机器学习领域从业者,本书是深化专业知识、紧跟技术前沿的有力工具;对于相关专业学生,本书是学习深度学习课程、开展学术研究的优质参考资料。

目录

  • 版权信息
  • 内容提要
  • 译者简介
  • 主要审校者简介
  • 推荐语
  • 译者序
  • 前言
  • 资源与支持
  • 第1章 深度学习革命
  • 1.1 深度学习的影响
  • 1.1.1 医疗诊断
  • 1.1.2 蛋白质结构预测
  • 1.1.3 图像合成
  • 1.1.4 大语言模型
  • 1.2 一个教学示例
  • 1.2.1 合成数据
  • 1.2.2 线性模型
  • 1.2.3 误差函数
  • 1.2.4 模型复杂度
  • 1.2.5 正则化
  • 1.2.6 模型选择
  • 1.3 机器学习简史
  • 1.3.1 单层网络
  • 1.3.2 反向传播
  • 1.3.3 深度网络
  • 第2章 概率
  • 2.1 概率法则
  • 2.1.1 医学筛查示例
  • 2.1.2 加和法则和乘积法则
  • 2.1.3 贝叶斯定理
  • 2.1.4 再看医学筛查示例
  • 2.1.5 先验概率和后验概率
  • 2.1.6 独立变量
  • 2.2 概率密度
  • 2.2.1 分布的示例
  • 2.2.2 期望和协方差
  • 2.3 高斯分布
  • 2.3.1 均值和方差
  • 2.3.2 似然函数
  • 2.3.3 最大似然的偏差
  • 2.3.4 线性回归
  • 2.4 密度变换
  • 多元分布
  • 2.5 信息论
  • 2.5.1 熵
  • 2.5.2 物理学视角
  • 2.5.3 微分熵
  • 2.5.4 最大熵
  • 2.5.5 Kullback-Leibler散度
  • 2.5.6 条件熵
  • 2.5.7 互信息
  • 2.6 贝叶斯概率
  • 2.6.1 模型参数
  • 2.6.2 正则化
  • 2.6.3 贝叶斯机器学习
  • 习题
  • 第3章 标准分布
  • 3.1 离散变量
  • 3.1.1 伯努利分布
  • 3.1.2 二项分布
  • 3.1.3 多项分布
  • 3.2 多元高斯分布
  • 3.2.1 高斯几何
  • 3.2.2 矩
  • 3.2.3 局限性
  • 3.2.4 条件分布
  • 3.2.5 边缘分布
  • 3.2.6 贝叶斯定理
  • 3.2.7 最大似然
  • 3.2.8 序贯估计
  • 3.2.9 高斯混合
  • 3.3 周期变量
  • 冯·米塞斯分布
  • 3.4 指数族分布
  • 充分统计量
  • 3.5 非参数化方法
  • 3.5.1 直方图
  • 3.5.2 核密度
  • 3.5.3 最近邻
  • 习题
  • 第4章 单层网络:回归
  • 4.1 线性回归
  • 4.1.1 基函数
  • 4.1.2 似然函数
  • 4.1.3 最大似然
  • 4.1.4 最小二乘解的几何表示
  • 4.1.5 序贯学习
  • 4.1.6 正则化最小二乘法
  • 4.1.7 多重输出
  • 4.2 决策理论
  • 4.3 偏差-方差权衡
  • 习题
  • 第5章 单层网络:分类
  • 5.1 判别函数
  • 5.1.1 二分类
  • 5.1.2 多分类
  • 5.1.3 1-of-K编码方案
  • 5.1.4 最小二乘分类
  • 5.2 决策理论
  • 5.2.1 误分类率
  • 5.2.2 预期损失
  • 5.2.3 拒绝选项
  • 5.2.4 推理和决策
  • 5.2.5 分类器精度
  • 5.2.6 ROC曲线
  • 5.3 生成分类器
  • 5.3.1 连续输入
  • 5.3.2 最大似然解
  • 5.3.3 离散特征
  • 5.3.4 指数族分布
  • 5.4 判别分类器
  • 5.4.1 激活函数
  • 5.4.2 固定基函数
  • 5.4.3 逻辑斯谛回归
  • 5.4.4 多类逻辑斯谛回归
  • 5.4.5 probit回归
  • 5.4.6 规范连接函数
  • 习题
  • 第6章 深度神经网络
  • 6.1 固定基函数的局限性
  • 6.1.1 维度诅咒
  • 6.1.2 高维空间
  • 6.1.3 数据流形
  • 6.1.4 数据依赖的基函数
  • 6.2 多层网络
  • 6.2.1 >参数矩阵
  • 6.2.2 通用近似
  • 6.2.3 隐藏单元激活函数
  • 6.2.4 权重空间的对称性
  • 6.3 深度网络
  • 6.3.1 层次化表示
  • 6.3.2 分布式表示
  • 6.3.3 表示学习
  • 6.3.4 迁移学习
  • 6.3.5 对比学习
  • 6.3.6 通用网络结构
  • 6.3.7 张量
  • 6.4 误差函数
  • 6.4.1 回归
  • 6.4.2 二分类
  • 6.4.3 多分类
  • 6.5 混合密度网络
  • 6.5.1 机器人运动学示例
  • 6.5.2 条件混合分布
  • 6.5.3 梯度优化
  • 6.5.4 预测分布
  • 习题
  • 第7章 梯度下降
  • 7.1 错误平面
  • 局部二次近似
  • 7.2 梯度下降优化
  • 7.2.1 梯度信息的使用
  • 7.2.2 批量梯度下降
  • 7.2.3 随机梯度下降
  • 7.2.4 小批量方法
  • 7.2.5 参数初始化
  • 7.3 收敛
  • 7.3.1 动量
  • 7.3.2 学习率调度
  • 7.3.3 AdaGrad、RMSProp与Adam算法
  • 7.4 归一化
  • 7.4.1 数据归一化
  • 7.4.2 批量归一化
  • 7.4.3 层归一化
  • 习题
  • 第8章 反向传播
  • 8.1 梯度计算
  • 8.1.1 单层网络
  • 8.1.2 一般前馈网络
  • 8.1.3 简单示例
  • 8.1.4 数值微分法
  • 8.1.5 雅可比矩阵
  • 8.1.6 黑塞矩阵
  • 8.2 自动微分法
  • 8.2.1 前向模式自动微分
  • 8.2.2 逆模式自动微分
  • 习题
  • 第9章 正则化
  • 9.1 归纳偏置
  • 9.1.1 逆问题
  • 9.1.2 无免费午餐定理
  • 9.1.3 对称性和不变性
  • 9.1.4 等变性
  • 9.2 权重衰减
  • 9.2.1 一致性正则化项
  • 9.2.2 广义权重衰减
  • 9.3 学习曲线
  • 9.3.1 早停法
  • 9.3.2 双重下降
  • 9.4 参数共享
  • 软权重共享
  • 9.5 残差连接
  • 9.6 模型平均
  • dropout
  • 习题
  • 第10章 卷积网络
  • 10.1 计算机视觉
  • 图像数据
  • 10.2 卷积滤波器
  • 10.2.1 特征检测器
  • 10.2.2 平移等变性
  • 10.2.3 填充
  • 10.2.4 跨步卷积
  • 10.2.5 多维卷积
  • 10.2.6 池化
  • 10.2.7 多层卷积
  • 10.2.8 网络架构示例
  • 10.3 可视化训练好的CNN
  • 10.3.1 视觉皮层
  • 10.3.2 可视化训练好的滤波器
  • 10.3.3 显著性图
  • 10.3.4 对抗攻击
  • 10.3.5 合成图像
  • 10.4 目标检测
  • 10.4.1 边界框
  • 10.4.2 交并比
  • 10.4.3 滑动窗口
  • 10.4.4 跨尺度检测
  • 10.4.5 非最大抑制
  • 10.4.6 快速区域卷积神经网络
  • 10.5 图像分割
  • 10.5.1 卷积分割
  • 10.5.2 上采样
  • 10.5.3 全卷积网络
  • 10.5.4 U-Net架构
  • 10.6 风格迁移
  • 习题
  • 第11章 结构化分布
  • 11.1 概率图模型
  • 11.1.1 有向图
  • 11.1.2 分解
  • 11.1.3 离散变量
  • 11.1.4 高斯变量
  • 11.1.5 二元分类器
  • 11.1.6 参数和观测值
  • 11.1.7 贝叶斯定理
  • 11.2 条件独立性
  • 11.2.1 3个示例图
  • 11.2.2 相消解释
  • 11.2.3 d分离
  • 11.2.4 朴素贝叶斯
  • 11.2.5 生成式模型
  • 11.2.6 马尔可夫毯
  • 11.2.7 作为过滤器的图
  • 11.3 序列模型
  • 潜变量
  • 习题
  • 第12章 Transformer
  • 12.1 注意力
  • 12.1.1 Transformer处理
  • 12.1.2 注意力系数
  • 12.1.3 自注意力
  • 12.1.4 网络参数
  • 12.1.5 缩放自注意力
  • 12.1.6 多头注意力
  • 12.1.7 Transformer层
  • 12.1.8 计算复杂性
  • 12.1.9 位置编码
  • 12.2 自然语言
  • 12.2.1 词嵌入
  • 12.2.2 分词
  • 12.2.3 词袋模型
  • 12.2.4 自回归模型
  • 12.2.5 递归神经网络
  • 12.2.6 通过时间反向传播
  • 12.3 Transformer语言模型
  • 12.3.1 解码器型Transformer
  • 12.3.2 采样策略
  • 12.3.3 编码器型Transformer
  • 12.3.4 序列到序列Transformer
  • 12.3.5 大语言模型
  • 12.4 多模态Transformer
  • 12.4.1 视觉Transformer
  • 12.4.2 图像生成Transformer
  • 12.4.3 音频数据
  • 12.4.4 文本语音转换
  • 12.4.5 视觉和语言Transformer
  • 习题
  • 第13章 图神经网络
  • 13.1 基于图的机器学习
  • 13.1.1 图的属性
  • 13.1.2 邻接矩阵
  • 13.1.3 置换等变性
  • 13.2 神经信息传递
  • 13.2.1 卷积滤波器
  • 13.2.2 图卷积网络
  • 13.2.3 聚合算子
  • 13.2.4 更新算子
  • 13.2.5 节点分类
  • 13.2.6 边分类
  • 13.2.7 图分类
  • 13.3 通用图网络
  • 13.3.1 图注意力网络
  • 13.3.2 边嵌入
  • 13.3.3 图嵌入
  • 13.3.4 过度平滑
  • 13.3.5 正则化
  • 13.3.6 几何深度学习
  • 习题
  • 第14章 采样
  • 14.1 基本采样
  • 14.1.1 期望
  • 14.1.2 标准分布
  • 14.1.3 拒绝采样
  • 14.1.4 适应性拒绝采样
  • 14.1.5 重要性采样
  • 14.1.6 采样-重要性-重采样
  • 14.2 马尔可夫链蒙特卡洛采样
  • 14.2.1 Metropolis算法
  • 14.2.2 马尔可夫链
  • 14.2.3 Metropolis-Hastings算法
  • 14.2.4 吉布斯采样
  • 14.2.5 祖先采样
  • 14.3 郎之万采样
  • 14.3.1 基于能量的模型
  • 14.3.2 最大化似然
  • 14.3.3 朗之万动力学
  • 习题
  • 第15章 离散潜变量
  • 15.1 K均值聚类
  • 图像分割
  • 15.2 高斯混合分布
  • 15.2.1 似然函数
  • 15.2.2 最大似然
  • 15.3 EM算法
  • 15.3.1 高斯混合模型
  • 15.3.2 EM算法与K均值算法的关系
  • 15.3.3 混合伯努利分布
  • 15.4 证据下界
  • 15.4.1 EM算法回顾
  • 15.4.2 独立同分布数据
  • 15.4.3 参数先验
  • 15.4.4 广义EM算法
  • 15.4.5 顺序EM算法
  • 习题
  • 第16章 连续潜变量
  • 16.1 主成分分析
  • 16.1.1 最大方差表述
  • 16.1.2 最小误差表述
  • 16.1.3 数据压缩
  • 16.1.4 数据白化
  • 16.1.5 高维数据
  • 16.2 概率潜变量
  • 16.2.1 生成式模型
  • 16.2.2 似然函数
  • 16.2.3 最大似然法
  • 16.2.4 因子分析
  • 16.2.5 独立成分分析
  • 16.2.6 卡尔曼滤波器
  • 16.3 证据下界
  • 16.3.1 EM算法
  • 16.3.2 PCA的EM算法
  • 16.3.3 因子分析的EM算法
  • 16.4 非线性潜变量模型
  • 16.4.1 非线性流形
  • 16.4.2 似然函数
  • 16.4.3 离散数据
  • 16.4.4 构建生成式模型的4种方法
  • 习题
  • 第17章 生成对抗网络
  • 17.1 对抗训练
  • 17.1.1 损失函数
  • 17.1.2 实战中的GAN训练
  • 17.2 图像的生成对抗网络
  • CycleGAN
  • 习题
  • 第18章 标准化流
  • 18.1 耦合流
  • 18.2 自回归流
  • 18.3 连续流
  • 18.3.1 神经ODE
  • 18.3.2 神经ODE的反向传播
  • 18.3.3 神经ODE流
  • 习题
  • 第19章 自编码器
  • 19.1 确定性的自编码器
  • 19.1.1 线性自编码器
  • 19.1.2 深度自编码器
  • 19.1.3 稀疏自编码器
  • 19.1.4 去噪自编码器
  • 19.1.5 掩蔽自编码器
  • 19.2 变分自编码器
  • 19.2.1 摊销推理
  • 19.2.2 重参数化技巧
  • 习题
  • 第20章 扩散模型
  • 20.1 前向编码器
  • 20.1.1 扩散核
  • 20.1.2 条件分布
  • 20.2 反向解码器
  • 20.2.1 训练解码器
  • 20.2.2 证据下界
  • 20.2.3 重写ELBO
  • 20.2.4 预测噪声
  • 20.2.5 生成新的样本
  • 20.3 得分匹配
  • 20.3.1 得分损失函数
  • 20.3.2 修改得分损失
  • 20.3.3 噪声方差
  • 20.3.4 随机微分方程
  • 20.4 有引导的扩散
  • 20.4.1 有分类器的引导
  • 20.4.2 无分类器的引导
  • 习题
  • 附录
  • 附录A 线性代数
  • A.1 矩阵恒等式
  • A.2 迹和行列式
  • A.3 矩阵导数
  • A.4 特征向量
  • 附录B 变分法
  • 附录C 拉格朗日乘子
  • 参考资料
  • 索引
展开全部

评分及书评

评分不足
2个评分
  • 用户头像
    给这本书评了
    5.0
    机器学习领域全面且系统的入门教材

    刚一看到这书名,还以为是关于学习方面的书。结果翻了几页,发现是讲机器学习领域方面的书。本着既然翻了,至少要看一半 (打卡交差)。翻了几页后 (4% 开始),当数学公式出现时,就发现不妙了。果然是深度学习,跟我这个肤浅的打酱油者一点关系都没有 (我跟它一点都不熟)。这时心中反而坦然了,就按照我之前看到这类书籍的方法,公式部分直接翻页跳过去,只看文本叙述的部分。OK,结果后面满满的都是各种公式。是我孟浪了,亵渎了这本书😅。不过我虽然看不懂,但是感觉本书的内容还是相当扎实,从头到尾没多少多余的话,全部给我上公式。即使看不懂,也必须给五星。

      转发
      评论

    出版方

    人民邮电出版社

    人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。