展开全部

主编推荐语

统一概率视角,详解机器学习理论与方法。

内容简介

本书通过概率建模和贝叶斯决策理论的统一视角,详细且与时俱进地介绍了机器学习(包括深度学习)的理论和方法。书中涵盖了数学背景(包括线性代数和优化理论)、基础的监督学习方法(包括线性回归、逻辑回归和深度神经网络),以及更高级的主题(包括迁移学习和无监督学习)。章节末尾的练习让读者能够应用所学知识,附录部分则对书中使用的符号进行了说明。

目录

  • 版权信息
  • 对本书的赞誉(按姓氏拼音字母排序)
  • 译者序
  • 前言
  • 第1章 导论
  • 1.1 什么是机器学习
  • 1.2 监督学习
  • 1.2.1 分类
  • 1.2.2 回归
  • 1.2.3 过拟合和泛化
  • 1.2.4 “没有免费的午餐”定理
  • 1.3 无监督学习
  • 1.3.1 聚类
  • 1.3.2 发现潜在的“变异因子”
  • 1.3.3 自监督学习
  • 1.3.4 评估无监督学习
  • 1.4 强化学习
  • 1.5 数据
  • 1.5.1 常见的图像数据集
  • 1.5.2 常见的文本数据集
  • 1.5.3 离散输入数据的预处理
  • 1.5.4 预处理文本数据
  • 1.5.5 处理缺失数据
  • 1.6 进一步讨论
  • 1.6.1 机器学习与其他领域的关系
  • 1.6.2 本书的组织结构
  • 1.6.3 注意事项
  • 第一部分 理论基础
  • 第2章 概率:单变量模型
  • 2.1 概述
  • 2.1.1 什么是概率
  • 2.1.2 不确定性的类型
  • 2.1.3 概率的基本规则
  • 2.2 随机变量
  • 2.2.1 离散随机变量
  • 2.2.2 连续随机变量
  • 2.2.3 相关随机变量集
  • 2.2.4 独立性和条件独立性
  • 2.2.5 分布的矩
  • 2.2.6 汇总统计信息的局限性*
  • 2.3 贝叶斯规则
  • 2.3.1 示例:病毒检测
  • 2.3.2 示例:三门问题
  • 2.3.3 逆问题*
  • 2.4 伯努利分布和二项分布
  • 2.4.1 定义
  • 2.4.2 sigmoid函数
  • 2.4.3 二元逻辑回归
  • 2.5 分类分布和多项式分布
  • 2.5.1 定义
  • 2.5.2 softmax函数
  • 2.5.3 多类逻辑回归
  • 2.5.4 对数-求和-自然指数技巧
  • 2.6 单变量高斯分布
  • 2.6.1 累积分布函数
  • 2.6.2 概率密度函数
  • 2.6.3 回归
  • 2.6.4 为什么高斯分布被广泛使用
  • 2.6.5 作为限制情形的Dirac-δ函数
  • 2.7 其他常见的单变量分布*
  • 2.7.1 学生t分布
  • 2.7.2 柯西分布
  • 2.7.3 拉普拉斯分布
  • 2.7.4 贝塔分布
  • 2.7.5 伽马分布
  • 2.7.6 经验分布
  • 2.8 随机变量的变换*
  • 2.8.1 离散情况
  • 2.8.2 连续情况
  • 2.8.3 可逆变换(双射)
  • 2.8.4 线性变换的矩
  • 2.8.5 卷积定理
  • 2.8.6 中心极限定理
  • 2.8.7 蒙特卡罗近似
  • 2.9 练习题
  • 第3章 概率:多元模型
  • 3.1 多个随机变量的联合分布
  • 3.1.1 协方差
  • 3.1.2 相关性
  • 3.1.3 不相关并不意味着独立
  • 3.1.4 相关性并不意味着因果关系
  • 3.1.5 Simpson悖论
  • 3.2 多元高斯分布
  • 3.2.1 定义
  • 3.2.2 马哈拉诺比斯距离
  • 3.2.3 多元正态分布的边缘概率和条件概率*
  • 3.2.4 示例:条件二维高斯分布
  • 3.2.5 示例:处理缺失值*
  • 3.3 线性高斯系统*
  • 3.3.1 高斯贝叶斯规则
  • 3.3.2 推导*
  • 3.3.3 示例:推理未知标量
  • 3.3.4 示例:推理未知向量
  • 3.3.5 示例:传感器融合
  • 3.4 指数概率分布族*
  • 3.4.1 定义
  • 3.4.2 示例
  • 3.4.3 对数配分函数为累积量生成函数
  • 3.4.4 指数概率分布族的最大熵推导
  • 3.5 混合模型
  • 3.5.1 高斯混合模型
  • 3.5.2 伯努利混合模型
  • 3.6 概率图模型*
  • 3.6.1 表示
  • 3.6.2 推理
  • 3.6.3 学习
  • 3.7 练习题
  • 第4章 统计学
  • 4.1 概述
  • 4.2 最大似然估计
  • 4.2.1 定义
  • 4.2.2 最大似然估计的论证
  • 4.2.3 示例:伯努利分布的最大似然估计
  • 4.2.4 示例:分类分布的最大似然估计
  • 4.2.5 示例:单变量高斯分布的最大似然估计
  • 4.2.6 示例:多元高斯分布的最大似然估计
  • 4.2.7 示例:线性回归的最大似然估计
  • 4.3 经验风险最小化
  • 4.3.1 示例:最小化错误分类率
  • 4.3.2 代理损失
  • 4.4 其他估计方法*
  • 4.4.1 矩量法
  • 4.4.2 在线估计
  • 4.5 正则化
  • 4.5.1 示例:伯努利分布的最大后验估计
  • 4.5.2 示例:多元高斯分布的最大后验估计*
  • 4.5.3 示例:权重衰减
  • 4.5.4 使用验证集选择正则化因子
  • 4.5.5 交叉验证
  • 4.5.6 提前终止法
  • 4.5.7 使用更多数据
  • 4.6 贝叶斯统计学*
  • 4.6.1 共轭先验
  • 4.6.2 贝塔二项式模型
  • 4.6.3 狄利克雷-多项式模型
  • 4.6.4 高斯-高斯模型
  • 4.6.5 非共轭先验
  • 4.6.6 可信区间
  • 4.6.7 贝叶斯机器学习
  • 4.6.8 计算问题
  • 4.7 频率学派统计学*
  • 4.7.1 采样分布
  • 4.7.2 最大似然估计采样分布的高斯近似
  • 4.7.3 任何估计器采样分布的自举法近似
  • 4.7.4 置信区间
  • 4.7.5 请注意:置信区间不可信
  • 4.7.6 偏差-方差权衡
  • 4.8 练习题
  • 第5章 决策理论
  • 5.1 贝叶斯决策理论
  • 5.1.1 基本概念
  • 5.1.2 分类问题
  • 5.1.3 ROC曲线
  • 5.1.4 精确率-召回率曲线
  • 5.1.5 回归问题
  • 5.1.6 概率预测问题
  • 5.2 贝叶斯假设检验
  • 5.2.1 示例:测试硬币是否均匀
  • 5.2.2 贝叶斯模型选择
  • 5.2.3 奥卡姆剃刀原理
  • 5.2.4 交叉验证与边缘可能性之间的联系
  • 5.2.5 信息标准
  • 5.3 频率学派决策理论
  • 5.3.1 估计器的风险计算
  • 5.3.2 一致估计器
  • 5.3.3 可容许估计器
  • 5.4 经验风险最小化
  • 5.4.1 经验风险
  • 5.4.2 结构风险
  • 5.4.3 交叉验证
  • 5.4.4 统计学习理论*
  • 5.5 频率学派假设检验*
  • 5.5.1 似然比测试
  • 5.5.2 无效假设显著性检验
  • 5.5.3 p-值
  • 5.5.4 被认为有害的p-值
  • 5.5.5 为什么有人不坚持贝叶斯学派统计学理论
  • 5.6 练习题
  • 第6章 信息论
  • 6.1 熵
  • 6.1.1 离散随机变量的熵
  • 6.1.2 交叉熵
  • 6.1.3 联合熵
  • 6.1.4 条件熵
  • 6.1.5 困惑度
  • 6.1.6 连续随机变量的微分熵*
  • 6.2 相对熵*
  • 6.2.1 定义
  • 6.2.2 解释
  • 6.2.3 示例:两个高斯分布之间的KL散度
  • 6.2.4 KL散度的非负性
  • 6.2.5 KL散度和最大似然估计
  • 6.2.6 正向KL与反向KL
  • 6.3 互信息*
  • 6.3.1 定义
  • 6.3.2 解释
  • 6.3.3 示例
  • 6.3.4 条件互信息
  • 6.3.5 互信息作为“广义相关系数”
  • 6.3.6 归一化互信息
  • 6.3.7 最大信息系数
  • 6.3.8 数据处理不等式
  • 6.3.9 充分统计量
  • 6.3.10 法诺不等式*
  • 6.4 练习题
  • 第7章 线性代数
  • 7.1 概述
  • 7.1.1 符号说明
  • 7.1.2 向量空间
  • 7.1.3 向量和矩阵的范数
  • 7.1.4 矩阵的性质
  • 7.1.5 特殊类型的矩阵
  • 7.2 矩阵乘法
  • 7.2.1 向量-向量的乘积
  • 7.2.2 矩阵-向量的乘积
  • 7.2.3 矩阵-矩阵的乘积
  • 7.2.4 应用:数据矩阵的操作
  • 7.2.5 克罗内克乘积*
  • 7.2.6 爱因斯坦求和*
  • 7.3 矩阵求逆
  • 7.3.1 方阵的逆
  • 7.3.2 舒尔补*
  • 7.3.3 矩阵求逆引理*
  • 7.3.4 矩阵行列式引理*
  • 7.3.5 应用:推导多元正态分布的条件*
  • 7.4 特征值分解
  • 7.4.1 基础
  • 7.4.2 矩阵对角化
  • 7.4.3 对称矩阵的特征值和特征向量
  • 7.4.4 二次型的几何特性
  • 7.4.5 标准化和白化数据
  • 7.4.6 幂方法
  • 7.4.7 矩阵收缩
  • 7.4.8 特征向量优化二次型
  • 7.5 奇异值分解
  • 7.5.1 基础
  • 7.5.2 奇异值分解与特征值分解的联系
  • 7.5.3 伪逆
  • 7.5.4 奇异值分解与矩阵的值域空间和零空间*
  • 7.5.5 截断奇异值分解
  • 7.6 其他矩阵分解*
  • 7.6.1 LU分解
  • 7.6.2 正交三角分解
  • 7.6.3 Cholesky分解
  • 7.7 求解线性方程组*
  • 7.7.1 求解方阵线性方程组
  • 7.7.2 求解欠约束线性方程组
  • 7.7.3 求解过度约束线性方程组
  • 7.8 矩阵微积分
  • 7.8.1 导数
  • 7.8.2 梯度
  • 7.8.3 方向导数
  • 7.8.4 全导数*
  • 7.8.5 雅可比矩阵
  • 7.8.6 黑塞矩阵
  • 7.8.7 常用函数的梯度
  • 7.9 练习题
  • 第8章 优化理论
  • 8.1 概述
  • 8.1.1 局部优化与全局优化
  • 8.1.2 约束优化与无约束优化
  • 8.1.3 凸优化与非凸优化
  • 8.1.4 平滑优化与非平滑优化
  • 8.2 一阶方法
  • 8.2.1 下降方向
  • 8.2.2 步长
  • 8.2.3 收敛速度
  • 8.2.4 动量方法
  • 8.3 二阶方法
  • 8.3.1 牛顿法
  • 8.3.2 BFGS和其他拟牛顿方法
  • 8.3.3 信任区域方法
  • 8.4 随机梯度下降
  • 8.4.1 应用于有限和问题
  • 8.4.2 示例:用于拟合线性回归的随机梯度下降
  • 8.4.3 选择步长
  • 8.4.4 迭代平均
  • 8.4.5 方差缩减技术*
  • 8.4.6 预处理随机梯度下降
  • 8.5 约束优化
  • 8.5.1 拉格朗日乘子
  • 8.5.2 KKT条件
  • 8.5.3 线性规划
  • 8.5.4 二次型规划
  • 8.5.5 混合整数线性规划*
  • 8.6 近端梯度法*
  • 8.6.1 投影梯度下降
  • 8.6.2 ℓ1范数正则化因子的近端算子
  • 8.6.3 量化的近端算子
  • 8.6.4 增量近端方法
  • 8.7 边界优化*
  • 8.7.1 通用算法
  • 8.7.2 期望最大化算法
  • 8.7.3 示例:高斯混合模型的期望最大化
  • 8.8 黑盒和无梯度优化
  • 8.9 练习题
  • 第二部分 线性模型
  • 第9章 线性判别分析
  • 9.1 概述
  • 9.2 高斯判别分析
  • 9.2.1 二次型决策边界
  • 9.2.2 线性决策边界
  • 9.2.3 线性判别分析与逻辑回归之间的联系
  • 9.2.4 模型拟合
  • 9.2.5 最近邻质心分类器
  • 9.2.6 Fisher线性判别分析*
  • 9.3 朴素贝叶斯分类器
  • 9.3.1 示例模型
  • 9.3.2 模型拟合
  • 9.3.3 贝叶斯朴素贝叶斯
  • 9.3.4 朴素贝叶斯与逻辑回归之间的联系
  • 9.4 生成式分类器与判别式分类器的比较
  • 9.4.1 判别式分类器的优点
  • 9.4.2 生成式分类器的优点
  • 9.4.3 处理缺失特征
  • 9.5 练习题
  • 第10章 逻辑回归
  • 10.1 概述
  • 10.2 二元逻辑回归
  • 10.2.1 线性分类器
  • 10.2.2 非线性分类器
  • 10.2.3 最大似然估计
  • 10.2.4 随机梯度下降
  • 10.2.5 感知器算法
  • 10.2.6 迭代重加权最小二乘法
  • 10.2.7 最大后验估计
  • 10.2.8 标准化
  • 10.3 多项式逻辑回归
  • 10.3.1 线性分类器和非线性分类器
  • 10.3.2 最大似然估计
  • 10.3.3 基于梯度的优化
  • 10.3.4 边界优化
  • 10.3.5 最大后验估计
  • 10.3.6 最大熵分类器
  • 10.3.7 层次分类
  • 10.3.8 处理大量的类
  • 10.4 鲁棒逻辑回归*
  • 10.4.1 似然的混合模型
  • 10.4.2 双稳态损失
  • 10.5 贝叶斯逻辑回归*
  • 10.5.1 拉普拉斯近似
  • 10.5.2 近似后验预测
  • 10.6 练习题
  • 第11章 线性回归
  • 11.1 概述
  • 11.2 最小二乘线性回归
  • 11.2.1 术语
  • 11.2.2 最小二乘估计
  • 11.2.3 计算最大似然估计的其他方法
  • 11.2.4 测量拟合优度
  • 11.3 岭回归
  • 11.3.1 计算最大后验估计
  • 11.3.2 岭回归与主成分分析之间的联系
  • 11.3.3 选择正则化因子的强度
  • 11.4 套索回归
  • 11.4.1 拉普拉斯先验的最大后验估计
  • 11.4.2 为什么ℓ1正则化产生稀疏解
  • 11.4.3 硬阈值与软阈值
  • 11.4.4 正则化路径
  • 11.4.5 最小二乘法、套索回归、岭回归和子集选择的比较
  • 11.4.6 变量选择一致性
  • 11.4.7 群组套索回归
  • 11.4.8 弹性网络
  • 11.4.9 优化算法
  • 11.5 回归样条法*
  • 11.5.1 B-样条基函数
  • 11.5.2 使用样条基函数拟合线性模型
  • 11.5.3 平滑样条法
  • 11.5.4 广义加性模型
  • 11.6 鲁棒线性回归*
  • 11.6.1 拉普拉斯似然分布
  • 11.6.2 学生t似然分布
  • 11.6.3 Huber损失
  • 11.6.4 RANSAC
  • 11.7 贝叶斯线性回归*
  • 11.7.1 先验概率
  • 11.7.2 后验概率
  • 11.7.3 示例
  • 11.7.4 计算后验预测
  • 11.7.5 中心化的优势
  • 11.7.6 处理多重共线性
  • 11.7.7 自动相关性确定*
  • 11.8 练习题
  • 第12章 广义线性模型*
  • 12.1 概述
  • 12.2 示例
  • 12.2.1 线性回归
  • 12.2.2 二项回归
  • 12.2.3 泊松回归
  • 12.3 具有非规范链接函数的广义线性模型
  • 12.4 最大似然估计
  • 12.5 示例:预测保险理赔
  • 第三部分 深度神经网络
  • 第13章 结构化数据的神经网络
  • 13.1 概述
  • 13.2 多层感知器
  • 13.2.1 XOR问题
  • 13.2.2 可微的多层感知器
  • 13.2.3 激活函数
  • 13.2.4 示例模型
  • 13.2.5 深度的重要性
  • 13.2.6 “深度学习革命”
  • 13.2.7 与生物学的联系
  • 13.3 反向传播
  • 13.3.1 正向模式与反向模式的差异
  • 13.3.2 多层感知器的反向模式微分
  • 13.3.3 普通层的向量雅可比乘积
  • 13.3.4 计算图
  • 13.4 训练神经网络
  • 13.4.1 调整学习率
  • 13.4.2 梯度消失和梯度爆炸
  • 13.4.3 非饱和激活函数
  • 13.4.4 残差连接
  • 13.4.5 参数初始化
  • 13.4.6 并行训练
  • 13.5 正则化
  • 13.5.1 提前终止
  • 13.5.2 权重衰减
  • 13.5.3 稀疏深度神经网络
  • 13.5.4 丢弃法
  • 13.5.5 贝叶斯神经网络
  • 13.5.6 (随机)梯度下降的正则化效应*
  • 13.6 其他类型的前馈网络*
  • 13.6.1 径向基函数网络
  • 13.6.2 专家混合模型
  • 13.7 练习题
  • 第14章 用于图像处理的神经网络
  • 14.1 概述
  • 14.2 普通层
  • 14.2.1 卷积层
  • 14.2.2 池化层
  • 14.2.3 整合所有部分
  • 14.2.4 归一化层
  • 14.3 图像分类的通用架构
  • 14.3.1 LeNet
  • 14.3.2 AlexNet
  • 14.3.3 GoogLeNet
  • 14.3.4 ResNet
  • 14.3.5 DenseNet
  • 14.3.6 神经架构搜索
  • 14.4 其他形式的卷积*
  • 14.4.1 空洞卷积
  • 14.4.2 转置卷积
  • 14.4.3 深度可分离卷积
  • 14.5 使用卷积神经网络解决其他判别式视觉任务*
  • 14.5.1 图像标记
  • 14.5.2 目标检测
  • 14.5.3 实例分割
  • 14.5.4 语义分割
  • 14.5.5 人体姿态估计
  • 14.6 通过反转卷积神经网络生成图像*
  • 14.6.1 将经过训练的分类器转换为生成模型
  • 14.6.2 图像先验
  • 14.6.3 可视化卷积神经网络学习到的特征
  • 14.6.4 Deep Dream
  • 14.6.5 神经风格迁移
  • 第15章 用于序列处理的神经网络
  • 15.1 概述
  • 15.2 循环神经网络
  • 15.2.1 vec2seq:序列生成
  • 15.2.2 seq2vec:序列分类
  • 15.2.3 seq2seq:序列翻译
  • 15.2.4 教师强制
  • 15.2.5 时序反向传播
  • 15.2.6 梯度消失和梯度爆炸
  • 15.2.7 门控和长期记忆
  • 15.2.8 波束搜索
  • 15.3 一维卷积神经网络
  • 15.3.1 用于序列分类的一维卷积神经网络
  • 15.3.2 用于序列生成的因果一维卷积神经网络
  • 15.4 注意力
  • 15.4.1 作为软字典查找的注意力
  • 15.4.2 作为非参数化注意力的核回归
  • 15.4.3 参数化注意力
  • 15.4.4 基于注意力机制的seq2seq
  • 15.4.5 基于注意力机制的seq2vec:文本分类
  • 15.4.6 基于注意力机制的seq+seq2vec:文本对分类
  • 15.4.7 软注意力与硬注意力
  • 15.5 Transformer
  • 15.5.1 自注意力
  • 15.5.2 多头注意力
  • 15.5.3 位置编码
  • 15.5.4 整合所有部分
  • 15.5.5 比较Transformer、CNN和RNN
  • 15.5.6 用于图像处理的Transformer*
  • 15.5.7 其他Transformer变体*
  • 15.6 高效Transformer*
  • 15.6.1 固定的不可学习的局部注意力模式
  • 15.6.2 可学习的稀疏注意力模式
  • 15.6.3 记忆和循环方法
  • 15.6.4 低秩和核方法
  • 15.7 语言模型和无监督表示学习
  • 15.7.1 语言模型嵌入
  • 15.7.2 Transformer的双向编码器表示
  • 15.7.3 生成式预训练Transformer
  • 15.7.4 文本到文本的转换Transformer
  • 15.7.5 讨论
  • 第四部分 非参数化模型
  • 第16章 基于样例的方法
  • 16.1 K-最近邻分类
  • 16.1.1 示例
  • 16.1.2 维度灾难
  • 16.1.3 降低速度和内存要求
  • 16.1.4 开放集识别
  • 16.2 学习距离度量
  • 16.2.1 线性和凸方法
  • 16.2.2 深度度量学习
  • 16.2.3 分类损失
  • 16.2.4 排名损失
  • 16.2.5 加速排名损失优化
  • 16.2.6 深度度量学习的其他训练技巧
  • 16.3 核密度估计
  • 16.3.1 密度核
  • 16.3.2 Parzen窗口密度估计器
  • 16.3.3 如何选择带宽参数
  • 16.3.4 从核密度估计到K-最近邻分类
  • 16.3.5 核回归
  • 第17章 核方法*
  • 17.1 Mercer核
  • 17.1.1 Mercer定理
  • 17.1.2 一些流行的Mercer核
  • 17.2 高斯过程
  • 17.2.1 无噪声观测
  • 17.2.2 噪声观测
  • 17.2.3 与核回归的比较
  • 17.2.4 权重空间与函数空间
  • 17.2.5 数值问题
  • 17.2.6 估计核
  • 17.2.7 用于分类的高斯过程
  • 17.2.8 与深度学习的联系
  • 17.2.9 将高斯过程扩展到大型数据集
  • 17.3 支持向量机
  • 17.3.1 大间距分类器
  • 17.3.2 对偶问题
  • 17.3.3 软间距分类器
  • 17.3.4 核技巧
  • 17.3.5 将支持向量机的输出转换为概率
  • 17.3.6 与逻辑回归的联系
  • 17.3.7 支持向量机的多类别分类
  • 17.3.8 如何选择正则化因子C
  • 17.3.9 核岭回归
  • 17.3.10 用于回归的支持向量机
  • 17.4 稀疏向量机
  • 17.4.1 相关向量机
  • 17.4.2 稀疏核方法和稠密核方法的比较
  • 17.5 练习题
  • 第18章 树、森林、装袋法和提升法
  • 18.1 分类和回归树
  • 18.1.1 模型定义
  • 18.1.2 模型拟合
  • 18.1.3 正则化
  • 18.1.4 处理缺失的输入特性
  • 18.1.5 优点和缺点
  • 18.2 集成学习
  • 18.2.1 堆叠法
  • 18.2.2 集成不是贝叶斯模型平均
  • 18.3 装袋法
  • 18.4 随机森林
  • 18.5 提升法
  • 18.5.1 前向分段加法建模
  • 18.5.2 二次型损失和最小二乘提升法
  • 18.5.3 指数损失和AdaBoost
  • 18.5.4 logitBoost
  • 18.5.5 梯度提升算法
  • 18.6 树集成的解释
  • 18.6.1 特征重要性
  • 18.6.2 部分依赖关系图
  • 第五部分 其他的机器学习方法
  • 第19章 基于少量标记样例的学习
  • 19.1 数据增强
  • 19.1.1 示例
  • 19.1.2 理论论证
  • 19.2 迁移学习
  • 19.2.1 微调
  • 19.2.2 适配器
  • 19.2.3 监督预训练
  • 19.2.4 无监督预训练
  • 19.2.5 域自适应
  • 19.3 半监督学习
  • 19.3.1 自我训练和伪标签
  • 19.3.2 熵最小化
  • 19.3.3 协同训练
  • 19.3.4 图上的标签传播
  • 19.3.5 一致性正则化
  • 19.3.6 深度生成式模型*
  • 19.3.7 结合自监督和半监督学习
  • 19.4 主动学习
  • 19.4.1 决策理论方法
  • 19.4.2 信息理论方法
  • 19.4.3 批次主动学习
  • 19.5 元学习
  • 19.5.1 模型不可知的元学习
  • 19.6 少量样本学习
  • 19.6.1 匹配网络
  • 19.7 弱监督学习
  • 19.8 练习题
  • 第20章 数据降维
  • 20.1 主成分分析
  • 20.1.1 示例
  • 20.1.2 算法的推导
  • 20.1.3 计算问题
  • 20.1.4 选择潜在维度的数量
  • 20.2 因子分析*
  • 20.2.1 生成式模型
  • 20.2.2 概率主成分分析
  • 20.2.3 FA/PPCA的期望最大化算法
  • 20.2.4 参数的不可识别性
  • 20.2.5 非线性因子分析
  • 20.2.6 因子分析器的混合模型
  • 20.2.7 指数族因子分析
  • 20.2.8 配对数据的因子分析模型
  • 20.3 自动编码器
  • 20.3.1 瓶颈自动编码器
  • 20.3.2 去噪自动编码器
  • 20.3.3 收缩式自动编码器
  • 20.3.4 稀疏自动编码器
  • 20.3.5 变分自动编码器
  • 20.4 流形学习*
  • 20.4.1 什么是流形
  • 20.4.2 流形假设
  • 20.4.3 流形学习的方法
  • 20.4.4 多维尺度变换
  • 20.4.5 Isomap
  • 20.4.6 核主成分分析
  • 20.4.7 最大方差展开
  • 20.4.8 局部线性嵌入
  • 20.4.9 拉普拉斯特征映射
  • 20.4.10 t-SNE
  • 20.5 词嵌入
  • 20.5.1 潜在语义分析/索引
  • 20.5.2 word2vec
  • 20.5.3 GloVe
  • 20.5.4 单词类比
  • 20.5.5 单词嵌入的RAND-WALK模型
  • 20.5.6 上下文单词嵌入
  • 20.6 练习题
  • 第21章 聚类
  • 21.1 概述
  • 21.1.1 评价聚类方法的输出
  • 21.2 层次聚合聚类
  • 21.2.1 算法
  • 21.2.2 示例
  • 21.2.3 扩展
  • 21.3 K-均值聚类
  • 21.3.1 算法
  • 21.3.2 示例
  • 21.3.3 向量量化
  • 21.3.4 K-均值聚类++算法
  • 21.3.5 K-中心点算法
  • 21.3.6 加速技巧
  • 21.3.7 选择簇数K
  • 21.4 使用混合模型进行聚类
  • 21.4.1 高斯混合模型
  • 21.4.2 伯努利混合模型
  • 21.5 谱聚类*
  • 21.5.1 归一化切割
  • 21.5.2 图拉普拉斯算子的特征向量编码聚类
  • 21.5.3 示例
  • 21.5.4 与其他方法的联系
  • 21.6 双聚类*
  • 21.6.1 基本双聚类
  • 21.6.2 嵌套划分模型
  • 第22章 推荐系统
  • 22.1 明确反馈
  • 22.1.1 数据集
  • 22.1.2 协同过滤
  • 22.1.3 矩阵分解
  • 22.1.4 自动编码器
  • 22.2 隐式反馈
  • 22.2.1 贝叶斯个性化排序
  • 22.2.2 因子分解机
  • 22.2.3 神经矩阵分解
  • 22.3 利用辅助信息
  • 22.4 “探索-利用”权衡
  • 第23章 图嵌入*
  • 23.1 概述
  • 23.2 图嵌入作为编码器/解码器问题
  • 23.3 浅层图嵌入
  • 23.3.1 无监督嵌入
  • 23.3.2 基于距离:欧几里得方法
  • 23.3.3 基于距离:非欧几里得方法
  • 23.3.4 基于外积:矩阵分解方法
  • 23.3.5 基于外积:skip-gram方法
  • 23.3.6 有监督嵌入
  • 23.4 图神经网络
  • 23.4.1 消息传递图神经网络
  • 23.4.2 谱图卷积
  • 23.4.3 空间图卷积
  • 23.4.4 非欧几里得图卷积
  • 23.5 深度图嵌入
  • 23.5.1 无监督嵌入
  • 23.5.2 半监督嵌入
  • 23.6 应用
  • 23.6.1 无监督的应用
  • 23.6.2 有监督的应用
  • 附录 符号对照表
  • 参考文献
展开全部

评分及书评

评分不足
1个评分

出版方

机械工业出版社

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。