互联网
类型
可以朗读
语音朗读
492千字
字数
2022-01-01
发行日期
展开全部
主编推荐语
统一概率视角,详解机器学习理论与方法。
内容简介
本书通过概率建模和贝叶斯决策理论的统一视角,详细且与时俱进地介绍了机器学习(包括深度学习)的理论和方法。书中涵盖了数学背景(包括线性代数和优化理论)、基础的监督学习方法(包括线性回归、逻辑回归和深度神经网络),以及更高级的主题(包括迁移学习和无监督学习)。章节末尾的练习让读者能够应用所学知识,附录部分则对书中使用的符号进行了说明。
目录
- 版权信息
- 对本书的赞誉(按姓氏拼音字母排序)
- 译者序
- 前言
- 第1章 导论
- 1.1 什么是机器学习
- 1.2 监督学习
- 1.2.1 分类
- 1.2.2 回归
- 1.2.3 过拟合和泛化
- 1.2.4 “没有免费的午餐”定理
- 1.3 无监督学习
- 1.3.1 聚类
- 1.3.2 发现潜在的“变异因子”
- 1.3.3 自监督学习
- 1.3.4 评估无监督学习
- 1.4 强化学习
- 1.5 数据
- 1.5.1 常见的图像数据集
- 1.5.2 常见的文本数据集
- 1.5.3 离散输入数据的预处理
- 1.5.4 预处理文本数据
- 1.5.5 处理缺失数据
- 1.6 进一步讨论
- 1.6.1 机器学习与其他领域的关系
- 1.6.2 本书的组织结构
- 1.6.3 注意事项
- 第一部分 理论基础
- 第2章 概率:单变量模型
- 2.1 概述
- 2.1.1 什么是概率
- 2.1.2 不确定性的类型
- 2.1.3 概率的基本规则
- 2.2 随机变量
- 2.2.1 离散随机变量
- 2.2.2 连续随机变量
- 2.2.3 相关随机变量集
- 2.2.4 独立性和条件独立性
- 2.2.5 分布的矩
- 2.2.6 汇总统计信息的局限性*
- 2.3 贝叶斯规则
- 2.3.1 示例:病毒检测
- 2.3.2 示例:三门问题
- 2.3.3 逆问题*
- 2.4 伯努利分布和二项分布
- 2.4.1 定义
- 2.4.2 sigmoid函数
- 2.4.3 二元逻辑回归
- 2.5 分类分布和多项式分布
- 2.5.1 定义
- 2.5.2 softmax函数
- 2.5.3 多类逻辑回归
- 2.5.4 对数-求和-自然指数技巧
- 2.6 单变量高斯分布
- 2.6.1 累积分布函数
- 2.6.2 概率密度函数
- 2.6.3 回归
- 2.6.4 为什么高斯分布被广泛使用
- 2.6.5 作为限制情形的Dirac-δ函数
- 2.7 其他常见的单变量分布*
- 2.7.1 学生t分布
- 2.7.2 柯西分布
- 2.7.3 拉普拉斯分布
- 2.7.4 贝塔分布
- 2.7.5 伽马分布
- 2.7.6 经验分布
- 2.8 随机变量的变换*
- 2.8.1 离散情况
- 2.8.2 连续情况
- 2.8.3 可逆变换(双射)
- 2.8.4 线性变换的矩
- 2.8.5 卷积定理
- 2.8.6 中心极限定理
- 2.8.7 蒙特卡罗近似
- 2.9 练习题
- 第3章 概率:多元模型
- 3.1 多个随机变量的联合分布
- 3.1.1 协方差
- 3.1.2 相关性
- 3.1.3 不相关并不意味着独立
- 3.1.4 相关性并不意味着因果关系
- 3.1.5 Simpson悖论
- 3.2 多元高斯分布
- 3.2.1 定义
- 3.2.2 马哈拉诺比斯距离
- 3.2.3 多元正态分布的边缘概率和条件概率*
- 3.2.4 示例:条件二维高斯分布
- 3.2.5 示例:处理缺失值*
- 3.3 线性高斯系统*
- 3.3.1 高斯贝叶斯规则
- 3.3.2 推导*
- 3.3.3 示例:推理未知标量
- 3.3.4 示例:推理未知向量
- 3.3.5 示例:传感器融合
- 3.4 指数概率分布族*
- 3.4.1 定义
- 3.4.2 示例
- 3.4.3 对数配分函数为累积量生成函数
- 3.4.4 指数概率分布族的最大熵推导
- 3.5 混合模型
- 3.5.1 高斯混合模型
- 3.5.2 伯努利混合模型
- 3.6 概率图模型*
- 3.6.1 表示
- 3.6.2 推理
- 3.6.3 学习
- 3.7 练习题
- 第4章 统计学
- 4.1 概述
- 4.2 最大似然估计
- 4.2.1 定义
- 4.2.2 最大似然估计的论证
- 4.2.3 示例:伯努利分布的最大似然估计
- 4.2.4 示例:分类分布的最大似然估计
- 4.2.5 示例:单变量高斯分布的最大似然估计
- 4.2.6 示例:多元高斯分布的最大似然估计
- 4.2.7 示例:线性回归的最大似然估计
- 4.3 经验风险最小化
- 4.3.1 示例:最小化错误分类率
- 4.3.2 代理损失
- 4.4 其他估计方法*
- 4.4.1 矩量法
- 4.4.2 在线估计
- 4.5 正则化
- 4.5.1 示例:伯努利分布的最大后验估计
- 4.5.2 示例:多元高斯分布的最大后验估计*
- 4.5.3 示例:权重衰减
- 4.5.4 使用验证集选择正则化因子
- 4.5.5 交叉验证
- 4.5.6 提前终止法
- 4.5.7 使用更多数据
- 4.6 贝叶斯统计学*
- 4.6.1 共轭先验
- 4.6.2 贝塔二项式模型
- 4.6.3 狄利克雷-多项式模型
- 4.6.4 高斯-高斯模型
- 4.6.5 非共轭先验
- 4.6.6 可信区间
- 4.6.7 贝叶斯机器学习
- 4.6.8 计算问题
- 4.7 频率学派统计学*
- 4.7.1 采样分布
- 4.7.2 最大似然估计采样分布的高斯近似
- 4.7.3 任何估计器采样分布的自举法近似
- 4.7.4 置信区间
- 4.7.5 请注意:置信区间不可信
- 4.7.6 偏差-方差权衡
- 4.8 练习题
- 第5章 决策理论
- 5.1 贝叶斯决策理论
- 5.1.1 基本概念
- 5.1.2 分类问题
- 5.1.3 ROC曲线
- 5.1.4 精确率-召回率曲线
- 5.1.5 回归问题
- 5.1.6 概率预测问题
- 5.2 贝叶斯假设检验
- 5.2.1 示例:测试硬币是否均匀
- 5.2.2 贝叶斯模型选择
- 5.2.3 奥卡姆剃刀原理
- 5.2.4 交叉验证与边缘可能性之间的联系
- 5.2.5 信息标准
- 5.3 频率学派决策理论
- 5.3.1 估计器的风险计算
- 5.3.2 一致估计器
- 5.3.3 可容许估计器
- 5.4 经验风险最小化
- 5.4.1 经验风险
- 5.4.2 结构风险
- 5.4.3 交叉验证
- 5.4.4 统计学习理论*
- 5.5 频率学派假设检验*
- 5.5.1 似然比测试
- 5.5.2 无效假设显著性检验
- 5.5.3 p-值
- 5.5.4 被认为有害的p-值
- 5.5.5 为什么有人不坚持贝叶斯学派统计学理论
- 5.6 练习题
- 第6章 信息论
- 6.1 熵
- 6.1.1 离散随机变量的熵
- 6.1.2 交叉熵
- 6.1.3 联合熵
- 6.1.4 条件熵
- 6.1.5 困惑度
- 6.1.6 连续随机变量的微分熵*
- 6.2 相对熵*
- 6.2.1 定义
- 6.2.2 解释
- 6.2.3 示例:两个高斯分布之间的KL散度
- 6.2.4 KL散度的非负性
- 6.2.5 KL散度和最大似然估计
- 6.2.6 正向KL与反向KL
- 6.3 互信息*
- 6.3.1 定义
- 6.3.2 解释
- 6.3.3 示例
- 6.3.4 条件互信息
- 6.3.5 互信息作为“广义相关系数”
- 6.3.6 归一化互信息
- 6.3.7 最大信息系数
- 6.3.8 数据处理不等式
- 6.3.9 充分统计量
- 6.3.10 法诺不等式*
- 6.4 练习题
- 第7章 线性代数
- 7.1 概述
- 7.1.1 符号说明
- 7.1.2 向量空间
- 7.1.3 向量和矩阵的范数
- 7.1.4 矩阵的性质
- 7.1.5 特殊类型的矩阵
- 7.2 矩阵乘法
- 7.2.1 向量-向量的乘积
- 7.2.2 矩阵-向量的乘积
- 7.2.3 矩阵-矩阵的乘积
- 7.2.4 应用:数据矩阵的操作
- 7.2.5 克罗内克乘积*
- 7.2.6 爱因斯坦求和*
- 7.3 矩阵求逆
- 7.3.1 方阵的逆
- 7.3.2 舒尔补*
- 7.3.3 矩阵求逆引理*
- 7.3.4 矩阵行列式引理*
- 7.3.5 应用:推导多元正态分布的条件*
- 7.4 特征值分解
- 7.4.1 基础
- 7.4.2 矩阵对角化
- 7.4.3 对称矩阵的特征值和特征向量
- 7.4.4 二次型的几何特性
- 7.4.5 标准化和白化数据
- 7.4.6 幂方法
- 7.4.7 矩阵收缩
- 7.4.8 特征向量优化二次型
- 7.5 奇异值分解
- 7.5.1 基础
- 7.5.2 奇异值分解与特征值分解的联系
- 7.5.3 伪逆
- 7.5.4 奇异值分解与矩阵的值域空间和零空间*
- 7.5.5 截断奇异值分解
- 7.6 其他矩阵分解*
- 7.6.1 LU分解
- 7.6.2 正交三角分解
- 7.6.3 Cholesky分解
- 7.7 求解线性方程组*
- 7.7.1 求解方阵线性方程组
- 7.7.2 求解欠约束线性方程组
- 7.7.3 求解过度约束线性方程组
- 7.8 矩阵微积分
- 7.8.1 导数
- 7.8.2 梯度
- 7.8.3 方向导数
- 7.8.4 全导数*
- 7.8.5 雅可比矩阵
- 7.8.6 黑塞矩阵
- 7.8.7 常用函数的梯度
- 7.9 练习题
- 第8章 优化理论
- 8.1 概述
- 8.1.1 局部优化与全局优化
- 8.1.2 约束优化与无约束优化
- 8.1.3 凸优化与非凸优化
- 8.1.4 平滑优化与非平滑优化
- 8.2 一阶方法
- 8.2.1 下降方向
- 8.2.2 步长
- 8.2.3 收敛速度
- 8.2.4 动量方法
- 8.3 二阶方法
- 8.3.1 牛顿法
- 8.3.2 BFGS和其他拟牛顿方法
- 8.3.3 信任区域方法
- 8.4 随机梯度下降
- 8.4.1 应用于有限和问题
- 8.4.2 示例:用于拟合线性回归的随机梯度下降
- 8.4.3 选择步长
- 8.4.4 迭代平均
- 8.4.5 方差缩减技术*
- 8.4.6 预处理随机梯度下降
- 8.5 约束优化
- 8.5.1 拉格朗日乘子
- 8.5.2 KKT条件
- 8.5.3 线性规划
- 8.5.4 二次型规划
- 8.5.5 混合整数线性规划*
- 8.6 近端梯度法*
- 8.6.1 投影梯度下降
- 8.6.2 ℓ1范数正则化因子的近端算子
- 8.6.3 量化的近端算子
- 8.6.4 增量近端方法
- 8.7 边界优化*
- 8.7.1 通用算法
- 8.7.2 期望最大化算法
- 8.7.3 示例:高斯混合模型的期望最大化
- 8.8 黑盒和无梯度优化
- 8.9 练习题
- 第二部分 线性模型
- 第9章 线性判别分析
- 9.1 概述
- 9.2 高斯判别分析
- 9.2.1 二次型决策边界
- 9.2.2 线性决策边界
- 9.2.3 线性判别分析与逻辑回归之间的联系
- 9.2.4 模型拟合
- 9.2.5 最近邻质心分类器
- 9.2.6 Fisher线性判别分析*
- 9.3 朴素贝叶斯分类器
- 9.3.1 示例模型
- 9.3.2 模型拟合
- 9.3.3 贝叶斯朴素贝叶斯
- 9.3.4 朴素贝叶斯与逻辑回归之间的联系
- 9.4 生成式分类器与判别式分类器的比较
- 9.4.1 判别式分类器的优点
- 9.4.2 生成式分类器的优点
- 9.4.3 处理缺失特征
- 9.5 练习题
- 第10章 逻辑回归
- 10.1 概述
- 10.2 二元逻辑回归
- 10.2.1 线性分类器
- 10.2.2 非线性分类器
- 10.2.3 最大似然估计
- 10.2.4 随机梯度下降
- 10.2.5 感知器算法
- 10.2.6 迭代重加权最小二乘法
- 10.2.7 最大后验估计
- 10.2.8 标准化
- 10.3 多项式逻辑回归
- 10.3.1 线性分类器和非线性分类器
- 10.3.2 最大似然估计
- 10.3.3 基于梯度的优化
- 10.3.4 边界优化
- 10.3.5 最大后验估计
- 10.3.6 最大熵分类器
- 10.3.7 层次分类
- 10.3.8 处理大量的类
- 10.4 鲁棒逻辑回归*
- 10.4.1 似然的混合模型
- 10.4.2 双稳态损失
- 10.5 贝叶斯逻辑回归*
- 10.5.1 拉普拉斯近似
- 10.5.2 近似后验预测
- 10.6 练习题
- 第11章 线性回归
- 11.1 概述
- 11.2 最小二乘线性回归
- 11.2.1 术语
- 11.2.2 最小二乘估计
- 11.2.3 计算最大似然估计的其他方法
- 11.2.4 测量拟合优度
- 11.3 岭回归
- 11.3.1 计算最大后验估计
- 11.3.2 岭回归与主成分分析之间的联系
- 11.3.3 选择正则化因子的强度
- 11.4 套索回归
- 11.4.1 拉普拉斯先验的最大后验估计
- 11.4.2 为什么ℓ1正则化产生稀疏解
- 11.4.3 硬阈值与软阈值
- 11.4.4 正则化路径
- 11.4.5 最小二乘法、套索回归、岭回归和子集选择的比较
- 11.4.6 变量选择一致性
- 11.4.7 群组套索回归
- 11.4.8 弹性网络
- 11.4.9 优化算法
- 11.5 回归样条法*
- 11.5.1 B-样条基函数
- 11.5.2 使用样条基函数拟合线性模型
- 11.5.3 平滑样条法
- 11.5.4 广义加性模型
- 11.6 鲁棒线性回归*
- 11.6.1 拉普拉斯似然分布
- 11.6.2 学生t似然分布
- 11.6.3 Huber损失
- 11.6.4 RANSAC
- 11.7 贝叶斯线性回归*
- 11.7.1 先验概率
- 11.7.2 后验概率
- 11.7.3 示例
- 11.7.4 计算后验预测
- 11.7.5 中心化的优势
- 11.7.6 处理多重共线性
- 11.7.7 自动相关性确定*
- 11.8 练习题
- 第12章 广义线性模型*
- 12.1 概述
- 12.2 示例
- 12.2.1 线性回归
- 12.2.2 二项回归
- 12.2.3 泊松回归
- 12.3 具有非规范链接函数的广义线性模型
- 12.4 最大似然估计
- 12.5 示例:预测保险理赔
- 第三部分 深度神经网络
- 第13章 结构化数据的神经网络
- 13.1 概述
- 13.2 多层感知器
- 13.2.1 XOR问题
- 13.2.2 可微的多层感知器
- 13.2.3 激活函数
- 13.2.4 示例模型
- 13.2.5 深度的重要性
- 13.2.6 “深度学习革命”
- 13.2.7 与生物学的联系
- 13.3 反向传播
- 13.3.1 正向模式与反向模式的差异
- 13.3.2 多层感知器的反向模式微分
- 13.3.3 普通层的向量雅可比乘积
- 13.3.4 计算图
- 13.4 训练神经网络
- 13.4.1 调整学习率
- 13.4.2 梯度消失和梯度爆炸
- 13.4.3 非饱和激活函数
- 13.4.4 残差连接
- 13.4.5 参数初始化
- 13.4.6 并行训练
- 13.5 正则化
- 13.5.1 提前终止
- 13.5.2 权重衰减
- 13.5.3 稀疏深度神经网络
- 13.5.4 丢弃法
- 13.5.5 贝叶斯神经网络
- 13.5.6 (随机)梯度下降的正则化效应*
- 13.6 其他类型的前馈网络*
- 13.6.1 径向基函数网络
- 13.6.2 专家混合模型
- 13.7 练习题
- 第14章 用于图像处理的神经网络
- 14.1 概述
- 14.2 普通层
- 14.2.1 卷积层
- 14.2.2 池化层
- 14.2.3 整合所有部分
- 14.2.4 归一化层
- 14.3 图像分类的通用架构
- 14.3.1 LeNet
- 14.3.2 AlexNet
- 14.3.3 GoogLeNet
- 14.3.4 ResNet
- 14.3.5 DenseNet
- 14.3.6 神经架构搜索
- 14.4 其他形式的卷积*
- 14.4.1 空洞卷积
- 14.4.2 转置卷积
- 14.4.3 深度可分离卷积
- 14.5 使用卷积神经网络解决其他判别式视觉任务*
- 14.5.1 图像标记
- 14.5.2 目标检测
- 14.5.3 实例分割
- 14.5.4 语义分割
- 14.5.5 人体姿态估计
- 14.6 通过反转卷积神经网络生成图像*
- 14.6.1 将经过训练的分类器转换为生成模型
- 14.6.2 图像先验
- 14.6.3 可视化卷积神经网络学习到的特征
- 14.6.4 Deep Dream
- 14.6.5 神经风格迁移
- 第15章 用于序列处理的神经网络
- 15.1 概述
- 15.2 循环神经网络
- 15.2.1 vec2seq:序列生成
- 15.2.2 seq2vec:序列分类
- 15.2.3 seq2seq:序列翻译
- 15.2.4 教师强制
- 15.2.5 时序反向传播
- 15.2.6 梯度消失和梯度爆炸
- 15.2.7 门控和长期记忆
- 15.2.8 波束搜索
- 15.3 一维卷积神经网络
- 15.3.1 用于序列分类的一维卷积神经网络
- 15.3.2 用于序列生成的因果一维卷积神经网络
- 15.4 注意力
- 15.4.1 作为软字典查找的注意力
- 15.4.2 作为非参数化注意力的核回归
- 15.4.3 参数化注意力
- 15.4.4 基于注意力机制的seq2seq
- 15.4.5 基于注意力机制的seq2vec:文本分类
- 15.4.6 基于注意力机制的seq+seq2vec:文本对分类
- 15.4.7 软注意力与硬注意力
- 15.5 Transformer
- 15.5.1 自注意力
- 15.5.2 多头注意力
- 15.5.3 位置编码
- 15.5.4 整合所有部分
- 15.5.5 比较Transformer、CNN和RNN
- 15.5.6 用于图像处理的Transformer*
- 15.5.7 其他Transformer变体*
- 15.6 高效Transformer*
- 15.6.1 固定的不可学习的局部注意力模式
- 15.6.2 可学习的稀疏注意力模式
- 15.6.3 记忆和循环方法
- 15.6.4 低秩和核方法
- 15.7 语言模型和无监督表示学习
- 15.7.1 语言模型嵌入
- 15.7.2 Transformer的双向编码器表示
- 15.7.3 生成式预训练Transformer
- 15.7.4 文本到文本的转换Transformer
- 15.7.5 讨论
- 第四部分 非参数化模型
- 第16章 基于样例的方法
- 16.1 K-最近邻分类
- 16.1.1 示例
- 16.1.2 维度灾难
- 16.1.3 降低速度和内存要求
- 16.1.4 开放集识别
- 16.2 学习距离度量
- 16.2.1 线性和凸方法
- 16.2.2 深度度量学习
- 16.2.3 分类损失
- 16.2.4 排名损失
- 16.2.5 加速排名损失优化
- 16.2.6 深度度量学习的其他训练技巧
- 16.3 核密度估计
- 16.3.1 密度核
- 16.3.2 Parzen窗口密度估计器
- 16.3.3 如何选择带宽参数
- 16.3.4 从核密度估计到K-最近邻分类
- 16.3.5 核回归
- 第17章 核方法*
- 17.1 Mercer核
- 17.1.1 Mercer定理
- 17.1.2 一些流行的Mercer核
- 17.2 高斯过程
- 17.2.1 无噪声观测
- 17.2.2 噪声观测
- 17.2.3 与核回归的比较
- 17.2.4 权重空间与函数空间
- 17.2.5 数值问题
- 17.2.6 估计核
- 17.2.7 用于分类的高斯过程
- 17.2.8 与深度学习的联系
- 17.2.9 将高斯过程扩展到大型数据集
- 17.3 支持向量机
- 17.3.1 大间距分类器
- 17.3.2 对偶问题
- 17.3.3 软间距分类器
- 17.3.4 核技巧
- 17.3.5 将支持向量机的输出转换为概率
- 17.3.6 与逻辑回归的联系
- 17.3.7 支持向量机的多类别分类
- 17.3.8 如何选择正则化因子C
- 17.3.9 核岭回归
- 17.3.10 用于回归的支持向量机
- 17.4 稀疏向量机
- 17.4.1 相关向量机
- 17.4.2 稀疏核方法和稠密核方法的比较
- 17.5 练习题
- 第18章 树、森林、装袋法和提升法
- 18.1 分类和回归树
- 18.1.1 模型定义
- 18.1.2 模型拟合
- 18.1.3 正则化
- 18.1.4 处理缺失的输入特性
- 18.1.5 优点和缺点
- 18.2 集成学习
- 18.2.1 堆叠法
- 18.2.2 集成不是贝叶斯模型平均
- 18.3 装袋法
- 18.4 随机森林
- 18.5 提升法
- 18.5.1 前向分段加法建模
- 18.5.2 二次型损失和最小二乘提升法
- 18.5.3 指数损失和AdaBoost
- 18.5.4 logitBoost
- 18.5.5 梯度提升算法
- 18.6 树集成的解释
- 18.6.1 特征重要性
- 18.6.2 部分依赖关系图
- 第五部分 其他的机器学习方法
- 第19章 基于少量标记样例的学习
- 19.1 数据增强
- 19.1.1 示例
- 19.1.2 理论论证
- 19.2 迁移学习
- 19.2.1 微调
- 19.2.2 适配器
- 19.2.3 监督预训练
- 19.2.4 无监督预训练
- 19.2.5 域自适应
- 19.3 半监督学习
- 19.3.1 自我训练和伪标签
- 19.3.2 熵最小化
- 19.3.3 协同训练
- 19.3.4 图上的标签传播
- 19.3.5 一致性正则化
- 19.3.6 深度生成式模型*
- 19.3.7 结合自监督和半监督学习
- 19.4 主动学习
- 19.4.1 决策理论方法
- 19.4.2 信息理论方法
- 19.4.3 批次主动学习
- 19.5 元学习
- 19.5.1 模型不可知的元学习
- 19.6 少量样本学习
- 19.6.1 匹配网络
- 19.7 弱监督学习
- 19.8 练习题
- 第20章 数据降维
- 20.1 主成分分析
- 20.1.1 示例
- 20.1.2 算法的推导
- 20.1.3 计算问题
- 20.1.4 选择潜在维度的数量
- 20.2 因子分析*
- 20.2.1 生成式模型
- 20.2.2 概率主成分分析
- 20.2.3 FA/PPCA的期望最大化算法
- 20.2.4 参数的不可识别性
- 20.2.5 非线性因子分析
- 20.2.6 因子分析器的混合模型
- 20.2.7 指数族因子分析
- 20.2.8 配对数据的因子分析模型
- 20.3 自动编码器
- 20.3.1 瓶颈自动编码器
- 20.3.2 去噪自动编码器
- 20.3.3 收缩式自动编码器
- 20.3.4 稀疏自动编码器
- 20.3.5 变分自动编码器
- 20.4 流形学习*
- 20.4.1 什么是流形
- 20.4.2 流形假设
- 20.4.3 流形学习的方法
- 20.4.4 多维尺度变换
- 20.4.5 Isomap
- 20.4.6 核主成分分析
- 20.4.7 最大方差展开
- 20.4.8 局部线性嵌入
- 20.4.9 拉普拉斯特征映射
- 20.4.10 t-SNE
- 20.5 词嵌入
- 20.5.1 潜在语义分析/索引
- 20.5.2 word2vec
- 20.5.3 GloVe
- 20.5.4 单词类比
- 20.5.5 单词嵌入的RAND-WALK模型
- 20.5.6 上下文单词嵌入
- 20.6 练习题
- 第21章 聚类
- 21.1 概述
- 21.1.1 评价聚类方法的输出
- 21.2 层次聚合聚类
- 21.2.1 算法
- 21.2.2 示例
- 21.2.3 扩展
- 21.3 K-均值聚类
- 21.3.1 算法
- 21.3.2 示例
- 21.3.3 向量量化
- 21.3.4 K-均值聚类++算法
- 21.3.5 K-中心点算法
- 21.3.6 加速技巧
- 21.3.7 选择簇数K
- 21.4 使用混合模型进行聚类
- 21.4.1 高斯混合模型
- 21.4.2 伯努利混合模型
- 21.5 谱聚类*
- 21.5.1 归一化切割
- 21.5.2 图拉普拉斯算子的特征向量编码聚类
- 21.5.3 示例
- 21.5.4 与其他方法的联系
- 21.6 双聚类*
- 21.6.1 基本双聚类
- 21.6.2 嵌套划分模型
- 第22章 推荐系统
- 22.1 明确反馈
- 22.1.1 数据集
- 22.1.2 协同过滤
- 22.1.3 矩阵分解
- 22.1.4 自动编码器
- 22.2 隐式反馈
- 22.2.1 贝叶斯个性化排序
- 22.2.2 因子分解机
- 22.2.3 神经矩阵分解
- 22.3 利用辅助信息
- 22.4 “探索-利用”权衡
- 第23章 图嵌入*
- 23.1 概述
- 23.2 图嵌入作为编码器/解码器问题
- 23.3 浅层图嵌入
- 23.3.1 无监督嵌入
- 23.3.2 基于距离:欧几里得方法
- 23.3.3 基于距离:非欧几里得方法
- 23.3.4 基于外积:矩阵分解方法
- 23.3.5 基于外积:skip-gram方法
- 23.3.6 有监督嵌入
- 23.4 图神经网络
- 23.4.1 消息传递图神经网络
- 23.4.2 谱图卷积
- 23.4.3 空间图卷积
- 23.4.4 非欧几里得图卷积
- 23.5 深度图嵌入
- 23.5.1 无监督嵌入
- 23.5.2 半监督嵌入
- 23.6 应用
- 23.6.1 无监督的应用
- 23.6.2 有监督的应用
- 附录 符号对照表
- 参考文献
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。
