展开全部

主编推荐语

如何将各种统计学方法应用于数据科学,这本书帮你搞明白。

内容简介

统计学方法是数据科学的重要组成部分,但极少有数据科学家接受过正规的统计学教育或培训,而关于统计学基础的课程和教材也很少从数据科学的角度进行讲解。本书专门从数据科学的角度阐释重要且实用的统计学概念,重点介绍如何将各种统计学方法应用于数据科学。

本书解释了数据科学中至关重要的统计学概念,介绍如何将各种统计方法应用于数据科学。作者以易于理解、浏览和参考的方式,引出统计学中与数据科学相关的关键概念;解释各统计学概念在数据科学中的重要性及有用程度,并给出原因。

目录

  • 版权信息
  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 业界评论
  • 前言
  • 第1章 探索性数据分析
  • 1.1 结构化数据的组成
  • 拓展阅读
  • 1.2 矩形数据
  • 1.2.1 数据框和索引
  • 1.2.2 非矩形数据结构
  • 1.2.3 拓展阅读
  • 1.3 位置估计
  • 1.3.1 均值
  • 1.3.2 中位数和稳健估计量
  • 1.3.3 位置估计的例子:人口和谋杀率
  • 1.3.4 拓展阅读
  • 1.4 变异性估计
  • 1.4.1 标准偏差及相关估计值
  • 1.4.2 基于百分位数的估计量
  • 1.4.3 例子:美国各州人口的变异性估计量
  • 1.4.4 拓展阅读
  • 1.5 探索数据分布
  • 1.5.1 百分位数和箱线图
  • 1.5.2 频数表和直方图
  • 1.5.3 密度估计
  • 1.5.4 拓展阅读
  • 1.6 探索二元数据和分类数据
  • 1.6.1 众数
  • 1.6.2 期望值
  • 1.6.3 拓展阅读
  • 1.7 相关性
  • 1.7.1 散点图
  • 1.7.2 拓展阅读
  • 1.8 探索两个及以上变量
  • 1.8.1 六边形图和等势线(适用于两个数值型变量)
  • 1.8.2 两个分类变量
  • 1.8.3 分类数据和数值型数据
  • 1.8.4 多个变量的可视化
  • 1.8.5 拓展阅读
  • 1.9 小结
  • 第2章 数据和抽样分布
  • 2.1 随机抽样和样本偏差
  • 2.1.1 偏差
  • 2.1.2 随机选择
  • 2.1.3 数据规模与数据质量:何时规模更重要
  • 2.1.4 样本均值与总体均值
  • 2.1.5 拓展阅读
  • 2.2 选择偏差
  • 2.2.1 趋均值回归
  • 2.2.2 拓展阅读
  • 2.3 统计量的抽样分布
  • 2.3.1 中心极限定理
  • 2.3.2 标准误差
  • 2.3.3 拓展阅读
  • 2.4 自助法
  • 2.4.1 重抽样与自助法
  • 2.4.2 拓展阅读
  • 2.5 置信区间
  • 拓展阅读
  • 2.6 正态分布
  • 标准正态分布和QQ图
  • 2.7 长尾分布
  • 拓展阅读
  • 2.8 学生t分布
  • 拓展阅读
  • 2.9 二项分布
  • 拓展阅读
  • 2.10 泊松分布及其相关分布
  • 2.10.1 泊松分布
  • 2.10.2 指数分布
  • 2.10.3 故障率估计
  • 2.10.4 韦伯分布
  • 2.10.5 拓展阅读
  • 2.11 小结
  • 第3章 统计实验与显著性检验
  • 3.1 A/B测试
  • 3.1.1 为什么要有对照组
  • 3.1.2 为什么只有处理A和B,没有C、D……
  • 3.1.3 拓展阅读
  • 3.2 假设检验
  • 3.2.1 零假设
  • 3.2.2 备择假设
  • 3.2.3 单向假设检验和双向假设检验
  • 3.2.4 拓展阅读
  • 3.3 重抽样
  • 3.3.1 置换检验
  • 3.3.2 例子:Web黏性
  • 3.3.3 穷尽置换检验和自助置换检验
  • 3.3.4 置换检验:数据科学的底线
  • 3.3.5 拓展阅读
  • 3.4 统计显著性和p值
  • 3.4.1 p值
  • 3.4.2 α值
  • 3.4.3 第一类错误和第二类错误
  • 3.4.4 数据科学与p值
  • 3.4.5 拓展阅读
  • 3.5 t检验
  • 拓展阅读
  • 3.6 多重检验
  • 拓展阅读
  • 3.7 自由度
  • 拓展阅读
  • 3.8 方差分析
  • 3.8.1 F统计量
  • 3.8.2 双向方差分析
  • 3.8.3 拓展阅读
  • 3.9 卡方检验
  • 3.9.1 卡方检验:一种重抽样方法
  • 3.9.2 卡方检验:统计理论
  • 3.9.3 费舍尔精确检验
  • 3.9.4 与数据科学的关联
  • 3.9.5 拓展阅读
  • 3.10 多臂老虎机算法
  • 拓展阅读
  • 3.11 检验效能和样本规模
  • 3.11.1 样本规模
  • 3.11.2 拓展阅读
  • 3.12 小结
  • 第4章 回归与预测
  • 4.1 简单线性回归
  • 4.1.1 回归方程
  • 4.1.2 拟合值与残差
  • 4.1.3 最小二乘法
  • 4.1.4 预测与解释(剖析)
  • 4.1.5 拓展阅读
  • 4.2 多元线性回归
  • 4.2.1 美国金县房屋数据案例
  • 4.2.2 评估模型
  • 4.2.3 交叉验证
  • 4.2.4 模型选择和逐步回归法
  • 4.2.5 加权回归
  • 4.3 使用回归做预测
  • 4.3.1 外推法的风险
  • 4.3.2 置信区间和预测区间
  • 4.4 回归中的因子变量
  • 4.4.1 虚拟变量的表示
  • 4.4.2 多层因子变量
  • 4.4.3 有序因子变量
  • 4.5 解释回归方程
  • 4.5.1 相关的预测变量
  • 4.5.2 多重共线性
  • 4.5.3 混淆变量
  • 4.5.4 交互作用和主效应
  • 4.6 检验假设:回归诊断
  • 4.6.1 离群值
  • 4.6.2 强影响值
  • 4.6.3 异方差性、非正态分布和相关误差
  • 4.6.4 偏残差图和非线性
  • 4.7 多项式回归和样条回归
  • 4.7.1 多项式回归
  • 4.7.2 样条回归
  • 4.7.3 广义加性模型
  • 4.7.4 拓展阅读
  • 4.8 小结
  • 第5章 分类
  • 5.1 朴素贝叶斯算法
  • 5.1.1 准确的贝叶斯分类是不切实际的
  • 5.1.2 朴素解决方案
  • 5.1.3 数值型预测变量
  • 5.1.4 拓展阅读
  • 5.2 判别分析
  • 5.2.1 协方差矩阵
  • 5.2.2 费希尔线性判别分析
  • 5.2.3 一个简单的例子
  • 5.2.4 拓展阅读
  • 5.3 逻辑回归
  • 5.3.1 逻辑响应函数和Logit函数
  • 5.3.2 逻辑回归和广义线性模型
  • 5.3.3 广义线性模型
  • 5.3.4 逻辑回归的预测值
  • 5.3.5 解释系数和优势比
  • 5.3.6 线性回归与逻辑回归:相似之处和不同之处
  • 5.3.7 模型评估
  • 5.3.8 拓展阅读
  • 5.4 评估分类模型
  • 5.4.1 混淆矩阵
  • 5.4.2 稀有类问题
  • 5.4.3 准确率、召回率和特异性
  • 5.4.4 ROC 曲线
  • 5.4.5 AUC
  • 5.4.6 提升
  • 5.4.7 拓展阅读
  • 5.5 不平衡数据的处理策略
  • 5.5.1 欠采样
  • 5.5.2 过采样以及上权重和下权重
  • 5.5.3 数据生成
  • 5.5.4 基于代价的分类
  • 5.5.5 探索预测值
  • 5.5.6 拓展阅读
  • 5.6 小结
  • 第6章 统计机器学习
  • 6.1 K最近邻算法
  • 6.1.1 预测贷款拖欠的示例
  • 6.1.2 距离度量
  • 6.1.3 独热编码
  • 6.1.4 标准化
  • 6.1.5 K值的选取
  • 6.1.6 KNN作为特征引擎
  • 6.2 树模型
  • 6.2.1 一个简单的例子
  • 6.2.2 递归分区算法
  • 6.2.3 测量同质性或不纯度
  • 6.2.4 阻止树模型继续生长
  • 6.2.5 预测连续值
  • 6.2.6 如何使用树模型
  • 6.2.7 拓展阅读
  • 6.3 Bagging和随机森林
  • 6.3.1 Bagging方法
  • 6.3.2 随机森林
  • 6.3.3 变量的重要性
  • 6.3.4 超参数
  • 6.4 Boosting
  • 6.4.1 Boosting算法
  • 6.4.2 XGBoost软件
  • 6.4.3 正则化:避免过拟合
  • 6.4.4 超参数和交叉验证
  • 6.5 小结
  • 第7章 无监督学习
  • 7.1 主成分分析
  • 7.1.1 一个简单的例子
  • 7.1.2 计算主成分
  • 7.1.3 解释主成分
  • 7.1.4 拓展阅读
  • 7.2 K-Means聚类
  • 7.2.1 一个简单的例子
  • 7.2.2 K-Means算法
  • 7.2.3 解释类
  • 7.2.4 选择类的个数
  • 7.3 层次聚类
  • 7.3.1 一个简单的例子
  • 7.3.2 树状图
  • 7.3.3 凝聚算法
  • 7.3.4 测量相异性
  • 7.4 基于模型的聚类
  • 7.4.1 多元正态分布
  • 7.4.2 混合正态分布
  • 7.4.3 类数的选取
  • 7.4.4 拓展阅读
  • 7.5 变量的缩放和分类变量
  • 7.5.1 变量的缩放
  • 7.5.2 控制变量
  • 7.5.3 分类数据和高氏距离
  • 7.5.4 混合数据的聚类问题
  • 7.6 小结
  • 作者简介
  • 封面说明
  • 看完了
展开全部

评分及书评

评分不足
1个评分

出版方

人民邮电出版社·图灵出品

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。