展开全部

主编推荐语

全面解析数据科学知识,实战案例结合模型应用。

内容简介

本书是全面讲解了数据科学的相关知识,从数学统计学,讲到机器学习、深度学习中用到的算法及模型,借鉴经济学视角给出模型的相关解释,深入探讨模型的可用性,并结合大量的实际案例和代码帮助读者学以致用,将具体的应用场景和现有的模型相结合,从而更好地发现模型的潜在应用场景。

目录

  • 版权信息
  • 内容提要
  • 序一
  • 序二
  • 序三
  • 前言
  • 资源与支持
  • 第1章 数据科学概述
  • 1.1 挑战
  • 1.1.1 工程实现的挑战
  • 1.1.2 模型搭建的挑战
  • 1.2 机器学习
  • 1.2.1 机器学习与传统编程
  • 1.2.2 监督式学习和非监督式学习
  • 1.3 统计模型
  • 1.4 关于本书
  • 第2章 Python安装指南与简介:告别空谈
  • 2.1 Python简介
  • 2.1.1 什么是Python
  • 2.1.2 Python在数据科学中的地位
  • 2.1.3 不可能绕过的第三方库
  • 2.2 Python安装
  • 2.2.1 Windows下的安装
  • 2.2.2 Mac下的安装
  • 2.2.3 Linux下的安装
  • 2.3 Python上手实践
  • 2.3.1 Python shell
  • 2.3.2 第一个Python程序:Word Count
  • 2.3.3 Python编程基础
  • 2.3.4 Python的工程结构
  • 2.4 本章小结
  • 第3章 数学基础:恼人但又不可或缺的知识
  • 3.1 矩阵和向量空间
  • 3.1.1 标量、向量与矩阵
  • 3.1.2 特殊矩阵
  • 3.1.3 矩阵运算
  • 3.1.4 代码实现
  • 3.1.5 向量空间
  • 3.2 概率:量化随机
  • 3.2.1 定义概率:事件和概率空间
  • 3.2.2 条件概率:信息的价值
  • 3.2.3 随机变量:两种不同的随机
  • 3.2.4 正态分布:殊途同归
  • 3.2.5 P-value:自信的猜测
  • 3.3 微积分
  • 3.3.1 导数和积分:位置、速度
  • 3.3.2 极限:变化的终点
  • 3.3.3 复合函数:链式法则
  • 3.3.4 多元函数:偏导数
  • 3.3.5 极值与最值:最优选择
  • 3.4 本章小结
  • 第4章 线性回归:模型之母
  • 4.1 一个简单的例子
  • 4.1.1 从机器学习的角度看这个问题
  • 4.1.2 从统计学的角度看这个问题
  • 4.2 上手实践:模型实现
  • 4.2.1 机器学习代码实现
  • 4.2.2 统计方法代码实现
  • 4.3 模型陷阱
  • 4.3.1 过度拟合:模型越复杂越好吗
  • 4.3.2 模型幻觉之统计学方案:假设检验
  • 4.3.3 模型幻觉之机器学习方案:惩罚项
  • 4.3.4 比较两种方案
  • 4.4 模型持久化
  • 4.4.1 模型的生命周期
  • 4.4.2 保存模型
  • 4.5 本章小结
  • 第5章 逻辑回归:隐藏因子
  • 5.1 二元分类问题:是与否
  • 5.1.1 线性回归:为何失效
  • 5.1.2 窗口效应:看不见的才是关键
  • 5.1.3 逻辑分布:胜者生存
  • 5.1.4 参数估计之似然函数:统计学角度
  • 5.1.5 参数估计之损失函数:机器学习角度
  • 5.1.6 参数估计之最终预测:从概率到选择
  • 5.1.7 空间变换:非线性到线性
  • 5.2 上手实践:模型实现
  • 5.2.1 初步分析数据:直观印象
  • 5.2.2 搭建模型
  • 5.2.3 理解模型结果
  • 5.3 评估模型效果:孰优孰劣
  • 5.3.1 查准率与查全率
  • 5.3.2 ROC曲线与AUC
  • 5.4 多元分类问题:超越是与否
  • 5.4.1 多元逻辑回归:逻辑分布的威力
  • 5.4.2 One-vs.-all:从二元到多元[10]
  • 5.4.3 模型实现
  • 5.5 非均衡数据集
  • 5.5.1 准确度悖论
  • 5.5.2 一个例子
  • 5.5.3 解决方法
  • 5.6 本章小结
  • 第6章 工程实现:计算机是怎么算的
  • 6.1 算法思路:模拟滚动
  • 6.2 数值求解:梯度下降法
  • 6.3 上手实践:代码实现
  • 6.3.1 TensorFlow基础
  • 6.3.2 定义模型
  • 6.3.3 梯度下降
  • 6.3.4 分析运行细节
  • 6.4 更优化的算法:随机梯度下降法
  • 6.4.1 算法细节
  • 6.4.2 代码实现
  • 6.4.3 两种算法比较
  • 6.5 本章小结
  • 第7章 计量经济学的启示:他山之石
  • 7.1 定量与定性:变量的数学运算合理吗
  • 7.2 定性变量的处理
  • 7.2.1 虚拟变量
  • 7.2.2 上手实践:代码实现
  • 7.2.3 从定性变量到定量变量
  • 7.3 定量变量的处理
  • 7.3.1 定量变量转换为定性变量
  • 7.3.2 上手实践:代码实现
  • 7.3.3 基于卡方检验的方法
  • 7.4 显著性
  • 7.5 多重共线性:多变量的烦恼
  • 7.5.1 多重共线性效应
  • 7.5.2 检测多重共线性
  • 7.5.3 解决方法
  • 7.5.4 虚拟变量陷阱
  • 7.6 内生性:变化来自何处
  • 7.6.1 来源
  • 7.6.2 内生性效应
  • 7.6.3 工具变量
  • 7.6.4 逻辑回归的内生性
  • 7.6.5 模型的联结
  • 7.7 本章小结
  • 第8章 监督式学习:目标明确
  • 8.1 支持向量学习机
  • 8.1.1 直观例子
  • 8.1.2 用数学理解直观
  • 8.1.3 从几何直观到最优化问题
  • 8.1.4 损失项
  • 8.1.5 损失函数与惩罚项
  • 8.1.6 Hard margin与soft margin比较
  • 8.1.7 支持向量学习机与逻辑回归:隐藏的假设
  • 8.2 核函数
  • 8.2.1 空间变换:从非线性到线性
  • 8.2.2 拉格朗日对偶
  • 8.2.3 支持向量
  • 8.2.4 核函数的定义:优化运算
  • 8.2.5 常用的核函数
  • 8.2.6 Scale variant
  • 8.3 决策树
  • 8.3.1 决策规则
  • 8.3.2 评判标准
  • 8.3.3 代码实现
  • 8.3.4 决策树预测算法以及模型的联结
  • 8.3.5 剪枝
  • 8.4 树的集成
  • 8.4.1 随机森林
  • 8.4.2 Random forest embedding
  • 8.4.3 GBTs之梯度提升
  • 8.4.4 GBTs之算法细节
  • 8.5 本章小结
  • 第9章 生成式模型:量化信息的价值
  • 9.1 贝叶斯框架
  • 9.1.1 蒙提霍尔问题
  • 9.1.2 条件概率
  • 9.1.3 先验概率与后验概率
  • 9.1.4 参数估计与预测公式
  • 9.1.5 贝叶斯学派与频率学派
  • 9.2 朴素贝叶斯
  • 9.2.1 特征提取:文字到数字
  • 9.2.2 伯努利模型
  • 9.2.3 多项式模型
  • 9.2.4 TF-IDF
  • 9.2.5 文本分类的代码实现
  • 9.2.6 模型的联结
  • 9.3 判别分析
  • 9.3.1 线性判别分析
  • 9.3.2 线性判别分析与逻辑回归比较
  • 9.3.3 数据降维
  • 9.3.4 代码实现
  • 9.3.5 二次判别分析
  • 9.4 隐马尔可夫模型
  • 9.4.1 一个简单的例子
  • 9.4.2 马尔可夫链
  • 9.4.3 模型架构
  • 9.4.4 中文分词:监督式学习
  • 9.4.5 中文分词之代码实现
  • 9.4.6 股票市场:非监督式学习
  • 9.4.7 股票市场之代码实现
  • 9.5 本章小结
  • 第10章 非监督式学习:聚类与降维
  • 10.1 K-means
  • 10.1.1 模型原理
  • 10.1.2 收敛过程
  • 10.1.3 如何选择聚类个数
  • 10.1.4 应用示例
  • 10.2 其他聚类模型
  • 10.2.1 混合高斯之模型原理
  • 10.2.2 混合高斯之模型实现
  • 10.2.3 谱聚类之聚类结果
  • 10.2.4 谱聚类之模型原理
  • 10.2.5 谱聚类之图片分割
  • 10.3 Pipeline
  • 10.4 主成分分析
  • 10.4.1 模型原理
  • 10.4.2 模型实现
  • 10.4.3 核函数
  • 10.4.4 Kernel PCA的数学原理
  • 10.4.5 应用示例
  • 10.5 奇异值分解
  • 10.5.1 定义
  • 10.5.2 截断奇异值分解
  • 10.5.3 潜在语义分析
  • 10.5.4 大型推荐系统
  • 10.6 本章小结
  • 第11章 分布式机器学习:集体力量
  • 11.1 Spark简介
  • 11.1.1 Spark安装
  • 11.1.2 从MapReduce到Spark
  • 11.1.3 运行Spark
  • 11.1.4 Spark DataFrame
  • 11.1.5 Spark的运行架构
  • 11.2 最优化问题的分布式解法
  • 11.2.1 分布式机器学习的原理
  • 11.2.2 一个简单的例子
  • 11.3 大数据模型的两个维度
  • 11.3.1 数据量维度
  • 11.3.2 模型数量维度
  • 11.4 开源工具的另一面
  • 11.4.1 一个简单的例子
  • 11.4.2 开源工具的阿喀琉斯之踵
  • 11.5 本章小结
  • 第12章 神经网络:模拟人的大脑
  • 12.1 神经元
  • 12.1.1 神经元模型
  • 12.1.2 Sigmoid神经元与二元逻辑回归
  • 12.1.3 Softmax函数与多元逻辑回归
  • 12.2 神经网络
  • 12.2.1 图形表示
  • 12.2.2 数学基础
  • 12.2.3 分类例子
  • 12.2.4 代码实现
  • 12.2.5 模型的联结
  • 12.3 反向传播算法
  • 12.3.1 随机梯度下降法回顾
  • 12.3.2 数学推导
  • 12.3.3 算法步骤
  • 12.4 提高神经网络的学习效率
  • 12.4.1 学习的原理
  • 12.4.2 激活函数的改进
  • 12.4.3 参数初始化
  • 12.4.4 不稳定的梯度
  • 12.5 本章小结
  • 第13章 深度学习:继续探索
  • 13.1 利用神经网络识别数字
  • 13.1.1 搭建模型
  • 13.1.2 防止过拟合之惩罚项
  • 13.1.3 防止过拟合之dropout
  • 13.1.4 代码实现
  • 13.2 卷积神经网络
  • 13.2.1 模型结构之卷积层
  • 13.2.2 模型结构之池化层
  • 13.2.3 模型结构之完整结构
  • 13.2.4 代码实现
  • 13.2.5 结构真的那么重要吗
  • 13.3 其他深度学习模型
  • 13.3.1 递归神经网络
  • 13.3.2 长短期记忆
  • 13.3.3 非监督式学习
  • 13.4 本章小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。