展开全部

主编推荐语

本书注重人文精神,多角度、全方位、深入介绍数据科学的实用指南,堪称大数据时代的实战宝典。

内容简介

本书旨在让读者能够举一反三地解决重要问题,内容包括:数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外,本书还将带领读者展望数据科学未来的发展。

目录

  • 版权信息
  • 数字版权声明
  • 译者介绍
  • 版权声明
  • O'Rei y Media, nc.介绍
  • 作者介绍
  • 关于封面图
  • 前言
  • 第1章 简介:什么是数据科学
  • 1.1 大数据和数据科学的喧嚣
  • 1.2 冲出迷雾
  • 1.3 为什么是现在
  • 1.4 数据科学的现状和历史
  • 1.5 数据科学的知识结构
  • 1.6 思维实验:元定义
  • 1.7 什么是数据科学家
  • 1.7.1 学术界对数据科学家的定义
  • 1.7.2 工业界对数据科学家的定义
  • 第2章 统计推断、探索性数据分析和数据科学工作流程
  • 2.1 大数据时代的统计学思考
  • 2.1.1 统计推断
  • 2.1.2 总体和样本
  • 2.1.3 大数据的总体和样本
  • 2.1.4 大数据意味着大胆的假设
  • 2.1.5 建模
  • 2.2 探索性数据分析
  • 2.2.1 探索性数据分析的哲学
  • 2.2.2 练习:探索性数据分析
  • 2.3 数据科学的工作流程
  • 2.4 思维实验:如何模拟混沌
  • 2.5 案例学习:RealDirect
  • 2.5.1 RealDirect是如何赚钱的
  • 2.5.2 练一练:RealDirect公司的数据策略
  • 第3章 算法
  • 3.1 机器学习算法
  • 3.2 三大基本算法
  • 3.2.1 线性回归模型
  • 3.2.2 k近邻模型(k-NN)
  • 3.2.3 k均值算法
  • 3.3 练习:机器学习算法基础
  • 3.4 总结
  • 3.5 思维实验:关于统计学家的自动化
  • 第4章 垃圾邮件过滤器、朴素贝叶斯与数据清理
  • 4.1 思维实验:从实例中学习
  • 4.1.1 线性回归为何不适用
  • 4.1.2 k近邻效果如何
  • 4.2 朴素贝叶斯模型
  • 4.2.1 贝叶斯法则
  • 4.2.2 个别单词的过滤器
  • 4.2.3 直通朴素贝叶斯
  • 4.3 拉普拉斯平滑法
  • 4.4 对比朴素贝叶斯和k近邻
  • 4.5 Bash代码示例
  • 4.6 网页抓取:API和其他工具
  • 4.7 Jake的练习题:文章分类问题中的朴素贝叶斯模型
  • 第5章 逻辑回归
  • 5.1 思维实验
  • 5.2 分类器
  • 5.2.1 运行时间
  • 5.2.2 你自己
  • 5.2.3 模型的可解释性
  • 5.2.4 可扩展性
  • 5.3 逻辑回归:一个来自M6D的真实案例研究
  • 5.3.1 点击模型
  • 5.3.2 模型背后
  • 5.3.3 α和β的参数估计
  • 5.3.4 牛顿法
  • 5.3.5 随机梯度下降法
  • 5.3.6 操练
  • 5.3.7 模型评价
  • 5.4 练习题
  • 第6章 时间戳数据与金融建模
  • 6.1 Kyle Teague与GetGlue公司
  • 6.2 时间戳
  • 6.2.1 探索性数据分析(EDA)
  • 6.2.2 指标和新变量
  • 6.2.3 下一步怎么做
  • 6.3 轮到Cathy O'Neill了
  • 6.4 思维实验
  • 6.5 金融建模
  • 6.5.1 样本期内外以及因果关系
  • 6.5.2 金融数据处理
  • 6.5.3 对数收益率
  • 6.5.4 实例:标准普尔指数
  • 6.5.5 如何衡量波动率
  • 6.5.6 指数平滑法
  • 6.5.7 金融模型的反馈
  • 6.5.8 聊聊回归模型
  • 6.5.9 先验信息量
  • 6.5.10 一个小例子
  • 6.6 练习:GetGlue提供的时间戳数据
  • 第7章 从数据到结论
  • 7.1 William Cukierski
  • 7.1.1 背景介绍:数据科学竞赛
  • 7.1.2 背景介绍:众包模式
  • 7.2 Kaggle模式
  • 7.2.1 Kaggle的参赛者
  • 7.2.2 Kaggle的客户
  • 7.3 思维实验:关于作业自动评分系统
  • 7.4 特征选择
  • 7.4.1 例子:留住用户
  • 7.4.2 过滤型
  • 7.4.3 包装型
  • 7.4.4 决策树与嵌入型变量选择
  • 7.4.5 熵
  • 7.4.6 决策树算法
  • 7.4.7 如何在决策树模型中处理连续性变量
  • 7.4.8 随机森林
  • 7.4.9 用户黏性:模型的预测能力与可解释性
  • 7.5 David Huffaker:谷歌社会学研究的新方法
  • 7.5.1 从描述性统计到预测模型
  • 7.5.2 谷歌的社交研究
  • 7.5.3 隐私保护
  • 7.5.4 思维实验:如何消除用户的顾虑
  • 第8章 构建面向大量用户的推荐引擎
  • 8.1 一个真实的推荐引擎
  • 8.1.1 最近邻算法回顾
  • 8.1.2 最近邻模型的已知问题
  • 8.1.3 超越近邻模型:基于机器学习的分类模型
  • 8.1.4 高维度问题
  • 8.1.5 奇异值分解(SVD)
  • 8.1.6 关于SVD的重要特性
  • 8.1.7 主成分分析(PCA)
  • 8.1.8 交替最小二乘法
  • 8.1.9 固定矩阵V,更新矩阵U
  • 8.1.10 关于这些算法的一点思考
  • 8.2 思维实验:如何过滤模型中的泡沫
  • 8.3 练习:搭建自己的推荐系统
  • 第9章 数据可视化与欺诈侦测
  • 9.1 数据可视化的历史
  • 9.1.1 Gabriel Tarde
  • 9.1.2 Mark的思维实验
  • 9.2 到底什么是数据科学
  • 9.2.1 Processing
  • 9.2.2 Franco Moretti
  • 9.3 一个数据可视化的方案实例
  • 9.4 Mark的数据可视化项目
  • 9.4.1 《纽约时报》大厅里的可视化:Moveable Type
  • 9.4.2 屏幕上的生命:Cascade可视化项目
  • 9.4.3 Cronkite广场项目
  • 9.4.4 eBay与图书网购
  • 9.4.5 公共剧场里的“莎士比亚机”
  • 9.4.6 这些展览的目的是什么
  • 9.5 数据科学和风险
  • 9.5.1 关于Square公司
  • 9.5.2 支付风险
  • 9.5.3 模型效果的评估问题
  • 9.5.4 建模小贴士
  • 9.6 数据可视化在Square
  • 9.7 Ian的思维实验
  • 9.8 关于数据可视化
  • 第10章 社交网络与数据新闻学
  • 10.1 Morning Analytics与社交网络
  • 10.2 社交网络分析
  • 10.3 关于社交网络分析的相关术语
  • 10.3.1 如何衡量向心性
  • 10.3.2 使用哪种向心性测度
  • 10.4 思维实验
  • 10.5 Morningside Analytics
  • 10.6 从统计学的角度看社交网络分析
  • 10.6.1 网络的表示方法与特征值向心度
  • 10.6.2 随机网络的第一个例子:Erdos-Renyi模型
  • 10.6.3 随机网络的第二个例子:指数随机网络图模型
  • 10.7 数据新闻学
  • 10.7.1 关于数据新闻学的历史回顾
  • 10.7.2 数据新闻报告的写作:来自专家的建议
  • 第11章 因果关系研究
  • 11.1 相关性并不代表因果关系
  • 11.1.1 对因果关系提问
  • 11.1.2 干扰因子:一个关于在线约会网站的例子
  • 11.2 OK Cupid的发现
  • 11.3 黄金准则:随机化临床实验
  • 11.4 A/B测试
  • 11.5 退一步求其次:关于观察性研究
  • 11.5.1 辛普森悖论
  • 11.5.2 鲁宾因果关系模型
  • 11.5.3 因果关系的可视化
  • 11.5.4 定义:因果关系
  • 11.6 三个小建议
  • 第12章 流行病学
  • 12.1 Madigan的学术背景
  • 12.2 思维实验
  • 12.3 统计学在现代
  • 12.4 医学文献与观察性研究
  • 12.5 分层法不解决干扰因子的问题
  • 12.6 就没有更好的办法吗
  • 12.7 研究性实验(OMOP)
  • 12.8 最后的思维实验
  • 第13章 从竞赛中学到的:数据泄漏和模型评价
  • 13.1 Claudia作为数据科学家的知识结构
  • 13.1.1 首席数据科学家的生活
  • 13.1.2 作为一名女数据科学家
  • 13.2 数据挖掘竞赛
  • 13.3 如何成为出色的建模者
  • 13.4 数据泄漏
  • 13.4.1 市场预测
  • 13.4.2 亚马逊案例学习:出手阔绰的顾客
  • 13.4.3 珠宝抽样问题
  • 13.4.4 IBM客户锁定
  • 13.4.5 乳腺癌检测
  • 13.4.6 预测肺炎
  • 13.5 如何避免数据泄漏
  • 13.6 模型评价
  • 13.6.1 准确度重要吗
  • 13.6.2 概率的重要性,不是非0即1
  • 13.7 如何选择算法
  • 13.8 最后一个例子
  • 13.9 临别感言
  • 第14章 数据工程:MapReduce、Pregel、Hadoop
  • 14.1 关于David Crawshaw
  • 14.2 思维实验
  • 14.3 MapReduce
  • 14.4 单词频率问题
  • 14.5 其他MapReduce案例
  • 14.6 Pregel
  • 14.7 关于Josh Wills
  • 14.8 思维实验
  • 14.9 给数据科学家的话
  • 14.9.1 数据丰富和数据匮乏
  • 14.9.2 设计模型
  • 14.10 算算Hadoop的经济账
  • 14.10.1 Hadoop简介
  • 14.10.2 Cloudera
  • 14.11 Josh的工作流程
  • 14.12 如何开始使用Hadoop
  • 第15章 听听学生们怎么说
  • 15.1 重在过程
  • 15.2 不再简单
  • 15.3 援助之手
  • 15.4 殊途同归
  • 15.5 逢山开路,遇水架桥
  • 15.6 作品展示
  • 第16章 下一代数据科学家、自大狂和职业道德
  • 16.1 前面都讲了些什么
  • 16.2 什么是数据科学(再问一次)
  • 16.3 谁是下一代的数据科学家
  • 16.3.1 成为解决问题的人
  • 16.3.2 培养软技能
  • 16.3.3 成为提问者
  • 16.4 做一个有道德感的数据科学家
  • 16.5 对于职业生涯的建议
展开全部

评分及书评

评分不足
1个评分

出版方

人民邮电出版社·图灵出品

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。