展开全部

主编推荐语

涵盖主题广泛,介绍数据科学方方面面的知识。

内容简介

本书每一章都侧重于介绍数据科学的某一方面,为读者以后的深入学习打下基础。具体内容包括:第1~2章系统介绍大数据科学的背景知识及框架结构;第3~5章介绍机器学习相关知识;第6~9章介绍几个比较有趣的数据科学主题。本书是学习数据科学知识的入门教材,在深入学习本书的实例前,需要掌握SQL、Python及HTML5的入门知识,了解统计学和机器学习相关知识。

目录

  • 版权信息
  • 译者序
  • 前言
  • 关于本书
  • 关于作者
  • 关于封面插图
  • 第1章 大数据世界中的数据科学
  • 1.1 数据科学和大数据的好处和用途
  • 1.2 数据种类
  • 1.2.1 结构化数据
  • 1.2.2 非结构化数据
  • 1.2.3 自然语言数据
  • 1.2.4 计算机数据
  • 1.2.5 图类数据
  • 1.2.6 音频、视频和图像数据
  • 1.2.7 流数据
  • 1.3 数据科学过程
  • 1.3.1 设置研究目标
  • 1.3.2 检索数据
  • 1.3.3 数据准备
  • 1.3.4 数据探索
  • 1.3.5 数据建模
  • 1.3.6 展示与自动化
  • 1.4 大数据生态系统与数据科学
  • 1.4.1 分布式文件系统
  • 1.4.2 分布式编程框架
  • 1.4.3 数据集成框架
  • 1.4.4 机器学习框架
  • 1.4.5 NoSQL数据库
  • 1.4.6 调度工具
  • 1.4.7 基准测试工具
  • 1.4.8 系统部署
  • 1.4.9 服务开发
  • 1.4.10 安全
  • 1.5 Hadoop工作示例介绍
  • 1.6 本章小结
  • 第2章 数据科学过程
  • 2.1 数据科学过程概述
  • 2.2 步骤1:定义研究目标并创立项目章程
  • 2.2.1 了解研究的目标和背景
  • 2.2.2 创立项目章程
  • 2.3 步骤2:检索数据
  • 2.3.1 从存储在公司内部的数据开始
  • 2.3.2 不要害怕去购买数据
  • 2.3.3 检查数据质量以预防问题发生
  • 2.4 步骤3:数据的清洗、整合以及转换
  • 2.4.1 数据清洗
  • 2.4.2 尽可能早地修正错误
  • 2.4.3 从不同的数据源整合数据
  • 2.4.4 数据转换
  • 2.5 步骤4:探索性数据分析
  • 2.6 步骤5:构建模型
  • 2.6.1 模型与变量的选择
  • 2.6.2 模型执行
  • 2.6.3 模型诊断与模型比较
  • 2.7 步骤6:展示结果并在其上搭建应用程序
  • 2.8 本章小结
  • 第3章 机器学习
  • 3.1 什么是机器学习,为什么需要关注它
  • 3.1.1 机器学习在数据科学中的应用
  • 3.1.2 机器学习在数据科学过程中的使用
  • 3.1.3 Python工具在机器学习中的应用
  • 3.2 建模过程
  • 3.2.1 特征工程以及模型选取
  • 3.2.2 模型的训练
  • 3.2.3 模型的验证
  • 3.2.4 预测新的观测值
  • 3.3 机器学习的类型
  • 3.3.1 有监督学习
  • 3.3.2 无监督学习
  • 3.4 半监督学习
  • 3.5 本章小结
  • 第4章 单机上处理大数据
  • 4.1 大数据处理过程中遇到的难题
  • 4.2 处理巨量数据的通用技术
  • 4.2.1 选择合适的算法
  • 4.2.2 选择合适的数据结构
  • 4.2.3 选择合适的工具
  • 4.3 处理大数据集的通用编程技巧
  • 4.3.1 不必重复发明轮子
  • 4.3.2 充分利用硬件
  • 4.3.3 减少计算需求
  • 4.4 案例研究1:预测恶意URL
  • 4.4.1 步骤1:确立研究目标
  • 4.4.2 步骤2:获取URL数据
  • 4.4.3 步骤4:数据探索
  • 4.4.4 步骤5:建模
  • 4.5 案例研究2:在数据库中建立一个推荐系统
  • 4.5.1 所需的工具及技术
  • 4.5.2 步骤1:研究问题
  • 4.5.3 步骤3:数据准备
  • 4.5.4 步骤5:建模
  • 4.5.5 步骤6:展示与自动化
  • 4.6 本章小结
  • 第5章 大数据世界的第一步
  • 5.1 数据分布存储和框架处理
  • 5.1.1 Hadoop:存储和处理大数据集的框架
  • 5.1.2 Spark:取代MapReduce以获得更好的性能
  • 5.2 案例研究:借贷的风险评估
  • 5.2.1 步骤1:研究目标
  • 5.2.2 步骤2:数据检索
  • 5.2.3 步骤3:数据准备
  • 5.2.4 步骤4(数据探索)和步骤6(报告形成)
  • 5.3 本章小结
  • 第6章 了解NoSQL
  • 6.1 NoSQL简介
  • 6.1.1 ACID:关系型数据库核心原则
  • 6.1.2 CAP理论:多节点数据库的问题
  • 6.1.3 NoSQL数据库的BASE原则
  • 6.1.4 NoSQL数据库的种类
  • 6.2 案例研究:这是什么疾病
  • 6.2.1 步骤1:设置研究目标
  • 6.2.2 步骤2和步骤3:数据检索与数据准备
  • 6.2.3 步骤4:数据探索
  • 6.2.4 再回到步骤3:为描述疾病概况做数据准备
  • 6.2.5 再回到步骤4:为描述疾病概况做数据探索
  • 6.2.6 步骤6:展示与自动化
  • 6.3 本章小结
  • 第7章 图数据库的兴起
  • 7.1 互联数据及图数据库概述
  • 7.2 图数据库Neo4j概述
  • 7.3 数据互联案例:食谱推荐引擎
  • 7.3.1 步骤1:设置研究目标
  • 7.3.2 步骤2:数据检索
  • 7.3.3 步骤3:数据准备
  • 7.3.4 步骤4:数据探索
  • 7.3.5 步骤5:数据建模
  • 7.3.6 步骤6:数据展示
  • 7.4 本章小结
  • 第8章 文本挖掘和文本分析
  • 8.1 现实世界中的文本挖掘
  • 8.2 文本挖掘技术
  • 8.2.1 词袋
  • 8.2.2 词干提取和词形还原
  • 8.2.3 决策树分类器
  • 8.3 案例研究:Reddit帖子分类
  • 8.3.1 自然语言工具包
  • 8.3.2 数据科学过程综述及第1步:研究目标
  • 8.3.3 第2步:数据检索
  • 8.3.4 第3步:数据准备
  • 8.3.5 步骤4:数据探索
  • 8.3.6 再回到步骤3:数据准备的调整
  • 8.3.7 步骤5:数据分析
  • 8.3.8 步骤6:展示与自动化
  • 8.4 本章小结
  • 第9章 面向终端用户的数据可视化
  • 9.1 数据可视化选项
  • 9.2 Crossfilter——JavaScript MapReduce库
  • 9.2.1 安装
  • 9.2.2 利用Crossfilter筛选药品数据集
  • 9.3 用dc.js创建一个交互式控制面板
  • 9.4 控制面板开发工具
  • 9.5 本章小结
  • 附录A 搭建Elasticsearch
  • 附录B 搭建Neo4j
  • 附录C 安装MySQL服务器
  • 附录D 在虚拟环境下搭建Anaconda
展开全部

评分及书评

评分不足
2个评分
  • 用户头像
    给这本书评了
    3.0
    数据科学用书

    不能说完全不能用,至少可读性不是很强,作为参考书可以使用

      转发
      评论

    出版方

    机械工业出版社有限公司

    机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。