科技
类型
可以朗读
语音朗读
153千字
字数
2017-09-01
发行日期
展开全部
主编推荐语
涵盖主题广泛,介绍数据科学方方面面的知识。
内容简介
本书每一章都侧重于介绍数据科学的某一方面,为读者以后的深入学习打下基础。具体内容包括:第1~2章系统介绍大数据科学的背景知识及框架结构;第3~5章介绍机器学习相关知识;第6~9章介绍几个比较有趣的数据科学主题。本书是学习数据科学知识的入门教材,在深入学习本书的实例前,需要掌握SQL、Python及HTML5的入门知识,了解统计学和机器学习相关知识。
目录
- 版权信息
- 译者序
- 前言
- 关于本书
- 关于作者
- 关于封面插图
- 第1章 大数据世界中的数据科学
- 1.1 数据科学和大数据的好处和用途
- 1.2 数据种类
- 1.2.1 结构化数据
- 1.2.2 非结构化数据
- 1.2.3 自然语言数据
- 1.2.4 计算机数据
- 1.2.5 图类数据
- 1.2.6 音频、视频和图像数据
- 1.2.7 流数据
- 1.3 数据科学过程
- 1.3.1 设置研究目标
- 1.3.2 检索数据
- 1.3.3 数据准备
- 1.3.4 数据探索
- 1.3.5 数据建模
- 1.3.6 展示与自动化
- 1.4 大数据生态系统与数据科学
- 1.4.1 分布式文件系统
- 1.4.2 分布式编程框架
- 1.4.3 数据集成框架
- 1.4.4 机器学习框架
- 1.4.5 NoSQL数据库
- 1.4.6 调度工具
- 1.4.7 基准测试工具
- 1.4.8 系统部署
- 1.4.9 服务开发
- 1.4.10 安全
- 1.5 Hadoop工作示例介绍
- 1.6 本章小结
- 第2章 数据科学过程
- 2.1 数据科学过程概述
- 2.2 步骤1:定义研究目标并创立项目章程
- 2.2.1 了解研究的目标和背景
- 2.2.2 创立项目章程
- 2.3 步骤2:检索数据
- 2.3.1 从存储在公司内部的数据开始
- 2.3.2 不要害怕去购买数据
- 2.3.3 检查数据质量以预防问题发生
- 2.4 步骤3:数据的清洗、整合以及转换
- 2.4.1 数据清洗
- 2.4.2 尽可能早地修正错误
- 2.4.3 从不同的数据源整合数据
- 2.4.4 数据转换
- 2.5 步骤4:探索性数据分析
- 2.6 步骤5:构建模型
- 2.6.1 模型与变量的选择
- 2.6.2 模型执行
- 2.6.3 模型诊断与模型比较
- 2.7 步骤6:展示结果并在其上搭建应用程序
- 2.8 本章小结
- 第3章 机器学习
- 3.1 什么是机器学习,为什么需要关注它
- 3.1.1 机器学习在数据科学中的应用
- 3.1.2 机器学习在数据科学过程中的使用
- 3.1.3 Python工具在机器学习中的应用
- 3.2 建模过程
- 3.2.1 特征工程以及模型选取
- 3.2.2 模型的训练
- 3.2.3 模型的验证
- 3.2.4 预测新的观测值
- 3.3 机器学习的类型
- 3.3.1 有监督学习
- 3.3.2 无监督学习
- 3.4 半监督学习
- 3.5 本章小结
- 第4章 单机上处理大数据
- 4.1 大数据处理过程中遇到的难题
- 4.2 处理巨量数据的通用技术
- 4.2.1 选择合适的算法
- 4.2.2 选择合适的数据结构
- 4.2.3 选择合适的工具
- 4.3 处理大数据集的通用编程技巧
- 4.3.1 不必重复发明轮子
- 4.3.2 充分利用硬件
- 4.3.3 减少计算需求
- 4.4 案例研究1:预测恶意URL
- 4.4.1 步骤1:确立研究目标
- 4.4.2 步骤2:获取URL数据
- 4.4.3 步骤4:数据探索
- 4.4.4 步骤5:建模
- 4.5 案例研究2:在数据库中建立一个推荐系统
- 4.5.1 所需的工具及技术
- 4.5.2 步骤1:研究问题
- 4.5.3 步骤3:数据准备
- 4.5.4 步骤5:建模
- 4.5.5 步骤6:展示与自动化
- 4.6 本章小结
- 第5章 大数据世界的第一步
- 5.1 数据分布存储和框架处理
- 5.1.1 Hadoop:存储和处理大数据集的框架
- 5.1.2 Spark:取代MapReduce以获得更好的性能
- 5.2 案例研究:借贷的风险评估
- 5.2.1 步骤1:研究目标
- 5.2.2 步骤2:数据检索
- 5.2.3 步骤3:数据准备
- 5.2.4 步骤4(数据探索)和步骤6(报告形成)
- 5.3 本章小结
- 第6章 了解NoSQL
- 6.1 NoSQL简介
- 6.1.1 ACID:关系型数据库核心原则
- 6.1.2 CAP理论:多节点数据库的问题
- 6.1.3 NoSQL数据库的BASE原则
- 6.1.4 NoSQL数据库的种类
- 6.2 案例研究:这是什么疾病
- 6.2.1 步骤1:设置研究目标
- 6.2.2 步骤2和步骤3:数据检索与数据准备
- 6.2.3 步骤4:数据探索
- 6.2.4 再回到步骤3:为描述疾病概况做数据准备
- 6.2.5 再回到步骤4:为描述疾病概况做数据探索
- 6.2.6 步骤6:展示与自动化
- 6.3 本章小结
- 第7章 图数据库的兴起
- 7.1 互联数据及图数据库概述
- 7.2 图数据库Neo4j概述
- 7.3 数据互联案例:食谱推荐引擎
- 7.3.1 步骤1:设置研究目标
- 7.3.2 步骤2:数据检索
- 7.3.3 步骤3:数据准备
- 7.3.4 步骤4:数据探索
- 7.3.5 步骤5:数据建模
- 7.3.6 步骤6:数据展示
- 7.4 本章小结
- 第8章 文本挖掘和文本分析
- 8.1 现实世界中的文本挖掘
- 8.2 文本挖掘技术
- 8.2.1 词袋
- 8.2.2 词干提取和词形还原
- 8.2.3 决策树分类器
- 8.3 案例研究:Reddit帖子分类
- 8.3.1 自然语言工具包
- 8.3.2 数据科学过程综述及第1步:研究目标
- 8.3.3 第2步:数据检索
- 8.3.4 第3步:数据准备
- 8.3.5 步骤4:数据探索
- 8.3.6 再回到步骤3:数据准备的调整
- 8.3.7 步骤5:数据分析
- 8.3.8 步骤6:展示与自动化
- 8.4 本章小结
- 第9章 面向终端用户的数据可视化
- 9.1 数据可视化选项
- 9.2 Crossfilter——JavaScript MapReduce库
- 9.2.1 安装
- 9.2.2 利用Crossfilter筛选药品数据集
- 9.3 用dc.js创建一个交互式控制面板
- 9.4 控制面板开发工具
- 9.5 本章小结
- 附录A 搭建Elasticsearch
- 附录B 搭建Neo4j
- 附录C 安装MySQL服务器
- 附录D 在虚拟环境下搭建Anaconda
展开全部
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。