互联网
类型
6.7
豆瓣评分
可以朗读
语音朗读
250千字
字数
2018-04-01
发行日期
展开全部
主编推荐语
本书旨在带领你了解Hadoop生态系统。
内容简介
本书内容分为两大部分。第一部分(第1章到第5章)从非常高的层次介绍分布式计算,讨论如何在集群上运行计算。第二部分(第6章到第10章)更加具体地关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。
目录
- 版权信息
- 版权声明
- O'Reilly Media, Inc. 介绍
- 业界评论
- 前言
- 本书目标
- 目标读者
- 阅读方式
- 内容概述
- 编程和示例代码
- GitHub仓库
- 执行分布式作业
- 使用示例代码
- 反馈及作者联系方式
- Safari® Books Online
- 联系我们
- 致谢
- 电子书
- 第一部分 分布式计算入门
- 第1章 数据产品时代
- 1.1 什么是数据产品
- 1.2 使用Hadoop构建大规模数据产品
- 1.3 数据科学流水线和Hadoop生态系统
- 1.4 小结
- 第2章 大数据操作系统
- 2.1 基本概念
- 2.2 Hadoop架构
- 2.3 使用分布式文件系统
- 2.4 使用分布式计算
- 2.5 向YARN提交MapReduce作业
- 2.6 小结
- 第3章 Python 框架和 Hadoop Streaming
- 3.1 Hadoop Streaming
- 3.2 Python的MapReduce框架
- 3.3 MapReduce进阶
- 3.4 小结
- 第4章 Spark 内存计算
- 4.1 Spark基础
- 4.2 基于PySpark的交互性Spark
- 4.3 编写Spark应用程序
- 4.4 小结
- 第5章 分布式分析和模式
- 5.1 键计算
- 5.2 设计模式
- 5.3 迈向最后一英里分析
- 5.4 小结
- 第二部分 大数据科学的工作流和工具
- 第6章 数据挖掘和数据仓储
- 6.1 Hive结构化数据查询
- 6.2 HBase
- 6.3 小结
- 第7章 数据采集
- 7.1 使用Sqoop导入关系数据
- 7.2 使用Flume获取流式数据
- 7.3 小结
- 第8章 使用高级 API 进行分析
- 8.1 Pig
- 8.2 Spark高级API
- 8.3 小结
- 第9章 机器学习
- 9.1 使用Spark进行可扩展的机器学习
- 9.2 小结
- 第10章 总结:分布式数据科学实战
- 10.1 数据产品生命周期
- 10.2 机器学习生命周期
- 10.3 小结
- 附录 A 创建 Hadoop 伪分布式开发环境
- A.1 快速上手
- A.2 设置Linux环境
- A.2.1 创建Hadoop用户
- A.2.2 配置SSH
- A.2.3 安装Java
- A.2.4 禁用IPv6
- A.3 安装Hadoop
- A.3.1 解压
- A.3.2 环境
- A.3.3 Hadoop配置
- A.3.4 格式化NameNode
- A.3.5 启动Hadoop
- A.3.6 重启Hadoop
- 附录 B 安装 Hadoop 生态系统产品
- B.1 打包的Hadoop发行版
- B.2 自己安装Apache Hadoop生态系统产品
- B.2.1 基本安装和配置步骤
- B.2.2 Sqoop特定配置
- B.2.3 Hive特定配置
- B.2.4 HBase特定配置
- B.2.5 安装Spark
- 术语表
- 关于作者
- 关于封面
展开全部
出版方
人民邮电出版社·图灵出品
图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。