互联网
类型
7.9
豆瓣评分
可以朗读
语音朗读
310千字
字数
2017-01-01
发行日期
展开全部
主编推荐语
本书提供了详细的案例,涵盖常见的Hadoop应用架构,为读者提供有益指导。
内容简介
本书就使用Apache Hadoop端到端数据管理方案提供专业架构指导。其他书籍大多针对Hadoop生态系统中的软件,讲解较为单一的使用方法,而本书偏重实践,在架构的高度详细阐释诸多工具如何相互配合,搭建出打磨之后的完整应用。书中提供了诸多案例,易于理解,配有详细的代码解析,知识点一目了然。
目录
- 版权信息
- 版权声明
- O'Reilly Media, Inc. 介绍
- 译者序
- 序
- 前言
- 第一部分 考虑 Hadoop 应用的架构设计
- 第 1 章 Hadoop 数据建模
- 1.1 数据存储选型
- 1.2 HDFS模式设计
- 1.3 HBase模式设计
- 1.4 元数据管理
- 1.5 结论
- 第 2 章 Hadoop 数据移动
- 2.1 数据采集考量
- 2.2 数据采集选择
- 2.3 数据导出
- 2.4 小结
- 第 3 章 Hadoop 数据处理
- 3.1 MapReduce
- 3.2 Spark
- 3.3 抽象层
- 3.4 Crunch
- 3.5 Cascading
- 3.6 Hive
- 3.7 Impala
- 3.8 小结
- 第 4 章 Hadoop 数据处理通用范式
- 4.1 模式一:依主键移除重复记录
- 4.2 模式二:数据开窗分析
- 4.3 模式三:基于时间序列的更新
- 4.4 小结
- 第 5 章 Hadoop 图处理
- 5.1 什么是图
- 5.2 什么是图处理
- 5.3 分布式系统中的图处理
- 5.4 Giraph
- 5.5 GraphX
- 5.6 工具选择
- 5.7 小结
- 第 6 章 协调调度
- 6.1 工作流协调调度的必要性
- 6.2 脚本的局限性
- 6.3 企业级任务调度器及Hadoop
- 6.4 Hadoop生态系统中的工作流框架
- 6.5 Oozie术语
- 6.6 Oozie概述
- 6.7 Oozie工作流
- 6.8 工作流范式
- 6.9 工作流参数化
- 6.10 Classpath定义
- 6.11 调度模式
- 6.12 执行工作流
- 6.13 小结
- 第 7 章 Hadoop 近实时处理
- 7.1 流处理
- 7.2 Apache Storm
- 7.3 Trident接口
- 7.4 Spark Streaming
- 7.5 Flume拦截器
- 7.6 工具选择
- 7.7 小结
- 第二部分 案例研究
- 第 8 章 点击流分析
- 8.1 用例场景定义
- 8.2 使用Hadoop进行点击流分析
- 8.3 设计概述
- 8.4 数据存储
- 8.5 数据采集
- 8.6 数据处理
- 8.7 数据分析
- 8.8 协调调度
- 8.9 小结
- 第 9 章 欺诈检测
- 9.1 持续改善
- 9.2 开始行动
- 9.4 用例介绍
- 9.4 用例介绍
- 9.5 架构设计
- 9.6 客户端架构
- 9.7 画像存储及访问
- 9.8 数据采集
- 9.9 近实时处理与探索性分析
- 9.10 近实时处理
- 9.11 探索性分析
- 9.12 其他架构对比
- 9.13 小结
- 第 10 章 数据仓库
- 10.1 使用Hadoop构建数据仓库
- 10.2 用例场景定义
- 10.3 OLTP模式
- 10.4 数据仓库:术语介绍
- 10.5 数据仓库的Hadoop实践
- 10.6 架构设计
- 10.7 小结
- 附录 A Impala 中的关联
- A.1 广播式关联
- A.2 分区后散列关联
- 作者简介
- 封面介绍
- 看完了
展开全部
出版方
人民邮电出版社·图灵出品
图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。