展开全部

主编推荐语

本书提供了详细的案例,涵盖常见的Hadoop应用架构,为读者提供有益指导。

内容简介

本书就使用Apache Hadoop端到端数据管理方案提供专业架构指导。其他书籍大多针对Hadoop生态系统中的软件,讲解较为单一的使用方法,而本书偏重实践,在架构的高度详细阐释诸多工具如何相互配合,搭建出打磨之后的完整应用。书中提供了诸多案例,易于理解,配有详细的代码解析,知识点一目了然。

目录

  • 版权信息
  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 译者序
  • 前言
  • 第一部分 考虑 Hadoop 应用的架构设计
  • 第 1 章 Hadoop 数据建模
  • 1.1 数据存储选型
  • 1.2 HDFS模式设计
  • 1.3 HBase模式设计
  • 1.4 元数据管理
  • 1.5 结论
  • 第 2 章 Hadoop 数据移动
  • 2.1 数据采集考量
  • 2.2 数据采集选择
  • 2.3 数据导出
  • 2.4 小结
  • 第 3 章 Hadoop 数据处理
  • 3.1 MapReduce
  • 3.2 Spark
  • 3.3 抽象层
  • 3.4 Crunch
  • 3.5 Cascading
  • 3.6 Hive
  • 3.7 Impala
  • 3.8 小结
  • 第 4 章 Hadoop 数据处理通用范式
  • 4.1 模式一:依主键移除重复记录
  • 4.2 模式二:数据开窗分析
  • 4.3 模式三:基于时间序列的更新
  • 4.4 小结
  • 第 5 章 Hadoop 图处理
  • 5.1 什么是图
  • 5.2 什么是图处理
  • 5.3 分布式系统中的图处理
  • 5.4 Giraph
  • 5.5 GraphX
  • 5.6 工具选择
  • 5.7 小结
  • 第 6 章 协调调度
  • 6.1 工作流协调调度的必要性
  • 6.2 脚本的局限性
  • 6.3 企业级任务调度器及Hadoop
  • 6.4 Hadoop生态系统中的工作流框架
  • 6.5 Oozie术语
  • 6.6 Oozie概述
  • 6.7 Oozie工作流
  • 6.8 工作流范式
  • 6.9 工作流参数化
  • 6.10 Classpath定义
  • 6.11 调度模式
  • 6.12 执行工作流
  • 6.13 小结
  • 第 7 章 Hadoop 近实时处理
  • 7.1 流处理
  • 7.2 Apache Storm
  • 7.3 Trident接口
  • 7.4 Spark Streaming
  • 7.5 Flume拦截器
  • 7.6 工具选择
  • 7.7 小结
  • 第二部分 案例研究
  • 第 8 章 点击流分析
  • 8.1 用例场景定义
  • 8.2 使用Hadoop进行点击流分析
  • 8.3 设计概述
  • 8.4 数据存储
  • 8.5 数据采集
  • 8.6 数据处理
  • 8.7 数据分析
  • 8.8 协调调度
  • 8.9 小结
  • 第 9 章 欺诈检测
  • 9.1 持续改善
  • 9.2 开始行动
  • 9.4 用例介绍
  • 9.4 用例介绍
  • 9.5 架构设计
  • 9.6 客户端架构
  • 9.7 画像存储及访问
  • 9.8 数据采集
  • 9.9 近实时处理与探索性分析
  • 9.10 近实时处理
  • 9.11 探索性分析
  • 9.12 其他架构对比
  • 9.13 小结
  • 第 10 章 数据仓库
  • 10.1 使用Hadoop构建数据仓库
  • 10.2 用例场景定义
  • 10.3 OLTP模式
  • 10.4 数据仓库:术语介绍
  • 10.5 数据仓库的Hadoop实践
  • 10.6 架构设计
  • 10.7 小结
  • 附录 A Impala 中的关联
  • A.1 广播式关联
  • A.2 分区后散列关联
  • 作者简介
  • 封面介绍
  • 看完了
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社·图灵出品

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。