展开全部

主编推荐语

为企业大数据技术选型和大数据平台构建提供成熟的解决方案,包含大量实用案例。

内容简介

本书分为三大部分,共九章。第壹部分(第1章)主要介绍了企业大数据系统的前期准备工作,包括如何构建企业大数据处理系统的软件环境和集群环境。第二部分(第2~7章)首先介绍了Spark的基本原理,Spark2.0版本的SparkSQL、StructuredStreaming原理和使用方法,以及Spark的多种优化方式;然后,介绍了Druid的基本原理、集群的搭建过程、数据摄入过程,以及在查询过程中如何实现Druid查询API;接着介绍了日志收集系统Flume的基本架构和关键组件,以及分层日志收集架构的设计与实践;后介绍了分布式消息队列Kafka的基本架构和集群搭建过程,以及使用Java语言实现客户端API的详细过程。第三部分(第8~9章)主要介绍了企业大数据处理的两个实际应用案例,分别是基于Druid构建多维数据分析平台和基于JMX指标的监控系统。

目录

  • 版权信息
  • 前言
  • 第一部分 准备工作
  • 第1章 基础环境准备
  • 1.1 软件环境准备
  • 1.2 集群环境准备
  • 1.3 小结
  • 第二部分 核心技术
  • 第2章 Spark详解
  • 2.1 Spark概述
  • 2.2 Spark SQL
  • 2.3 Structured Streaming
  • 2.4 Spark优化
  • 2.5 小结
  • 第3章 Druid原理及部署
  • 3.1 架构设计
  • 3.2 集群部署
  • 3.3 小结
  • 第4章 Druid数据摄入
  • 4.1 模式设计
  • 4.2 批量数据摄入
  • 4.3 流数据摄入
  • 4.4 数据更新
  • 4.5 小结
  • 第5章 Druid客户端
  • 5.1 涉及组件
  • 5.2 查询类型
  • 5.3 查询API
  • 5.4 小结
  • 第6章 日志收集
  • 6.1 Flume介绍
  • 6.2 Flume应用实践
  • 6.3 小结
  • 第7章 分布式消息队列
  • 7.1 Kafka介绍
  • 7.2 安装部署
  • 7.3 客户端API
  • 7.4 小结
  • 第三部分 项目实践
  • 第8章 数据平台
  • 8.1 需求分析
  • 8.2 功能实现
  • 8.3 小结
  • 第9章 监控系统
  • 9.1 InfluxDB
  • 9.2 JMXTrans
  • 9.3 Grafana
  • 9.4 小结
展开全部

评分及书评

评分不足
1个评分
  • 用户头像
    给这本书评了
    5.0

    随着开源社区的不断发展,越来越多的优秀项目被开源,以处理各种大数据场景下的问题和挑战。作为目前大数据生态系统内的早期开源项目,Hadoop 在廉价机器上实现了分布式数据存储和高性能分布式计算,大大降低了数据存储和计算成本。Hadoop 提供的分布式存储系统 HDFS、大数据集并行计算编程模型 MapReduce、资源调度框架 YARN 已经被广泛应用,为大数据生态系统的发展奠定了坚实的基础。

      转发
      评论

    出版方

    机械工业出版社有限公司

    机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。