展开全部

主编推荐语

本书适合大数据领域初学者,一本书读懂大数据。

内容简介

随着大数据技术的普及,它已经被广泛应用于互联网、电信、金融、工业制造等诸多行业。据相关报告统计,大数据人才需求呈井喷态势,越来越多的程序员开始学习大数据技术,这使得它已经成为程序员所需的基本技能。为了满足大数据人才市场需求,越来越多的大数据技术书籍不断面世,包括《Hadoop权威指南》《Hadoop实战》等。尽管如此,面向初、中级学者,能够系统化、体系化介绍大数据技术的基础书籍并不多见。笔者曾接触过大量大数据初学者,他们一直渴望能有一本简单且易于理解的教科书式的大数据书籍出现。为了满足这些读者的需求,笔者根据自己多年的数据项目和培训经验,继《Hadoop技术内幕》书籍之后,于两年前开始尝试编写一本浅显易读的大数据基础书籍。

目录

  • 版权信息
  • 前言
  • 第一部分 概述篇
  • 第1章 企业级大数据技术体系概述
  • 1.1 大数据系统产生背景及应用场景
  • 1.2 企业级大数据技术框架
  • 1.3 企业级大数据技术实现方案
  • 1.4 大数据架构:Lambda Architecture
  • 1.5 Hadoop与Spark版本选择及安装部署
  • 1.6 小结
  • 1.7 本章问题
  • 第二部分 数据收集篇
  • 第2章 关系型数据的收集
  • 2.1 Sqoop概述
  • 2.2 Sqoop基本架构
  • 2.3 Sqoop使用方式
  • 2.4 数据增量收集CDC
  • 2.5 小结
  • 2.6 本章问题
  • 第3章 非关系型数据的收集
  • 3.1 概述
  • 3.2 Flume NG基本架构
  • 3.3 Flume NG数据流拓扑构建方法
  • 3.4 小结
  • 3.5 本章问题
  • 第4章 分布式消息队列Kafka
  • 4.1 概述
  • 4.2 Kafka设计架构
  • 4.3 Kafka程序设计
  • 4.4 Kafka典型应用场景
  • 4.5 小结
  • 4.6 本章问题
  • 第三部分 数据存储篇
  • 第5章 数据序列化与文件存储格式
  • 5.1 数据序列化的意义
  • 5.2 数据序列化方案
  • 5.3 文件存储格式剖析
  • 5.4 小结
  • 5.5 本章问题
  • 第6章 分布式文件系统
  • 6.1 背景
  • 6.2 文件级别和块级别的分布式文件系统
  • 6.3 HDFS基本架构
  • 6.4 HDFS关键技术
  • 6.5 HDFS访问方式
  • 6.6 小结
  • 6.7 本章问题
  • 第7章 分布式结构化存储系统
  • 7.1 背景
  • 7.2 HBase数据模型
  • 7.3 HBase基本架构
  • 7.4 HBase访问方式
  • 7.5 HBase应用案例
  • 7.6 分布式列式存储系统Kudu
  • 7.7 小结
  • 7.8 本章问题
  • 第四部分 分布式协调与资源管理篇
  • 第8章 分布式协调服务ZooKeeper
  • 8.1 分布式协调服务的存在意义
  • 8.2 ZooKeeper数据模型
  • 8.3 ZooKeeper基本架构
  • 8.4 ZooKeeper程序设计
  • 8.5 ZooKeeper应用案例
  • 8.6 小结
  • 8.7 本章问题
  • 第9章 资源管理与调度系统YARN
  • 9.1 YARN产生背景
  • 9.2 YARN设计思想
  • 9.3 YARN的基本架构与原理
  • 9.4 YARN资源调度器
  • 9.5 YARN资源隔离
  • 9.6 以YARN为核心的生态系统
  • 9.7 资源管理系统Mesos
  • 9.8 资源管理系统架构演化
  • 9.9 小结
  • 9.10 本章问题
  • 第五部分 大数据计算引擎篇
  • 第10章 批处理引擎MapReduce
  • 10.1 概述
  • 10.2 MapReduce编程模型
  • 10.3 MapReduce程序设计
  • 10.4 MapReduce内部原理
  • 10.5 MapReduce应用实例
  • 10.6 小结
  • 10.7 本章问题
  • 第11章 DAG计算引擎Spark
  • 11.1 概述
  • 11.2 Spark编程模型
  • 11.3 Spark运行模式
  • 11.4 Spark程序设计实例
  • 11.5 Spark内部原理
  • 11.6 DataFrame、Dataset与SQL
  • 11.7 Spark生态系统
  • 11.8 小结
  • 11.9 本章问题
  • 第12章 交互式计算引擎
  • 12.1 概述
  • 12.2 ROLAP
  • 12.3 MOLAP
  • 12.4 小结
  • 12.5 本章问题
  • 第13章 流式实时计算引擎
  • 13.1 概述
  • 13.2 Storm基础与实战
  • 13.3 Spark Streaming基础与实战
  • 13.4 流式计算引擎对比
  • 13.5 小结
  • 13.6 本章问题
  • 第六部分 数据分析篇
  • 第14章 数据分析语言HQL与SQL
  • 14.1 概述
  • 14.2 Hive架构
  • 14.3 Spark SQL架构
  • 14.4 HQL
  • 14.5 小结
  • 14.6 本章问题
  • 第15章 大数据统一编程模型
  • 15.1 产生背景
  • 15.2 Apache Beam基本构成
  • 15.3 Apache Beam编程模型
  • 15.4 Apache Beam流式计算模型
  • 15.5 Apache Beam编程实例
  • 15.6 小结
  • 15.7 本章问题
  • 第16章 大数据机器学习库
  • 16.1 机器学习库简介
  • 16.2 MLLib机器学习库
  • 16.3 小结
  • 16.4 本章问题
展开全部

评分及书评

4.0
3个评分
  • 用户头像
    给这本书评了
    3.0
    大数据领域的概览型图书—推荐新同学们看

    对于每个组件,都没有讲到原理底层,所以这本书定位人群可能是大数据行业的刚入坑的新人。


    例如日志收集。数据仓库.ETL. 数据分析与 BI 这是传统意义上的数据计算总线。但随着新技术的不断涌现和老技术升级,这本书的 “过时” 性也是很容易的 — 比如第四章 Kafka 部分。
    其优点也很明显,作者董西成也是一位很有名气的大数据领域作者,在他的个人网站中仍然有不少干货文章排名在搜索引擎 Top。 只不过这本书他选择了专业广度优先而非专业深度
    优先。

    所以此书并不是某个技术工具书,而是概要介绍,组件组合的设计之书。
    望大家阅读时也可以明确自己的看书目的再决定。

      1
      评论
      用户头像
      给这本书评了
      5.0

      随着大数据技术的普及,它已经被广泛应用于互联网、电信、金融、工业制造等诸多行业。据相关报告统计,大数据人才需求呈井喷态势,越来越多的程序员开始学习大数据技术,这使得它已经成为程序员所需的基本技能。为了满足大数据人才市场需求,越来越多的大数据技术书籍不断面世,包括《Hadoop 权威指南》《Hadoop 实战》等。尽管如此,面向初、中级学者,能够系统化、体系化介绍大数据技术的基础书籍并不多见。

        转发
        评论

      出版方

      机械工业出版社华章分社

      北京华章图文信息有限公司成立于1995年10月,是机械工业出版社与(美国)万国图文信息有限公司共同投资建立的合资企业。公司总部位于北京,主要从事科技、经管、心理领域图书的出版服务业务。