展开全部

主编推荐语

深入Spark底层,打通大数据处理“任督二脉”,让你能开发出性能更好、可靠性更高的大数据应用。

内容简介

近年来,以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心,总结了大数据处理框架的基础知识、核心理论、典型的Spark应用,以及相关的性能和可靠性问题。

本书分9章,主要包含四部分内容。第一部分,大数据处理框架的基础知识(第1~2章):介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作,并以一个典型的Spark应用为例概述Spark应用的执行流程。第二部分,Spark大数据处理框架的核心理论(第3~4章):介绍Spark框架将应用程序转化为逻辑处理流程,进而转化为可并行执行的物理执行计划的一般过程及方法。第三部分,典型的Spark应用(第5章):介绍迭代型的Spark机器学习应用和图计算应用。第四部分,大数据处理框架性能和可靠性保障机制(第6~9章):介绍Spark框架的Shuffle机制、数据缓存机制、错误容忍机制、内存管理机制等。

目录

  • 版权信息
  • 内容简介
  • 前言
  • 读者服务
  • 第一部分 大数据处理框架的基础知识
  • 第1章 大数据处理框架概览
  • 1.1 大数据及其带来的挑战
  • 1.2 大数据处理框架
  • 1.3 大数据应用及编程模型
  • 1.4 大数据处理框架的四层结构
  • 1.5 错误容忍机制
  • 1.6 其他大数据处理框架
  • 1.7 本章小结
  • 1.8 扩展阅读
  • 第2章 Spark系统部署与应用运行的基本流程
  • 2.1 Spark安装部署
  • 2.2 Spark系统架构
  • 2.3 Spark应用例子
  • 2.4 Spark编程模型
  • 2.5 本章小结
  • 第二部分 Spark大数据处理框架的核心理论
  • 第3章 Spark逻辑处理流程
  • 3.1 Spark逻辑处理流程概览
  • 3.2 Spark逻辑处理流程生成方法
  • 3.3 常用transformation()数据操作
  • 3.4 常用action()数据操作
  • 3.5 对比MapReduce,Spark的优缺点
  • 3.6 本章小结
  • 3.7 扩展阅读
  • 第4章 Spark物理执行计划
  • 4.1 Spark物理执行计划概览
  • 4.2 Spark物理执行计划生成方法
  • 4.3 常用数据操作生成的物理执行计划
  • 4.4 本章小结
  • 4.5 扩展阅读
  • 第三部分 典型的Spark应用
  • 第5章 迭代型Spark应用
  • 5.1 迭代型Spark应用的分类及特点
  • 5.2 迭代型机器学习应用SparkLR
  • 5.3 迭代型机器学习应用——广义线性模型
  • 5.4 迭代型图计算应用——PageRank
  • 5.5 本章小结
  • 第四部分 大数据处理框架性能和可靠性保障机制
  • 第6章 Shuffle机制
  • 6.1 Shuffle的意义及设计挑战
  • 6.2 Shuffle的设计思想
  • 6.3 Spark中Shuffle框架的设计
  • 6.4 支持高效聚合和排序的数据结构
  • 6.5 与Hadoop MapReduce的Shuffle机制对比
  • 6.6 本章小结
  • 第7章 数据缓存机制
  • 7.1 数据缓存的意义
  • 7.2 数据缓存机制的设计原理
  • 7.3 与Hadoop MapReduce的缓存机制进行对比
  • 7.4 本章小结
  • 第8章 错误容忍机制
  • 8.1 错误容忍机制的意义及挑战
  • 8.2 错误容忍机制的设计思想
  • 8.3 重新计算机制
  • 8.4 checkpoint机制的设计与实现
  • 8.5 checkpoint与数据缓存的区别
  • 8.6 本章小结
  • 第9章 内存管理机制
  • 9.1 内存管理机制问题及挑战
  • 9.2 应用内存消耗来源及影响因素
  • 9.3 Spark框架内存管理模型
  • 9.4 Spark框架执行内存消耗与管理
  • 9.5 数据缓存空间管理
  • 9.6 本章小结
展开全部

评分及书评

4.7
7个评分
  • 用户头像
    给这本书评了
    4.0

    全书结合 RDD 的使用方式介绍了非常多的处理细节,图表丰富,极大降低了读者理解门槛,是想深入了解 spark 不错的书籍。比较遗憾的是没有结合最新的 spark 版本介绍新进的变化。

      转发
      评论
      用户头像
      给这本书评了
      5.0

      近年来,以 Apache Spark 为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以 Apache Spark 框架为核心,总结了大数据处理框架的基础知识、核心理论、典型的 Spark 应用,以及相关的性能和可靠性问题。本书分 9 章,主要包含四部分内容。

        转发
        评论
        用户头像
        给这本书评了
        5.0

        必须满分,技术原理类书籍应该向本书看齐

          转发
          评论
        • 查看全部4条书评

        出版方

        电子工业出版社

        电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。