展开全部

主编推荐语

本书循序渐进地介绍了新版ApacheSpark3.x的开发技术。

内容简介

全书共10章,第1章和第2章主要介绍Spark的基本概念、安装,并演示如何编写最简单的Spark程序。第3章深入探讨了Spark的核心组件RDD。第4章讲解了Spark集群管理,帮助读者理解任务提交与执行的基本原理。

第5章介绍了SparkSQL,这是处理结构化数据的基础工具。第6章展示了SparkWebUI,通过界面化的方式了解Spark集群运行状况。第7章和第8章分别介绍了Spark流式数据处理框架SparkStreaming和StructuredStreaming。

第9章和第10章则分别介绍了业界流行的机器学习和图计算处理框架MLlib和GraphX。书中各章节还提供了丰富的实战案例和上机练习题,以便读者在学习的同时进行实际操作,迅速提升动手能力。

目录

  • 版权信息
  • 作者简介
  • 内容简介
  • 前言
  • 第1章 Spark概述
  • 1.1 Spark简介
  • 1.2 Spark组成
  • 1.3 Spark数据类型
  • 1.4 Spark的使用场景
  • 1.5 Spark与Hadoop的联系与区别
  • 1.6 本章小结
  • 第2章 Spark安装及初体验
  • 2.1 下载并安装Spark
  • 2.2 通过Shell使用Spark
  • 2.3 实战:通过Spark进行词频统计
  • 2.4 日志信息详解
  • 2.5 动手练习
  • 2.6 本章小结
  • 第3章 RDD基础编程
  • 3.1 了解RDD的基本概念
  • 3.2 创建RDD
  • 3.3 操作RDD
  • 3.4 实战:transformation操作
  • 3.5 实战:action操作
  • 3.6 惰性求值
  • 3.7 函数式编程
  • 3.8 持久化
  • 3.9 实战:持久化
  • 3.10 共享变量
  • 3.11 混洗
  • 3.12 键—值对
  • 3.13 动手练习
  • 3.14 本章小结
  • 第4章 Spark集群管理
  • 4.1 Spark集群概述
  • 4.2 提交任务到Spark集群
  • 4.3 启动Spark集群
  • 4.4 Spark集群的高可用方案
  • 4.5 使用YARN集群
  • 4.6 YARN集群的常用配置
  • 4.7 YARN集群资源分配和配置
  • 4.8 YARN阶段级调度
  • 4.9 动手练习
  • 4.10 本章小结
  • 第5章 Spark SQL
  • 5.1 Spark SQL的基本概念及工作原理
  • 5.2 Dataset与DataFrame
  • 5.3 实战:DataFrame的基本操作
  • 5.4 实战:Dataset的基本操作
  • 5.5 实战:使用DataFrame创建临时视图
  • 5.6 实战:RDD转换为Dataset
  • 5.7 Apache Parquet列存储格式
  • 5.8 实战:Apache Parquet数据源的读取和写入
  • 5.9 实战:使用JDBC操作数据库
  • 5.10 实战:读取二进制文件
  • 5.11 实战:导出数据到CSV文件
  • 5.12 Apache ORC文件
  • 5.13 实战:Apache ORC文件操作示例
  • 5.14 Apache Hive数据仓库
  • 5.15 实战:Apache Hive操作示例
  • 5.16 Apache Avro格式
  • 5.17 实战:Apache Avro操作示例
  • 5.18 动手练习
  • 5.19 本章小结
  • 第6章 Spark Web UI
  • 6.1 Web UI概述
  • 6.2 启动Web UI
  • 6.3 Jobs页面
  • 6.4 Stages页面
  • 6.5 Storage页面
  • 6.6 Environment页面
  • 6.7 Executors页面
  • 6.8 SQL页面
  • 6.9 动手练习
  • 6.10 本章小结
  • 第7章 Spark Streaming
  • 7.1 Spark Streaming概述
  • 7.2 DStream的transformation操作
  • 7.3 DStream的输入
  • 7.4 实战:DStream无状态的transformation操作
  • 7.5 实战:DStream有状态的transformation操作
  • 7.6 DStream的输出操作
  • 7.7 实战:DStream的输出操作
  • 7.8 Spark Streaming使用DataFrame和SQL操作
  • 7.9 Spark Streaming检查点
  • 7.10 Spark Streaming性能优化
  • 7.11 Spark Streaming容错机制
  • 7.12 实战:Spark Streaming与Kafka集成
  • 7.13 动手练习
  • 7.14 本章小结
  • 第8章 Structured Streaming
  • 8.1 Structured Streaming概述
  • 8.2 创建流式DataFrame/Dataset
  • 8.3 Structured Streaming操作
  • 8.4 Structured Streaming统计来自Socket数据流的词频
  • 8.5 实战:Structured Streaming窗口操作
  • 8.6 Structured Streaming输出接收器
  • 8.7 消除重复数据
  • 8.8 状态存储
  • 8.9 启动流式查询
  • 8.10 异步进度跟踪
  • 8.11 连续处理
  • 8.12 实战:Structured Streaming与Kafka集成
  • 8.13 动手练习
  • 8.14 本章小结
  • 第9章 MLlib
  • 9.1 MLlib概述
  • 9.2 机器学习基础知识
  • 9.3 MLlib的RDD API和DataFrame API
  • 9.4 MLlib流水线
  • 9.5 实战:MLlib的Estimator例子
  • 9.6 实战:MLlib的Transformer例子
  • 9.7 实战:MLlib的Pipeline例子
  • 9.8 动手练习
  • 9.9 本章小结
  • 第10章 GraphX
  • 10.1 GraphX概述
  • 10.2 属性图
  • 10.3 实战:GraphX从边构建图
  • 10.4 GraphX分区优化
  • 10.5 动手练习
  • 10.6 本章小结
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。