互联网
类型
可以朗读
语音朗读
273千字
字数
2024-11-01
发行日期
展开全部
主编推荐语
本书循序渐进地介绍了新版ApacheSpark3.x的开发技术。
内容简介
全书共10章,第1章和第2章主要介绍Spark的基本概念、安装,并演示如何编写最简单的Spark程序。第3章深入探讨了Spark的核心组件RDD。第4章讲解了Spark集群管理,帮助读者理解任务提交与执行的基本原理。
第5章介绍了SparkSQL,这是处理结构化数据的基础工具。第6章展示了SparkWebUI,通过界面化的方式了解Spark集群运行状况。第7章和第8章分别介绍了Spark流式数据处理框架SparkStreaming和StructuredStreaming。
第9章和第10章则分别介绍了业界流行的机器学习和图计算处理框架MLlib和GraphX。书中各章节还提供了丰富的实战案例和上机练习题,以便读者在学习的同时进行实际操作,迅速提升动手能力。
目录
- 版权信息
- 作者简介
- 内容简介
- 前言
- 第1章 Spark概述
- 1.1 Spark简介
- 1.2 Spark组成
- 1.3 Spark数据类型
- 1.4 Spark的使用场景
- 1.5 Spark与Hadoop的联系与区别
- 1.6 本章小结
- 第2章 Spark安装及初体验
- 2.1 下载并安装Spark
- 2.2 通过Shell使用Spark
- 2.3 实战:通过Spark进行词频统计
- 2.4 日志信息详解
- 2.5 动手练习
- 2.6 本章小结
- 第3章 RDD基础编程
- 3.1 了解RDD的基本概念
- 3.2 创建RDD
- 3.3 操作RDD
- 3.4 实战:transformation操作
- 3.5 实战:action操作
- 3.6 惰性求值
- 3.7 函数式编程
- 3.8 持久化
- 3.9 实战:持久化
- 3.10 共享变量
- 3.11 混洗
- 3.12 键—值对
- 3.13 动手练习
- 3.14 本章小结
- 第4章 Spark集群管理
- 4.1 Spark集群概述
- 4.2 提交任务到Spark集群
- 4.3 启动Spark集群
- 4.4 Spark集群的高可用方案
- 4.5 使用YARN集群
- 4.6 YARN集群的常用配置
- 4.7 YARN集群资源分配和配置
- 4.8 YARN阶段级调度
- 4.9 动手练习
- 4.10 本章小结
- 第5章 Spark SQL
- 5.1 Spark SQL的基本概念及工作原理
- 5.2 Dataset与DataFrame
- 5.3 实战:DataFrame的基本操作
- 5.4 实战:Dataset的基本操作
- 5.5 实战:使用DataFrame创建临时视图
- 5.6 实战:RDD转换为Dataset
- 5.7 Apache Parquet列存储格式
- 5.8 实战:Apache Parquet数据源的读取和写入
- 5.9 实战:使用JDBC操作数据库
- 5.10 实战:读取二进制文件
- 5.11 实战:导出数据到CSV文件
- 5.12 Apache ORC文件
- 5.13 实战:Apache ORC文件操作示例
- 5.14 Apache Hive数据仓库
- 5.15 实战:Apache Hive操作示例
- 5.16 Apache Avro格式
- 5.17 实战:Apache Avro操作示例
- 5.18 动手练习
- 5.19 本章小结
- 第6章 Spark Web UI
- 6.1 Web UI概述
- 6.2 启动Web UI
- 6.3 Jobs页面
- 6.4 Stages页面
- 6.5 Storage页面
- 6.6 Environment页面
- 6.7 Executors页面
- 6.8 SQL页面
- 6.9 动手练习
- 6.10 本章小结
- 第7章 Spark Streaming
- 7.1 Spark Streaming概述
- 7.2 DStream的transformation操作
- 7.3 DStream的输入
- 7.4 实战:DStream无状态的transformation操作
- 7.5 实战:DStream有状态的transformation操作
- 7.6 DStream的输出操作
- 7.7 实战:DStream的输出操作
- 7.8 Spark Streaming使用DataFrame和SQL操作
- 7.9 Spark Streaming检查点
- 7.10 Spark Streaming性能优化
- 7.11 Spark Streaming容错机制
- 7.12 实战:Spark Streaming与Kafka集成
- 7.13 动手练习
- 7.14 本章小结
- 第8章 Structured Streaming
- 8.1 Structured Streaming概述
- 8.2 创建流式DataFrame/Dataset
- 8.3 Structured Streaming操作
- 8.4 Structured Streaming统计来自Socket数据流的词频
- 8.5 实战:Structured Streaming窗口操作
- 8.6 Structured Streaming输出接收器
- 8.7 消除重复数据
- 8.8 状态存储
- 8.9 启动流式查询
- 8.10 异步进度跟踪
- 8.11 连续处理
- 8.12 实战:Structured Streaming与Kafka集成
- 8.13 动手练习
- 8.14 本章小结
- 第9章 MLlib
- 9.1 MLlib概述
- 9.2 机器学习基础知识
- 9.3 MLlib的RDD API和DataFrame API
- 9.4 MLlib流水线
- 9.5 实战:MLlib的Estimator例子
- 9.6 实战:MLlib的Transformer例子
- 9.7 实战:MLlib的Pipeline例子
- 9.8 动手练习
- 9.9 本章小结
- 第10章 GraphX
- 10.1 GraphX概述
- 10.2 属性图
- 10.3 实战:GraphX从边构建图
- 10.4 GraphX分区优化
- 10.5 动手练习
- 10.6 本章小结
- 参考文献
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。
