展开全部

主编推荐语

系统、完整的数据科学与大数据技术专业解决方案。深入浅出,有效降低Spark技术学习门槛。

内容简介

本书以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。

全书共8章,内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming、Spark MLlib等。

目录

  • 版权信息
  • 内容提要
  • 教育部高等学校计算机类专业教学指导委员会-华为ICT产学合作项目 数据科学与大数据技术专业系列规划教材 编委会
  • 丛书序一
  • 丛书序二
  • 前言
  • 第1章 大数据技术概述
  • 1.1 大数据的概念与关键技术
  • 1.1.1 大数据的概念
  • 1.1.2 大数据关键技术
  • 1.2 代表性大数据技术
  • 1.2.1 Hadoop
  • 1.2.2 Spark
  • 1.2.3 Flink
  • 1.2.4 Beam
  • 1.3 编程语言的选择
  • 1.4 在线资源
  • 1.5 本章小结
  • 1.6 习题
  • 实验1 Linux系统的安装和常用命令
  • 一、实验目的
  • 二、实验平台
  • 三、实验内容和要求
  • 四、实验报告
  • 第2章 Spark的设计与运行原理
  • 2.1 概述
  • 2.2 Spark生态系统
  • 2.3 Spark运行架构
  • 2.3.1 基本概念
  • 2.3.2 架构设计
  • 2.3.3 Spark运行基本流程
  • 2.3.4 RDD的设计与运行原理
  • 2.4 Spark的部署方式
  • 2.5 本章小结
  • 2.6 习题
  • 第3章 Spark环境搭建和使用方法
  • 3.1 安装Spark
  • 3.1.1 基础环境
  • 3.1.2 下载安装文件
  • 3.1.3 配置相关文件
  • 3.1.4 Spark和Hadoop的交互
  • 3.2 在spark-shell中运行代码
  • 3.2.1 spark-shell命令
  • 3.2.2 启动spark-shell
  • 3.3 开发Spark独立应用程序
  • 3.3.1 安装编译打包工具
  • 3.3.2 编写Spark应用程序代码
  • 3.3.3 编译打包
  • 3.3.4 通过spark-submit运行程序
  • 3.4 Spark集群环境搭建
  • 3.4.1 集群概况
  • 3.4.2 搭建Hadoop集群
  • 3.4.3 在集群中安装Spark
  • 3.4.4 配置环境变量
  • 3.4.5 Spark的配置
  • 3.4.6 启动Spark集群
  • 3.4.7 关闭Spark集群
  • 3.5 在集群上运行Spark应用程序
  • 3.5.1 启动Spark集群
  • 3.5.2 采用独立集群管理器
  • 3.5.3 采用Hadoop YARN管理器
  • 3.6 本章小结
  • 3.7 习题
  • 实验2 Spark和Hadoop的安装
  • 一、实验目的
  • 二、实验平台
  • 三、实验内容和要求
  • 四、实验报告
  • 第4章 RDD编程
  • 4.1 RDD编程基础
  • 4.1.1 RDD创建
  • 4.1.2 RDD操作
  • 4.1.3 持久化
  • 4.1.4 分区
  • 4.1.5 一个综合实例
  • 4.2 键值对RDD
  • 4.2.1 键值对RDD的创建
  • 4.2.2 常用的键值对转换操作
  • 4.2.3 一个综合实例
  • 4.3 数据读写
  • 4.3.1 文件数据读写
  • 4.3.2 读写HBase数据
  • 4.4 综合实例
  • 4.4.1 求TOP值
  • 4.4.2 文件排序
  • 4.4.3 二次排序
  • 4.5 本章小结
  • 实验3 RDD编程初级实践
  • 一、实验目的
  • 二、实验平台
  • 三、实验内容和要求
  • 四、实验报告
  • 第5章 Spark SQL
  • 5.1 Spark SQL简介
  • 5.1.1 从Shark说起
  • 5.1.2 Spark SQL架构
  • 5.1.3 为什么推出Spark SQL
  • 5.2 DataFrame概述
  • 5.3 DataFrame的创建
  • 5.4 DataFrame的保存
  • 5.5 DataFrame的常用操作
  • 5.6 从RDD转换得到DataFrame
  • 5.6.1 利用反射机制推断RDD模式
  • 5.6.2 使用编程方式定义RDD模式
  • 5.7 使用Spark SQL读写数据库
  • 5.7.1 通过JDBC连接数据库
  • 5.7.2 连接Hive读写数据
  • 5.8 本章小结
  • 5.9 习题
  • 实验4 Spark SQL编程初级实践
  • 一、实验目的
  • 二、实验平台
  • 三、实验内容和要求
  • 四、实验报告
  • 第6章 Spark Streaming
  • 6.1 流计算概述
  • 6.1.1 静态数据和流数据
  • 6.1.2 批量计算和实时计算
  • 6.1.3 流计算概念
  • 6.1.4 流计算框架
  • 6.1.5 流计算处理流程
  • 6.2 Spark Streaming
  • 6.2.1 Spark Streaming设计
  • 6.2.2 Spark Streaming与Storm的对比
  • 6.2.3 从“Hadoop+Storm”架构转向Spark架构
  • 6.3 DStream操作概述
  • 6.3.1 Spark Streaming工作机制
  • 6.3.2 编写Spark Streaming程序的基本步骤
  • 6.3.3 创建StreamingContext对象
  • 6.4 基本输入源
  • 6.4.1 文件流
  • 6.4.2 套接字流
  • 6.4.3 RDD队列流
  • 6.5 高级数据源
  • 6.5.1 Kafka简介
  • 6.5.2 Kafka准备工作
  • 6.5.3 Spark准备工作
  • 6.5.4 编写Spark Streaming程序使用Kafka数据源
  • 6.6 转换操作
  • 6.6.1 DStream无状态转换操作
  • 6.6.2 DStream有状态转换操作
  • 6.7 输出操作
  • 6.7.1 把DStream输出到文本文件中
  • 6.7.2 把DStream写入到关系数据库中
  • 6.8 本章小结
  • 6.9 习题
  • 实验5 Spark Streaming编程初级实践
  • 一、实验目的
  • 二、实验平台
  • 三、实验内容和要求
  • 四、实验报告
  • 第7章 Spark MLlib
  • 7.1 基于大数据的机器学习
  • 7.2 机器学习库MLlib概述
  • 7.3 基本数据类型
  • 7.3.1 本地向量
  • 7.3.2 标注点
  • 7.3.3 本地矩阵
  • 7.4 机器学习流水线
  • 7.4.1 流水线的概念
  • 7.4.2 流水线工作过程
  • 7.5 特征提取、转换和选择
  • 7.5.1 特征提取
  • 7.5.2 特征转换
  • 7.5.3 特征选择
  • 7.5.4 局部敏感哈希
  • 7.6 分类算法
  • 7.6.1 逻辑斯蒂回归分类器
  • 7.6.2 决策树分类器
  • 7.7 聚类算法
  • 7.7.1 K-Means聚类算法
  • 7.7.2 GMM聚类算法
  • 7.8 协同过滤算法
  • 7.8.1 推荐算法的原理
  • 7.8.2 ALS算法
  • 7.9 模型选择和超参数调整
  • 7.9.1 模型选择工具
  • 7.9.2 用交叉验证选择模型
  • 7.10 本章小结
  • 7.11 习题
  • 实验6 Spark机器学习库MLlib编程实践
  • 一、实验目的
  • 二、实验平台
  • 三、实验内容和要求
  • 四、实验报告
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分
  • 加载中...

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。