互联网
类型
可以朗读
语音朗读
222千字
字数
2018-07-01
发行日期
展开全部
主编推荐语
系统、完整的数据科学与大数据技术专业解决方案。深入浅出,有效降低Spark技术学习门槛。
内容简介
本书以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。
全书共8章,内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming、Spark MLlib等。
目录
- 版权信息
- 内容提要
- 教育部高等学校计算机类专业教学指导委员会-华为ICT产学合作项目 数据科学与大数据技术专业系列规划教材 编委会
- 丛书序一
- 丛书序二
- 前言
- 第1章 大数据技术概述
- 1.1 大数据的概念与关键技术
- 1.1.1 大数据的概念
- 1.1.2 大数据关键技术
- 1.2 代表性大数据技术
- 1.2.1 Hadoop
- 1.2.2 Spark
- 1.2.3 Flink
- 1.2.4 Beam
- 1.3 编程语言的选择
- 1.4 在线资源
- 1.5 本章小结
- 1.6 习题
- 实验1 Linux系统的安装和常用命令
- 一、实验目的
- 二、实验平台
- 三、实验内容和要求
- 四、实验报告
- 第2章 Spark的设计与运行原理
- 2.1 概述
- 2.2 Spark生态系统
- 2.3 Spark运行架构
- 2.3.1 基本概念
- 2.3.2 架构设计
- 2.3.3 Spark运行基本流程
- 2.3.4 RDD的设计与运行原理
- 2.4 Spark的部署方式
- 2.5 本章小结
- 2.6 习题
- 第3章 Spark环境搭建和使用方法
- 3.1 安装Spark
- 3.1.1 基础环境
- 3.1.2 下载安装文件
- 3.1.3 配置相关文件
- 3.1.4 Spark和Hadoop的交互
- 3.2 在spark-shell中运行代码
- 3.2.1 spark-shell命令
- 3.2.2 启动spark-shell
- 3.3 开发Spark独立应用程序
- 3.3.1 安装编译打包工具
- 3.3.2 编写Spark应用程序代码
- 3.3.3 编译打包
- 3.3.4 通过spark-submit运行程序
- 3.4 Spark集群环境搭建
- 3.4.1 集群概况
- 3.4.2 搭建Hadoop集群
- 3.4.3 在集群中安装Spark
- 3.4.4 配置环境变量
- 3.4.5 Spark的配置
- 3.4.6 启动Spark集群
- 3.4.7 关闭Spark集群
- 3.5 在集群上运行Spark应用程序
- 3.5.1 启动Spark集群
- 3.5.2 采用独立集群管理器
- 3.5.3 采用Hadoop YARN管理器
- 3.6 本章小结
- 3.7 习题
- 实验2 Spark和Hadoop的安装
- 一、实验目的
- 二、实验平台
- 三、实验内容和要求
- 四、实验报告
- 第4章 RDD编程
- 4.1 RDD编程基础
- 4.1.1 RDD创建
- 4.1.2 RDD操作
- 4.1.3 持久化
- 4.1.4 分区
- 4.1.5 一个综合实例
- 4.2 键值对RDD
- 4.2.1 键值对RDD的创建
- 4.2.2 常用的键值对转换操作
- 4.2.3 一个综合实例
- 4.3 数据读写
- 4.3.1 文件数据读写
- 4.3.2 读写HBase数据
- 4.4 综合实例
- 4.4.1 求TOP值
- 4.4.2 文件排序
- 4.4.3 二次排序
- 4.5 本章小结
- 实验3 RDD编程初级实践
- 一、实验目的
- 二、实验平台
- 三、实验内容和要求
- 四、实验报告
- 第5章 Spark SQL
- 5.1 Spark SQL简介
- 5.1.1 从Shark说起
- 5.1.2 Spark SQL架构
- 5.1.3 为什么推出Spark SQL
- 5.2 DataFrame概述
- 5.3 DataFrame的创建
- 5.4 DataFrame的保存
- 5.5 DataFrame的常用操作
- 5.6 从RDD转换得到DataFrame
- 5.6.1 利用反射机制推断RDD模式
- 5.6.2 使用编程方式定义RDD模式
- 5.7 使用Spark SQL读写数据库
- 5.7.1 通过JDBC连接数据库
- 5.7.2 连接Hive读写数据
- 5.8 本章小结
- 5.9 习题
- 实验4 Spark SQL编程初级实践
- 一、实验目的
- 二、实验平台
- 三、实验内容和要求
- 四、实验报告
- 第6章 Spark Streaming
- 6.1 流计算概述
- 6.1.1 静态数据和流数据
- 6.1.2 批量计算和实时计算
- 6.1.3 流计算概念
- 6.1.4 流计算框架
- 6.1.5 流计算处理流程
- 6.2 Spark Streaming
- 6.2.1 Spark Streaming设计
- 6.2.2 Spark Streaming与Storm的对比
- 6.2.3 从“Hadoop+Storm”架构转向Spark架构
- 6.3 DStream操作概述
- 6.3.1 Spark Streaming工作机制
- 6.3.2 编写Spark Streaming程序的基本步骤
- 6.3.3 创建StreamingContext对象
- 6.4 基本输入源
- 6.4.1 文件流
- 6.4.2 套接字流
- 6.4.3 RDD队列流
- 6.5 高级数据源
- 6.5.1 Kafka简介
- 6.5.2 Kafka准备工作
- 6.5.3 Spark准备工作
- 6.5.4 编写Spark Streaming程序使用Kafka数据源
- 6.6 转换操作
- 6.6.1 DStream无状态转换操作
- 6.6.2 DStream有状态转换操作
- 6.7 输出操作
- 6.7.1 把DStream输出到文本文件中
- 6.7.2 把DStream写入到关系数据库中
- 6.8 本章小结
- 6.9 习题
- 实验5 Spark Streaming编程初级实践
- 一、实验目的
- 二、实验平台
- 三、实验内容和要求
- 四、实验报告
- 第7章 Spark MLlib
- 7.1 基于大数据的机器学习
- 7.2 机器学习库MLlib概述
- 7.3 基本数据类型
- 7.3.1 本地向量
- 7.3.2 标注点
- 7.3.3 本地矩阵
- 7.4 机器学习流水线
- 7.4.1 流水线的概念
- 7.4.2 流水线工作过程
- 7.5 特征提取、转换和选择
- 7.5.1 特征提取
- 7.5.2 特征转换
- 7.5.3 特征选择
- 7.5.4 局部敏感哈希
- 7.6 分类算法
- 7.6.1 逻辑斯蒂回归分类器
- 7.6.2 决策树分类器
- 7.7 聚类算法
- 7.7.1 K-Means聚类算法
- 7.7.2 GMM聚类算法
- 7.8 协同过滤算法
- 7.8.1 推荐算法的原理
- 7.8.2 ALS算法
- 7.9 模型选择和超参数调整
- 7.9.1 模型选择工具
- 7.9.2 用交叉验证选择模型
- 7.10 本章小结
- 7.11 习题
- 实验6 Spark机器学习库MLlib编程实践
- 一、实验目的
- 二、实验平台
- 三、实验内容和要求
- 四、实验报告
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。