计算机
类型
可以朗读
语音朗读
321千字
字数
2020-09-01
发行日期
展开全部
主编推荐语
Spark入门基础书籍-学编程概念与实际开发
内容简介
本书是Spark技术入门的基础类书籍,通过本书的学习实验可以牢固掌握Spark编程技术的基本概念、原理和编程方法,能够进行应用程序的实际开发。
目录
- 封面页
- 书名页
- 版权页
- 内容简介
- 前言
- 目录
- 第1章 Spark生态环境
- 1.1 平台设计
- 1.2 Spark简介
- 1.2.1 技术特性
- 1.2.2 数据格式
- 1.2.3 编程语言
- 1.3 虚拟环境
- 1.3.1 发展历史
- 1.3.2 技术特征
- 1.3.3 技术架构
- 1.3.4 管理命令
- 1.4 HBase技术
- 1.4.1 系统架构
- 1.4.2 存储机制
- 1.4.3 常用命令
- 1.5 环境部署
- 1.6 小结
- 第2章 理解Spark
- 2.1 数据处理
- 2.1.1 MapReduce
- 2.1.2 工作机制
- 2.2 认识RDD
- 2.3 操作RDD
- 2.3.1 转换
- 2.3.2 动作
- 2.4 Scala编程
- 2.4.1 面向对象编程
- 2.4.2 函数式编程
- 2.4.3 集合类
- 2.5 案例分析
- 2.5.1 启动交换界面
- 2.5.2 SparkContext和SparkSession
- 2.5.3 加载数据
- 2.5.4 应用操作
- 2.5.5 缓存处理
- 2.6 小结
- 第3章 键值对与分区
- 3.1 键值对RDD
- 3.1.1 创建
- 3.1.2 转换
- 3.1.3 动作
- 3.2 分区和洗牌
- 3.2.1 分区
- 3.2.2 洗牌
- 3.3 共享变量
- 3.3.1 广播变量
- 3.3.2 累加器
- 3.4 Scala高级语法
- 3.4.1 高阶函数
- 3.4.2 泛型类
- 3.4.3 隐式转换
- 3.5 案例分析
- 3.5.1 检查事件数据
- 3.5.2 reduceByKey和groupByKey
- 3.5.3 三种连接转换
- 3.5.4 执行几个动作
- 3.5.5 跨节点分区
- 3.6 小结
- 第4章 关系型数据处理
- 4.1 Spark SQL概述
- 4.1.1 CataIyst优化器
- 4.1.2 DataFrame与DataSet
- 4.1.3 创建结构化数据
- 4.2 结构化数据操作
- 4.2.1 选取列
- 4.2.2 选择语句(seIect、seIectExpr)
- 4.2.3 操作列(withCoIumn、withCoIumnRenamed、drop)
- 4.2.4 条件语句(where、fiIter)
- 4.2.5 去除重复(distinct、dropDupIicates)
- 4.2.6 排序语句(sort、orderBy)
- 4.2.7 操作多表(union、join)
- 4.2.8 聚合操作
- 4.2.9 用户定义函数
- 4.3 案例分析
- 4.3.1 创建DataFrame
- 4.3.2 操作DataFrame
- 4.3.3 按年份组合
- 4.4 小结
- 第5章 数据流的操作
- 5.1 处理范例
- 5.1.1 至少一次
- 5.1.2 最多一次
- 5.1.3 恰好一次
- 5.2 理解时间
- 5.3 离散化流
- 5.3.1 一个例子
- 5.3.2 StreamingContext
- 5.3.3 输入流
- 5.4 离散流的操作
- 5.4.1 基本操作
- 5.4.2 transform
- 5.4.3 连接操作
- 5.4.4 SQL操作
- 5.4.5 输出操作
- 5.4.6 窗口操作
- 5.4.7 有状态转换
- 5.5 结构化流
- 5.5.1 一个例子
- 5.5.2 工作机制
- 5.5.3 窗口操作
- 5.6 案例分析
- 5.6.1 探索数据
- 5.6.2 创建数据流
- 5.6.3 转换操作
- 5.6.4 窗口操作
- 5.7 小结
- 第6章 分布式的图处理
- 6.1 理解图的概念
- 6.2 图并行系统
- 6.3 一个例子
- 6.4 创建和探索图
- 6.4.1 属性图
- 6.4.2 构建器
- 6.4.3 创建图
- 6.4.4 探索图
- 6.5 图运算符
- 6.5.1 属性运算符
- 6.5.2 结构运算符
- 6.5.3 联结运算符
- 6.5.4 点和边操作
- 6.5.5 收集相邻信息
- 6.6 Pregel
- 6.6.1 一个例子
- 6.6.2 PregeI运算符
- 6.6.3 标签传播算法
- 6.6.4 PageRank算法
- 6.7 案例分析
- 6.7.1 定义点
- 6.7.2 定义边
- 6.7.3 创建图
- 6.7.4 PageRank
- 6.7.5 PregeI
- 6.8 小结
- 第7章 机器学习
- 7.1 MLlib
- 7.2 数据类型
- 7.2.1 局部向量
- 7.2.2 标签向量
- 7.2.3 局部矩阵
- 7.2.4 分布矩阵
- 7.3 统计基础
- 7.3.1 相关分析
- 7.3.2 假设检验
- 7.3.3 摘要统计
- 7.4 算法概述
- 7.4.1 有监督学习
- 7.4.2 无监督学习
- 7.4.3 多种算法介绍
- 7.4.4 协同过滤
- 7.5 交叉验证
- 7.6 机器学习管道
- 7.6.1 概念介绍
- 7.6.2 Spark管道
- 7.6.3 模型选择
- 7.7 实例分析
- 7.7.1 预测用户偏好
- 7.7.2 分析飞行延误
- 7.8 小结
- 第8章 特征工程
- 8.1 特征提取
- 8.1.1 TF-IDF
- 8.1.2 Word2Vec
- 8.1.3 CountVectorizer
- 8.2 特征转换
- 8.2.1 Tokenizer
- 8.2.2 StopWordsRemover
- 8.2.3 n-gram
- 8.2.4 Binarizer
- 8.2.5 PCA
- 8.2.6 PoIynomiaIExpansion
- 8.2.7 Discrete Cosine Transform
- 8.2.8 StringIndexer
- 8.2.9 IndexToString
- 8.2.10 OneHotEncoder
- 8.2.11 VectorIndexer
- 8.2.12 Interaction
- 8.2.13 NormaIizer
- 8.2.14 StandardScaIer
- 8.2.15 MinMaxScaIer
- 8.2.16 MaxAbsScaIer
- 8.2.17 Bucketizer
- 8.2.18 EIementwiseProduct
- 8.2.19 SQLTransformer
- 8.2.20 VectorAssembIer
- 8.2.21 QuantiIeDiscretizer
- 8.2.22 Imputer
- 8.3 特征选择
- 8.3.1 VectorSIicer
- 8.3.2 RFormuIa
- 8.3.3 ChiSqSeIector
- 8.4 局部敏感哈希
- 8.4.1 局部敏感哈希操作
- 8.4.2 局部敏感哈希算法
- 8.5 小结
- 第9章 算法汇总
- 9.1 决策树和集成树
- 9.1.1 决策树
- 9.1.2 集成树
- 9.2 分类和回归
- 9.2.1 线性方法
- 9.2.2 分类
- 9.2.3 回归
- 9.3 聚集
- 9.3.1 K均值
- 9.3.2 潜在狄利克雷分配
- 9.3.3 二分K均值
- 9.3.4 高斯混合模型
- 9.4 小结
- 第10章 Spark应用程序
- 10.1 SparkContext与SparkSession
- 10.2 构建应用
- 10.3 部署应用
- 10.3.1 集群架构
- 10.3.2 集群管理
- 10.4 小结
- 第11章 监视和优化
- 11.1 工作原理
- 11.1.1 依赖关系
- 11.1.2 划分阶段
- 11.1.3 实例分析
- 11.2 洗牌机制
- 11.3 内存管理
- 11.4 优化策略
- 11.4.1 数据序列化
- 11.4.2 内存调优
- 11.4.3 其他方面
- 11.5 最佳实践
- 11.5.1 系统配置
- 11.5.2 程序调优
- 11.6 案例分析
- 11.6.1 执行模型
- 11.6.2 监控界面
- 11.6.3 调试优化
- 11.7 小结
- 参考文献
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。