展开全部

主编推荐语

Spark入门基础书籍-学编程概念与实际开发

内容简介

本书是Spark技术入门的基础类书籍,通过本书的学习实验可以牢固掌握Spark编程技术的基本概念、原理和编程方法,能够进行应用程序的实际开发。

目录

  • 封面页
  • 书名页
  • 版权页
  • 内容简介
  • 前言
  • 目录
  • 第1章 Spark生态环境
  • 1.1 平台设计
  • 1.2 Spark简介
  • 1.2.1 技术特性
  • 1.2.2 数据格式
  • 1.2.3 编程语言
  • 1.3 虚拟环境
  • 1.3.1 发展历史
  • 1.3.2 技术特征
  • 1.3.3 技术架构
  • 1.3.4 管理命令
  • 1.4 HBase技术
  • 1.4.1 系统架构
  • 1.4.2 存储机制
  • 1.4.3 常用命令
  • 1.5 环境部署
  • 1.6 小结
  • 第2章 理解Spark
  • 2.1 数据处理
  • 2.1.1 MapReduce
  • 2.1.2 工作机制
  • 2.2 认识RDD
  • 2.3 操作RDD
  • 2.3.1 转换
  • 2.3.2 动作
  • 2.4 Scala编程
  • 2.4.1 面向对象编程
  • 2.4.2 函数式编程
  • 2.4.3 集合类
  • 2.5 案例分析
  • 2.5.1 启动交换界面
  • 2.5.2 SparkContext和SparkSession
  • 2.5.3 加载数据
  • 2.5.4 应用操作
  • 2.5.5 缓存处理
  • 2.6 小结
  • 第3章 键值对与分区
  • 3.1 键值对RDD
  • 3.1.1 创建
  • 3.1.2 转换
  • 3.1.3 动作
  • 3.2 分区和洗牌
  • 3.2.1 分区
  • 3.2.2 洗牌
  • 3.3 共享变量
  • 3.3.1 广播变量
  • 3.3.2 累加器
  • 3.4 Scala高级语法
  • 3.4.1 高阶函数
  • 3.4.2 泛型类
  • 3.4.3 隐式转换
  • 3.5 案例分析
  • 3.5.1 检查事件数据
  • 3.5.2 reduceByKey和groupByKey
  • 3.5.3 三种连接转换
  • 3.5.4 执行几个动作
  • 3.5.5 跨节点分区
  • 3.6 小结
  • 第4章 关系型数据处理
  • 4.1 Spark SQL概述
  • 4.1.1 CataIyst优化器
  • 4.1.2 DataFrame与DataSet
  • 4.1.3 创建结构化数据
  • 4.2 结构化数据操作
  • 4.2.1 选取列
  • 4.2.2 选择语句(seIect、seIectExpr)
  • 4.2.3 操作列(withCoIumn、withCoIumnRenamed、drop)
  • 4.2.4 条件语句(where、fiIter)
  • 4.2.5 去除重复(distinct、dropDupIicates)
  • 4.2.6 排序语句(sort、orderBy)
  • 4.2.7 操作多表(union、join)
  • 4.2.8 聚合操作
  • 4.2.9 用户定义函数
  • 4.3 案例分析
  • 4.3.1 创建DataFrame
  • 4.3.2 操作DataFrame
  • 4.3.3 按年份组合
  • 4.4 小结
  • 第5章 数据流的操作
  • 5.1 处理范例
  • 5.1.1 至少一次
  • 5.1.2 最多一次
  • 5.1.3 恰好一次
  • 5.2 理解时间
  • 5.3 离散化流
  • 5.3.1 一个例子
  • 5.3.2 StreamingContext
  • 5.3.3 输入流
  • 5.4 离散流的操作
  • 5.4.1 基本操作
  • 5.4.2 transform
  • 5.4.3 连接操作
  • 5.4.4 SQL操作
  • 5.4.5 输出操作
  • 5.4.6 窗口操作
  • 5.4.7 有状态转换
  • 5.5 结构化流
  • 5.5.1 一个例子
  • 5.5.2 工作机制
  • 5.5.3 窗口操作
  • 5.6 案例分析
  • 5.6.1 探索数据
  • 5.6.2 创建数据流
  • 5.6.3 转换操作
  • 5.6.4 窗口操作
  • 5.7 小结
  • 第6章 分布式的图处理
  • 6.1 理解图的概念
  • 6.2 图并行系统
  • 6.3 一个例子
  • 6.4 创建和探索图
  • 6.4.1 属性图
  • 6.4.2 构建器
  • 6.4.3 创建图
  • 6.4.4 探索图
  • 6.5 图运算符
  • 6.5.1 属性运算符
  • 6.5.2 结构运算符
  • 6.5.3 联结运算符
  • 6.5.4 点和边操作
  • 6.5.5 收集相邻信息
  • 6.6 Pregel
  • 6.6.1 一个例子
  • 6.6.2 PregeI运算符
  • 6.6.3 标签传播算法
  • 6.6.4 PageRank算法
  • 6.7 案例分析
  • 6.7.1 定义点
  • 6.7.2 定义边
  • 6.7.3 创建图
  • 6.7.4 PageRank
  • 6.7.5 PregeI
  • 6.8 小结
  • 第7章 机器学习
  • 7.1 MLlib
  • 7.2 数据类型
  • 7.2.1 局部向量
  • 7.2.2 标签向量
  • 7.2.3 局部矩阵
  • 7.2.4 分布矩阵
  • 7.3 统计基础
  • 7.3.1 相关分析
  • 7.3.2 假设检验
  • 7.3.3 摘要统计
  • 7.4 算法概述
  • 7.4.1 有监督学习
  • 7.4.2 无监督学习
  • 7.4.3 多种算法介绍
  • 7.4.4 协同过滤
  • 7.5 交叉验证
  • 7.6 机器学习管道
  • 7.6.1 概念介绍
  • 7.6.2 Spark管道
  • 7.6.3 模型选择
  • 7.7 实例分析
  • 7.7.1 预测用户偏好
  • 7.7.2 分析飞行延误
  • 7.8 小结
  • 第8章 特征工程
  • 8.1 特征提取
  • 8.1.1 TF-IDF
  • 8.1.2 Word2Vec
  • 8.1.3 CountVectorizer
  • 8.2 特征转换
  • 8.2.1 Tokenizer
  • 8.2.2 StopWordsRemover
  • 8.2.3 n-gram
  • 8.2.4 Binarizer
  • 8.2.5 PCA
  • 8.2.6 PoIynomiaIExpansion
  • 8.2.7 Discrete Cosine Transform
  • 8.2.8 StringIndexer
  • 8.2.9 IndexToString
  • 8.2.10 OneHotEncoder
  • 8.2.11 VectorIndexer
  • 8.2.12 Interaction
  • 8.2.13 NormaIizer
  • 8.2.14 StandardScaIer
  • 8.2.15 MinMaxScaIer
  • 8.2.16 MaxAbsScaIer
  • 8.2.17 Bucketizer
  • 8.2.18 EIementwiseProduct
  • 8.2.19 SQLTransformer
  • 8.2.20 VectorAssembIer
  • 8.2.21 QuantiIeDiscretizer
  • 8.2.22 Imputer
  • 8.3 特征选择
  • 8.3.1 VectorSIicer
  • 8.3.2 RFormuIa
  • 8.3.3 ChiSqSeIector
  • 8.4 局部敏感哈希
  • 8.4.1 局部敏感哈希操作
  • 8.4.2 局部敏感哈希算法
  • 8.5 小结
  • 第9章 算法汇总
  • 9.1 决策树和集成树
  • 9.1.1 决策树
  • 9.1.2 集成树
  • 9.2 分类和回归
  • 9.2.1 线性方法
  • 9.2.2 分类
  • 9.2.3 回归
  • 9.3 聚集
  • 9.3.1 K均值
  • 9.3.2 潜在狄利克雷分配
  • 9.3.3 二分K均值
  • 9.3.4 高斯混合模型
  • 9.4 小结
  • 第10章 Spark应用程序
  • 10.1 SparkContext与SparkSession
  • 10.2 构建应用
  • 10.3 部署应用
  • 10.3.1 集群架构
  • 10.3.2 集群管理
  • 10.4 小结
  • 第11章 监视和优化
  • 11.1 工作原理
  • 11.1.1 依赖关系
  • 11.1.2 划分阶段
  • 11.1.3 实例分析
  • 11.2 洗牌机制
  • 11.3 内存管理
  • 11.4 优化策略
  • 11.4.1 数据序列化
  • 11.4.2 内存调优
  • 11.4.3 其他方面
  • 11.5 最佳实践
  • 11.5.1 系统配置
  • 11.5.2 程序调优
  • 11.6 案例分析
  • 11.6.1 执行模型
  • 11.6.2 监控界面
  • 11.6.3 调试优化
  • 11.7 小结
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。