展开全部

主编推荐语

最新Spark版本全面解析,深度学习为亮点,实时大数据项目实战。

内容简介

本书第一部分基于最新的Spark版本,全面深入地介绍了Spark及其生态圈相关技术,增加了Spark深度学习作为亮点;第二部分包含一个完整的平台项目实战,基于目前业界最流行的实时大数据平台架构lambda,除此之外,本书还包含多个生产级别的案例。

目录

  • 版权信息
  • 版权
  • 内容提要
  • 前言
  • 第一部分 基础篇
  • 第1章 序篇
  • 1.1 Spark与BDAS
  • 1.2 Databricks
  • 1.3 如何通过GitHub向Spark贡献代码
  • 1.4 如何选择Spark编程语言
  • 1.5 函数式编程思想
  • 1.6 小结
  • 第2章 Spark编程
  • 2.1 Spark架构
  • 2.2 Spark 2.x与Spark 3.x
  • 2.2.1 Tungsten项目
  • 2.2.2 统一Dataset和DataFrame接口
  • 2.2.3 新一代流处理技术:Structured Streaming与持续型应用
  • 2.2.4 Hydrogen项目和Spark 3.x
  • 2.3 部署Spark
  • 2.3.1 Spark on YARN
  • 2.3.2 Spark on Mesos
  • 2.3.3 Spark Standalone
  • 2.3.4 Spark on Kubernetes
  • 2.3.5 安装Spark
  • 2.3.6 提交作业
  • 2.3.7 Spark Shell
  • 2.3.8 初始化SparkSession
  • 2.4 RDD与算子
  • 2.4.1 RDD
  • 2.4.2 创建RDD
  • 2.4.3 转换算子
  • 2.4.4 行动算子
  • 2.4.5 RDD血统与Spark容错
  • 2.5 Spark Shuffle
  • 2.5.1 Hash Shuffle
  • 2.5.2 Sort-based Shuffle
  • 2.6 共享变量
  • 2.6.1 广播变量
  • 2.6.2 累加器
  • 2.7 Spark的多语言支持
  • 2.7.1 PySpark
  • 2.7.2 SparkR
  • 2.8 Spark性能调优
  • 2.8.1 硬件配置与资源管理平台
  • 2.8.2 参数调优与应用调优
  • 2.9 使用Jupyter Notebook基于Spark探索数据:蒙特卡罗方法预测股票价格
  • 2.9.1 Jupyter Notebook
  • 2.9.2 用蒙特卡罗方法预测股票价格
  • 2.10 小结
  • 第3章 Spark统一编程接口:DataFrame、Dataset和Spark SQL
  • 3.1 Catalyst优化器
  • 3.1.1 SQL抽象语法树
  • 3.1.2 从ULEP到RLEP的过程
  • 3.1.3 调优RLEP
  • 3.1.4 全阶段代码生成
  • 3.2 DataFrame API
  • 3.2.1 创建DataFrame
  • 3.2.2 查询
  • 3.2.3 窗口函数
  • 3.2.4 用户自定义函数
  • 3.2.5 写入
  • 3.3 Dataset API
  • 3.3.1 RDD、DataFrame和Dataset
  • 3.3.2 安全类型的UDAF
  • 3.4 Spark SQL
  • 3.4.1 创建临时视图
  • 3.4.2 使用Hive元数据
  • 3.4.3 查询语句
  • 3.4.4 函数
  • 3.4.5 用户自定义函数
  • 3.5 Google Dremel与列式存储
  • 3.5.1 Apache Parquet
  • 3.5.2 Apache ORC
  • 3.5.3 Apache CarbonData
  • 3.5.4 对比测试
  • 3.6 使用Spark SQL进行数据探索
  • 3.7 小结
  • 第4章 Spark流处理:Spark Streaming与Structured Streaming
  • 4.1 一个Spark Streaming流处理的例子
  • 4.2 消息送达保证
  • Storm的消息传递保证
  • 4.3 Google MillWheel系统和Google Dataflow模型
  • 4.3.1 Google MillWheel设计思想
  • 4.3.2 Google MillWheel如何实现“恰好一次”消息送达语义
  • 4.3.3 Google MillWheel对乱序数据与晚到数据的处理
  • 4.3.4 Google Dataflow:流处理和批处理的统一与取舍
  • 4.4 Spark Streaming
  • 4.4.1 关键抽象与架构
  • 4.4.2 无状态的转换算子
  • 4.4.3 有状态的转换算子
  • 4.4.4 输入与输出
  • 4.4.5 Spark Streaming与Spark SQL
  • 4.4.6 容错与结果正确性
  • 4.4.7 性能调优
  • 4.5 Structured Streaming
  • 4.5.1 关键抽象与架构
  • 4.5.2 操作
  • 4.5.3 输入和输出
  • 4.5.4 股票交易价格实时分析
  • 4.6 流处理技术对比
  • 4.7 小结
  • 第5章 Spark图计算:GraphX
  • 5.1 图模式
  • 5.1.1 图结构
  • 5.1.2 图存储
  • 5.1.3 图数据库
  • 5.1.4 图挖掘技术
  • 5.1.5 属性图与RDF
  • 5.2 生成图
  • 5.2.1 从已有数据中生成
  • 5.2.2 通过GraphGenerators生成
  • 5.3 图算子
  • 5.3.1 属性算子
  • 5.3.2 结构算子
  • 5.3.3 连接算子
  • 5.3.4 aggregateMessages
  • 5.4 Pregel API
  • 5.4.1 图分区
  • 5.4.2 像顶点一样思考
  • 5.4.3 用户自定义函数
  • 5.4.4 PageRank的GraphX实现
  • 5.4.5 标签传播算法
  • 5.5 SQL on Graph
  • 5.5.1 生成图
  • 5.5.2 SQL查询
  • 5.5.3 模式发现
  • 5.5.4 一些GraphX已经有的算法
  • 5.5.5 一些GraphX没有的算法
  • 5.5.6 AggregateMessages
  • 5.6 n度邻居顶点算法
  • 5.7 小结
  • 第6章 Spark机器学习:MLlib
  • 6.1 机器学习
  • 6.1.1 典型的机器学习工作流
  • 6.1.2 机器学习任务的学习类型
  • 6.2 Spark MLlib与Spark ML
  • Spark ML Pipelines
  • 6.3 数据预处理
  • 6.3.1 数据标准化
  • 6.3.2 缺失值处理
  • 6.3.3 特征抽取
  • 6.3.4 特征选择
  • 6.4 分类算法应用
  • 6.4.1 决策树
  • 6.4.2 随机森林
  • 6.4.3 人体状态监测器
  • 6.4.4 集成学习
  • 6.4.5 梯度提升决策树
  • 6.5 聚类算法应用
  • 6.5.1 物以类聚
  • 6.5.2 k均值聚类算法
  • 6.5.3 实现
  • 6.6 推荐系统应用
  • 6.6.1 基于用户的协同过滤
  • 6.6.2 基于商品的协同过滤
  • 6.6.3 两种协同过滤的对比
  • 6.6.4 基于模型的协同过滤
  • 6.6.5 Movielens电影推荐系统
  • 6.7 训练之后
  • 6.7.1 模型评估
  • 6.7.2 交叉验证与超参调优
  • 6.8 流式机器学习
  • 6.8.1 流回归
  • 6.8.2 流聚类
  • 6.8.3 用流处理应用来监控模型
  • 6.9 小结
  • 第7章 Spark深度学习:Deeplearning4j
  • 7.1 常见的深度学习框架
  • 7.2 Deeplearning4j
  • 7.3 卷积神经网络
  • 7.3.1 理解卷积神经网络
  • 7.3.2 用Deeplearning4j训练卷积神经网络
  • 7.4 循环神经网络
  • 7.4.1 理解循环神经网络
  • 7.4.2 用Deeplearning4j训练循环神经网络
  • 7.5 自动编码器
  • 7.5.1 理解自动编码器
  • 7.5.2 用Deeplearning4j训练自动编码器
  • 7.6 使用GPU
  • 7.7 小结
  • 第8章 分布式存储:Alluxio
  • 8.1 Alluxio架构
  • 8.1.1 Alluxio的组成部分
  • 8.1.2 虚拟的Alluxio
  • 8.1.3 统一而透明的命名空间
  • 8.2 快速上手Alluxio
  • 8.2.1 安装Alluxio
  • 8.2.2 Alluxio配置
  • 8.2.3 Alluxio血统机制
  • 8.3 与上层框架集成
  • 8.3.1 与Spark集成
  • 8.3.2 与Presto集成
  • 8.3.3 与HBase集成
  • 8.4 与底层存储系统集成
  • 8.4.1 与Ceph集成
  • 8.4.2 挂载其他文件系统
  • 8.5 如何访问Alluxio
  • 8.6 Alluxio应用案例
  • 8.6.1 携程网
  • 8.6.2 滴滴出行
  • 8.6.3 陌陌
  • 8.7 小结
  • 第二部分 应用篇
  • 第9章 企业数据湖与Lambda架构
  • 9.1 数据湖
  • 9.1.1 数据的湖泊
  • 9.1.2 数据湖要解决的问题
  • 9.1.3 数据湖与数据仓库对比
  • 9.1.4 数据湖如何工作
  • 9.2 Lambda架构
  • 9.2.1 批处理层
  • 9.2.2 服务层
  • 9.2.3 速度层
  • 9.2.4 Lambda架构
  • 9.2.5 Lambda架构的原则
  • 9.3 基于Lambda架构的数据湖分层设计
  • 9.3.1 数据获取层
  • 9.3.2 消息层
  • 9.3.3 数据摄取层
  • 9.3.4 数据存储层
  • 9.3.5 Lambda层
  • 9.4 Lambda架构的应用
  • 9.4.1 搜索引擎
  • 9.4.2 Druid
  • 9.5 构建Lambda架构的技术
  • 9.6 小结
  • 第10章 大数据企业动态背景调查平台
  • 10.1 企业背景调查
  • 10.2 基于大数据的企业动态背景调查
  • 10.2.1 企业行为信息
  • 10.2.2 企业关联方分析
  • 10.3 数据采集与数据字典
  • 10.4 企业背景调查平台需求
  • 10.4.1 企业关联图谱展示
  • 10.4.2 企业风险指标计算
  • 10.5 企业关联图谱的模式
  • 10.6 传统数据仓库架构
  • 10.7 小结
  • 第11章 平台设计
  • 11.1 平台架构
  • 11.1.1 数据源
  • 11.1.2 数据管道
  • 11.1.3 速度层
  • 11.1.4 批处理层
  • 11.1.5 服务层
  • 11.1.6 查询层
  • 11.1.7 可视化组件
  • 11.2 物理拓扑
  • 11.3 服务层图数据库设计
  • 11.4 项目规划
  • 11.5 小结
  • 第12章 数据管道层
  • 12.1 安装并配置canal
  • 12.2 实现Kafka生产者
  • 12.3 安装并配置Flume
  • 12.4 小结
  • 第13章 速度层
  • 13.1 速度层输入
  • 13.1.1 类型1
  • 13.1.2 类型2
  • 13.1.3 类型3
  • 13.1.4 类型4
  • 13.2 Cypher基础
  • 13.2.1 写入
  • 13.2.2 读取
  • 13.2.3 删除
  • 13.3 生成Cypher语句
  • 13.3.1 类型1
  • 13.3.2 类型2
  • 13.3.3 类型3
  • 13.3.4 类型4
  • 13.3.5 实现
  • 13.4 整合Structured Streaming
  • 13.4.1 Neo4jWriter
  • 13.4.2 启动流
  • 13.5 小结
  • 第14章 批处理层
  • 14.1 自融风险监测
  • 14.2 生成主数据集
  • 14.2.1 全量与增量
  • 14.2.2 合并
  • 14.2.3 数据治理
  • 14.3 用GraphX计算企业自融风险值
  • 14.4 导入HBase
  • 14.5 调度中心
  • 14.5.1 Airflow
  • 14.5.2 配置
  • 14.6 小结
  • 第15章 服务层与查询层
  • 15.1 不仅仅是合并
  • 15.1.1 NetworkX
  • 15.1.2 计算流程
  • 15.2 接口开发
  • 15.3 小结
  • 第三部分 总结篇
  • 第16章 总结和展望
  • 16.1 统一的大数据处理接口
  • 16.1.1 Unified Spark
  • 16.1.2 Apache Beam
  • 16.2 Kappa架构
  • 16.3 大数据处理技术
  • 16.3.1 Apache Flink
  • 16.3.2 Apache Apex
  • 16.3.3 Ray
  • 16.4 Spark未来发展方向
展开全部

评分及书评

评分不足
1个评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。