计算机
类型
8.0
豆瓣评分
可以朗读
语音朗读
394千字
字数
2019-02-01
发行日期
展开全部
主编推荐语
最新Spark版本全面解析,深度学习为亮点,实时大数据项目实战。
内容简介
本书第一部分基于最新的Spark版本,全面深入地介绍了Spark及其生态圈相关技术,增加了Spark深度学习作为亮点;第二部分包含一个完整的平台项目实战,基于目前业界最流行的实时大数据平台架构lambda,除此之外,本书还包含多个生产级别的案例。
目录
- 版权信息
- 版权
- 内容提要
- 序
- 前言
- 第一部分 基础篇
- 第1章 序篇
- 1.1 Spark与BDAS
- 1.2 Databricks
- 1.3 如何通过GitHub向Spark贡献代码
- 1.4 如何选择Spark编程语言
- 1.5 函数式编程思想
- 1.6 小结
- 第2章 Spark编程
- 2.1 Spark架构
- 2.2 Spark 2.x与Spark 3.x
- 2.2.1 Tungsten项目
- 2.2.2 统一Dataset和DataFrame接口
- 2.2.3 新一代流处理技术:Structured Streaming与持续型应用
- 2.2.4 Hydrogen项目和Spark 3.x
- 2.3 部署Spark
- 2.3.1 Spark on YARN
- 2.3.2 Spark on Mesos
- 2.3.3 Spark Standalone
- 2.3.4 Spark on Kubernetes
- 2.3.5 安装Spark
- 2.3.6 提交作业
- 2.3.7 Spark Shell
- 2.3.8 初始化SparkSession
- 2.4 RDD与算子
- 2.4.1 RDD
- 2.4.2 创建RDD
- 2.4.3 转换算子
- 2.4.4 行动算子
- 2.4.5 RDD血统与Spark容错
- 2.5 Spark Shuffle
- 2.5.1 Hash Shuffle
- 2.5.2 Sort-based Shuffle
- 2.6 共享变量
- 2.6.1 广播变量
- 2.6.2 累加器
- 2.7 Spark的多语言支持
- 2.7.1 PySpark
- 2.7.2 SparkR
- 2.8 Spark性能调优
- 2.8.1 硬件配置与资源管理平台
- 2.8.2 参数调优与应用调优
- 2.9 使用Jupyter Notebook基于Spark探索数据:蒙特卡罗方法预测股票价格
- 2.9.1 Jupyter Notebook
- 2.9.2 用蒙特卡罗方法预测股票价格
- 2.10 小结
- 第3章 Spark统一编程接口:DataFrame、Dataset和Spark SQL
- 3.1 Catalyst优化器
- 3.1.1 SQL抽象语法树
- 3.1.2 从ULEP到RLEP的过程
- 3.1.3 调优RLEP
- 3.1.4 全阶段代码生成
- 3.2 DataFrame API
- 3.2.1 创建DataFrame
- 3.2.2 查询
- 3.2.3 窗口函数
- 3.2.4 用户自定义函数
- 3.2.5 写入
- 3.3 Dataset API
- 3.3.1 RDD、DataFrame和Dataset
- 3.3.2 安全类型的UDAF
- 3.4 Spark SQL
- 3.4.1 创建临时视图
- 3.4.2 使用Hive元数据
- 3.4.3 查询语句
- 3.4.4 函数
- 3.4.5 用户自定义函数
- 3.5 Google Dremel与列式存储
- 3.5.1 Apache Parquet
- 3.5.2 Apache ORC
- 3.5.3 Apache CarbonData
- 3.5.4 对比测试
- 3.6 使用Spark SQL进行数据探索
- 3.7 小结
- 第4章 Spark流处理:Spark Streaming与Structured Streaming
- 4.1 一个Spark Streaming流处理的例子
- 4.2 消息送达保证
- Storm的消息传递保证
- 4.3 Google MillWheel系统和Google Dataflow模型
- 4.3.1 Google MillWheel设计思想
- 4.3.2 Google MillWheel如何实现“恰好一次”消息送达语义
- 4.3.3 Google MillWheel对乱序数据与晚到数据的处理
- 4.3.4 Google Dataflow:流处理和批处理的统一与取舍
- 4.4 Spark Streaming
- 4.4.1 关键抽象与架构
- 4.4.2 无状态的转换算子
- 4.4.3 有状态的转换算子
- 4.4.4 输入与输出
- 4.4.5 Spark Streaming与Spark SQL
- 4.4.6 容错与结果正确性
- 4.4.7 性能调优
- 4.5 Structured Streaming
- 4.5.1 关键抽象与架构
- 4.5.2 操作
- 4.5.3 输入和输出
- 4.5.4 股票交易价格实时分析
- 4.6 流处理技术对比
- 4.7 小结
- 第5章 Spark图计算:GraphX
- 5.1 图模式
- 5.1.1 图结构
- 5.1.2 图存储
- 5.1.3 图数据库
- 5.1.4 图挖掘技术
- 5.1.5 属性图与RDF
- 5.2 生成图
- 5.2.1 从已有数据中生成
- 5.2.2 通过GraphGenerators生成
- 5.3 图算子
- 5.3.1 属性算子
- 5.3.2 结构算子
- 5.3.3 连接算子
- 5.3.4 aggregateMessages
- 5.4 Pregel API
- 5.4.1 图分区
- 5.4.2 像顶点一样思考
- 5.4.3 用户自定义函数
- 5.4.4 PageRank的GraphX实现
- 5.4.5 标签传播算法
- 5.5 SQL on Graph
- 5.5.1 生成图
- 5.5.2 SQL查询
- 5.5.3 模式发现
- 5.5.4 一些GraphX已经有的算法
- 5.5.5 一些GraphX没有的算法
- 5.5.6 AggregateMessages
- 5.6 n度邻居顶点算法
- 5.7 小结
- 第6章 Spark机器学习:MLlib
- 6.1 机器学习
- 6.1.1 典型的机器学习工作流
- 6.1.2 机器学习任务的学习类型
- 6.2 Spark MLlib与Spark ML
- Spark ML Pipelines
- 6.3 数据预处理
- 6.3.1 数据标准化
- 6.3.2 缺失值处理
- 6.3.3 特征抽取
- 6.3.4 特征选择
- 6.4 分类算法应用
- 6.4.1 决策树
- 6.4.2 随机森林
- 6.4.3 人体状态监测器
- 6.4.4 集成学习
- 6.4.5 梯度提升决策树
- 6.5 聚类算法应用
- 6.5.1 物以类聚
- 6.5.2 k均值聚类算法
- 6.5.3 实现
- 6.6 推荐系统应用
- 6.6.1 基于用户的协同过滤
- 6.6.2 基于商品的协同过滤
- 6.6.3 两种协同过滤的对比
- 6.6.4 基于模型的协同过滤
- 6.6.5 Movielens电影推荐系统
- 6.7 训练之后
- 6.7.1 模型评估
- 6.7.2 交叉验证与超参调优
- 6.8 流式机器学习
- 6.8.1 流回归
- 6.8.2 流聚类
- 6.8.3 用流处理应用来监控模型
- 6.9 小结
- 第7章 Spark深度学习:Deeplearning4j
- 7.1 常见的深度学习框架
- 7.2 Deeplearning4j
- 7.3 卷积神经网络
- 7.3.1 理解卷积神经网络
- 7.3.2 用Deeplearning4j训练卷积神经网络
- 7.4 循环神经网络
- 7.4.1 理解循环神经网络
- 7.4.2 用Deeplearning4j训练循环神经网络
- 7.5 自动编码器
- 7.5.1 理解自动编码器
- 7.5.2 用Deeplearning4j训练自动编码器
- 7.6 使用GPU
- 7.7 小结
- 第8章 分布式存储:Alluxio
- 8.1 Alluxio架构
- 8.1.1 Alluxio的组成部分
- 8.1.2 虚拟的Alluxio
- 8.1.3 统一而透明的命名空间
- 8.2 快速上手Alluxio
- 8.2.1 安装Alluxio
- 8.2.2 Alluxio配置
- 8.2.3 Alluxio血统机制
- 8.3 与上层框架集成
- 8.3.1 与Spark集成
- 8.3.2 与Presto集成
- 8.3.3 与HBase集成
- 8.4 与底层存储系统集成
- 8.4.1 与Ceph集成
- 8.4.2 挂载其他文件系统
- 8.5 如何访问Alluxio
- 8.6 Alluxio应用案例
- 8.6.1 携程网
- 8.6.2 滴滴出行
- 8.6.3 陌陌
- 8.7 小结
- 第二部分 应用篇
- 第9章 企业数据湖与Lambda架构
- 9.1 数据湖
- 9.1.1 数据的湖泊
- 9.1.2 数据湖要解决的问题
- 9.1.3 数据湖与数据仓库对比
- 9.1.4 数据湖如何工作
- 9.2 Lambda架构
- 9.2.1 批处理层
- 9.2.2 服务层
- 9.2.3 速度层
- 9.2.4 Lambda架构
- 9.2.5 Lambda架构的原则
- 9.3 基于Lambda架构的数据湖分层设计
- 9.3.1 数据获取层
- 9.3.2 消息层
- 9.3.3 数据摄取层
- 9.3.4 数据存储层
- 9.3.5 Lambda层
- 9.4 Lambda架构的应用
- 9.4.1 搜索引擎
- 9.4.2 Druid
- 9.5 构建Lambda架构的技术
- 9.6 小结
- 第10章 大数据企业动态背景调查平台
- 10.1 企业背景调查
- 10.2 基于大数据的企业动态背景调查
- 10.2.1 企业行为信息
- 10.2.2 企业关联方分析
- 10.3 数据采集与数据字典
- 10.4 企业背景调查平台需求
- 10.4.1 企业关联图谱展示
- 10.4.2 企业风险指标计算
- 10.5 企业关联图谱的模式
- 10.6 传统数据仓库架构
- 10.7 小结
- 第11章 平台设计
- 11.1 平台架构
- 11.1.1 数据源
- 11.1.2 数据管道
- 11.1.3 速度层
- 11.1.4 批处理层
- 11.1.5 服务层
- 11.1.6 查询层
- 11.1.7 可视化组件
- 11.2 物理拓扑
- 11.3 服务层图数据库设计
- 11.4 项目规划
- 11.5 小结
- 第12章 数据管道层
- 12.1 安装并配置canal
- 12.2 实现Kafka生产者
- 12.3 安装并配置Flume
- 12.4 小结
- 第13章 速度层
- 13.1 速度层输入
- 13.1.1 类型1
- 13.1.2 类型2
- 13.1.3 类型3
- 13.1.4 类型4
- 13.2 Cypher基础
- 13.2.1 写入
- 13.2.2 读取
- 13.2.3 删除
- 13.3 生成Cypher语句
- 13.3.1 类型1
- 13.3.2 类型2
- 13.3.3 类型3
- 13.3.4 类型4
- 13.3.5 实现
- 13.4 整合Structured Streaming
- 13.4.1 Neo4jWriter
- 13.4.2 启动流
- 13.5 小结
- 第14章 批处理层
- 14.1 自融风险监测
- 14.2 生成主数据集
- 14.2.1 全量与增量
- 14.2.2 合并
- 14.2.3 数据治理
- 14.3 用GraphX计算企业自融风险值
- 14.4 导入HBase
- 14.5 调度中心
- 14.5.1 Airflow
- 14.5.2 配置
- 14.6 小结
- 第15章 服务层与查询层
- 15.1 不仅仅是合并
- 15.1.1 NetworkX
- 15.1.2 计算流程
- 15.2 接口开发
- 15.3 小结
- 第三部分 总结篇
- 第16章 总结和展望
- 16.1 统一的大数据处理接口
- 16.1.1 Unified Spark
- 16.1.2 Apache Beam
- 16.2 Kappa架构
- 16.3 大数据处理技术
- 16.3.1 Apache Flink
- 16.3.2 Apache Apex
- 16.3.3 Ray
- 16.4 Spark未来发展方向
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。