互联网
                       类型
                        7.0
                       豆瓣评分
                        可以朗读
                       语音朗读
                        284千字
                       字数
                        2015-12-01
                       发行日期
                    展开全部
                    
主编推荐语
本书从Spark的基础讲起,并且针对性地给出了实战场景应用。
内容简介
本书共分为四大部分,带你了解Spark的基础与应用。
基础篇(1~10章)介绍了Spark的用途、扩展、安装、运行模式、程序开发、编程模型、工作原理,以及Spark SQL、Spark Streaming、MLlib、GraphX、Bagel等重要的扩展。
实战篇(11~14)讲解了搜索结果的排序、个性化推荐系统、日志分析系统、自然语言处理、数据挖掘等方面的案例。
高级篇(15~18)则讲解了Spark的调度管理、存储管理、监控管理、性能优化、最佳实践以及重点算法的解读。
扩展篇(19~20)讲解了Spark job-schmerver和Tachyon。
目录
- 版权信息
 - 前言
 - 基础篇
 - 第1章 Spark简介
 - 1.1 什么是Spark
 - 1.1.1 概述
 - 1.1.2 Spark大数据处理框架
 - 1.1.3 Spark的特点
 - 1.1.4 Spark应用场景
 - 1.2 Spark的重要扩展
 - 1.2.1 Spark SQL和DataFrame
 - 1.2.2 Spark Streaming
 - 1.2.3 Spark MLlib和ML
 - 1.2.4 GraphX
 - 1.2.5 SparkR
 - 1.3 本章小结
 - 第2章 Spark部署和运行
 - 2.1 部署准备
 - 2.1.1 下载Spark
 - 2.1.2 编译Spark版本
 - 2.1.3 集群部署概述
 - 2.2 Spark部署
 - 2.2.1 Local模式部署
 - 2.2.2 Standalone模式部署
 - 2.2.3 YARN模式部署
 - 2.3 运行Spark应用程序
 - 2.3.1 Local模式运行Spark应用程序
 - 2.3.2 Standalone模式运行Spark应用程序
 - 2.3.3 YARN模式运行Spark
 - 2.3.4 应用程序提交和参数传递
 - 2.4 本章小结
 - 第3章 Spark程序开发
 - 3.1 使用Spark Shell编写程序
 - 3.1.1 启动Spark Shell
 - 3.1.2 加载text文件
 - 3.1.3 简单RDD操作
 - 3.1.4 简单RDD操作应用
 - 3.1.5 RDD缓存
 - 3.2 构建Spark的开发环境
 - 3.2.1 准备环境
 - 3.2.2 构建Spark的Eclipse开发环境
 - 3.2.3 构建Spark的IntelliJ IDEA开发环境
 - 3.3 独立应用程序编程
 - 3.3.1 创建SparkContext对象
 - 3.3.2 编写简单应用程序
 - 3.3.3 编译并提交应用程序
 - 3.4 本章小结
 - 第4章 编程模型
 - 4.1 RDD介绍
 - 4.1.1 RDD特征
 - 4.1.2 RDD依赖
 - 4.2 创建RDD
 - 4.2.1 集合(数组)创建RDD
 - 4.2.2 存储创建RDD
 - 4.3 RDD操作
 - 4.3.1 转换操作
 - 4.3.2 执行操作
 - 4.3.3 控制操作
 - 4.4 共享变量
 - 4.4.1 广播变量
 - 4.4.2 累加器
 - 4.5 本章小结
 - 第5章 作业执行解析
 - 5.1 基本概念
 - 5.1.1 Spark组件
 - 5.1.2 RDD视图
 - 5.1.3 DAG图
 - 5.2 作业执行流程
 - 5.2.1 基于Standalone模式的Spark架构
 - 5.2.2 基于YARN模式的Spark架构
 - 5.2.3 作业事件流和调度分析
 - 5.3 运行时环境
 - 5.3.1 构建应用程序运行时环境
 - 5.3.2 应用程序转换成DAG
 - 5.3.3 调度执行DAG图
 - 5.4 应用程序运行实例
 - 5.5 本章小结
 - 第6章 Spark SQL与DataFrame
 - 6.1 概述
 - 6.1.1 Spark SQL发展
 - 6.1.2 Spark SQL架构
 - 6.1.3 Spark SQL特点
 - 6.1.4 Spark SQL性能
 - 6.2 DataFrame
 - 6.2.1 DataFrame和RDD的区别
 - 6.2.2 创建DataFrame
 - 6.2.3 DataFrame操作
 - 6.2.4 RDD转化为DataFrame
 - 6.3 数据源
 - 6.3.1 加载保存操作
 - 6.3.2 Parquet文件
 - 6.3.3 JSON数据集
 - 6.3.4 Hive表
 - 6.3.5 通过JDBC连接数据库
 - 6.3.6 多数据源整合查询的小例子
 - 6.4 分布式的SQL Engine
 - 6.4.1 运行Thrift JDBC/ODBC服务
 - 6.4.2 运行Spark SQL CLI
 - 6.5 性能调优
 - 6.5.1 缓存数据
 - 6.5.2 调优参数
 - 6.5.3 增加并行度
 - 6.6 数据类型
 - 6.7 本章小结
 - 第7章 深入了解Spark Streaming
 - 7.1 基础知识
 - 7.1.1 Spark Streaming工作原理
 - 7.1.2 DStream编程模型
 - 7.2 DStream操作
 - 7.2.1 Input DStream
 - 7.2.2 DStream转换操作
 - 7.2.3 DStream状态操作
 - 7.2.4 DStream输出操作
 - 7.2.5 缓存及持久化
 - 7.2.6 检查点
 - 7.3 性能调优
 - 7.3.1 优化运行时间
 - 7.3.2 设置合适的批次大小
 - 7.3.3 优化内存使用
 - 7.4 容错处理
 - 7.4.1 文件输入源
 - 7.4.2 基于Receiver的输入源
 - 7.4.3 输出操作
 - 7.5 一个例子
 - 7.6 本章小结
 - 第8章 Spark MLlib与机器学习
 - 8.1 机器学习概述
 - 8.1.1 机器学习分类
 - 8.1.2 机器学习算法
 - 8.2 Spark MLlib介绍
 - 8.3 Spark MLlib库
 - 8.3.1 MLlib数据类型
 - 8.3.2 MLlib的算法库与实例
 - 8.4 ML库
 - 8.4.1 主要概念
 - 8.4.2 算法库与实例
 - 8.5 本章小结
 - 第9章 GraphX图计算框架与应用
 - 9.1 概述
 - 9.2 Spark GraphX架构
 - 9.3 GraphX编程
 - 9.3.1 GraphX的图操作
 - 9.3.2 常用图算法
 - 9.4 应用场景
 - 9.4.1 图谱体检平台
 - 9.4.2 多图合并工具
 - 9.4.3 能量传播模型
 - 9.5 本章小结
 - 第10章 SparkR(R on Spark)
 - 10.1 概述
 - 10.1.1 SparkR介绍
 - 10.1.2 SparkR的工作原理
 - 10.1.3 R语言介绍
 - 10.1.4 R语言与其他语言的通信
 - 10.2 安装SparkR
 - 10.2.1 安装R语言与rJava
 - 10.2.2 SparkR的安装
 - 10.3 SparkR的运行与应用示例
 - 10.3.1 运行SparkR
 - 10.3.2 SparkR示例程序
 - 10.3.3 R的DataFrame操作方法
 - 10.3.4 SparkR的DataFrame
 - 10.4 本章小结
 - 实战篇
 - 第11章 大数据分析系统
 - 11.1 背景
 - 11.2 数据格式
 - 11.3 应用架构
 - 11.4 业务实现
 - 11.4.1 流量、性能的实时分析
 - 11.4.2 流量、性能的统计分析
 - 11.4.3 业务关联分析
 - 11.4.4 离线报表分析
 - 11.5 本章小结
 - 第12章 系统资源分析平台
 - 12.1 业务背景
 - 12.1.1 业务介绍
 - 12.1.2 实现目标
 - 12.2 应用架构
 - 12.2.1 总体架构
 - 12.2.2 模块架构
 - 12.3 代码实现
 - 12.3.1 Kafka集群
 - 12.3.2 数据采集
 - 12.3.3 离线数据处理
 - 12.3.4 数据表现
 - 12.4 结果验证
 - 12.5 本章小结
 - 第13章 在Spark上训练LR模型
 - 13.1 逻辑回归简介
 - 13.2 数据格式
 - 13.3 MLlib中LR模型源码介绍
 - 13.3.1 逻辑回归分类器
 - 13.3.2 优化方法
 - 13.3.3 算法效果评估
 - 13.4 实现案例
 - 13.4.1 训练模型
 - 13.4.2 计算AUC
 - 13.5 本章小结
 - 第14章 获取二级邻居关系图
 - 14.1 理解PageRank
 - 14.1.1 初步理解PageRank
 - 14.1.2 深入理解PageRank
 - 14.2 PageRank算法基于Spark的实现
 - 14.3 基于PageRank的二级邻居获取
 - 14.3.1 系统设计
 - 14.3.2 系统实现
 - 14.3.3 代码提交命令
 - 14.4 本章小结
 - 高级篇
 - 第15章 调度管理
 - 15.1 调度概述
 - 15.1.1 应用程序间的调度
 - 15.1.2 应用程序中的调度
 - 15.2 调度器
 - 15.2.1 调度池
 - 15.2.2 Job调度流程
 - 15.2.3 调度模块
 - 15.2.4 Job的生与死
 - 15.3 本章小结
 - 第16章 存储管理
 - 16.1 硬件环境
 - 16.1.1 存储系统
 - 16.1.2 本地磁盘
 - 16.1.3 内存
 - 16.1.4 网络和CPU
 - 16.2 Storage模块
 - 16.2.1 通信层
 - 16.2.2 存储层
 - 16.3 Shuffle数据持久化
 - 16.4 本章小结
 - 第17章 监控管理
 - 17.1 Web界面
 - 17.2 Spark UI历史监控
 - 17.2.1 使用spark-schmerver的原因
 - 17.2.2 配置spark-schmerver
 - 17.3 监控工具
 - 17.3.1 Metrics工具
 - 17.3.2 其他工具
 - 17.4 本章小结
 - 第18章 性能调优
 - 18.1 文件的优化
 - 18.1.1 输入采用大文件
 - 18.1.2 lzo压缩处理
 - 18.1.3 Cache压缩
 - 18.2 序列化数据
 - 18.3 缓存
 - 18.4 共享变量
 - 18.4.1 广播变量
 - 18.4.2 累加器
 - 18.5 流水线优化
 - 18.6 本章小结
 - 扩展篇
 - 第19章 Spark-jobschmerver实践
 - 19.1 Spark-jobschmerver是什么
 - 19.2 编译、部署及体验
 - 19.2.1 编译及部署
 - 19.2.2 体验
 - 19.3 Spark-jobschmerver程序实战
 - 19.3.1 创建步骤
 - 19.3.2 一些常见的问题
 - 19.4 使用场景:用户属性分布计算
 - 19.4.1 项目需求
 - 19.4.2 计算架构
 - 19.4.3 使用NamedRDD
 - 19.5 本章小结
 - 第20章 Spark Tachyon实战
 - 20.1 Tachyon文件系统
 - 20.1.1 文件系统概述
 - 20.1.2 HDFS和Tachyon
 - 20.1.3 Tachyon设计原理
 - 20.1.4 Tachyon特性
 - 20.2 Tachyon入门
 - 20.2.1 Tachyon部署
 - 20.2.2 Tachyon API
 - 20.2.3 在Spark上使用Tachyon
 - 20.3 容错机制
 - 20.4 本章小结
 
                        展开全部
                        
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。
