展开全部

主编推荐语

本书从零开始讲解 Spark。

内容简介

本书由Spark开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。

目录

  • 版权信息
  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 业界评论
  • 推荐序
  • 译者序
  • 前言
  • 读者对象
  • 本书结构
  • 相关书籍
  • 排版约定
  • 使用代码示例
  • Safari® Books Online
  • 联系我们
  • 致谢
  • 第1章 Spark 数据分析导论
  • 1.1 Spark是什么
  • 1.2 一个大一统的软件栈
  • 1.2.1 Spark Core
  • 1.2.2 Spark SQL
  • 1.2.3 Spark Streaming
  • 1.2.4 MLlib
  • 1.2.5 GraphX
  • 1.2.6 集群管理器
  • 1.3 Spark的用户和用途
  • 1.3.1 数据科学任务
  • 1.3.2 数据处理应用
  • 1.4 Spark简史
  • 1.5 Spark的版本和发布
  • 1.6 Spark的存储层次
  • 第2章 Spark 下载与入门
  • 2.1 下载Spark
  • 2.2 Spark中Python和Scala的shell
  • 2.3 Spark核心概念简介
  • 2.4 独立应用
  • 2.4.1 初始化SparkContext
  • 2.4.2 构建独立应用
  • 2.5 总结
  • 第3章 RDD 编程
  • 3.1 RDD基础
  • 3.2 创建RDD
  • 3.3 RDD操作
  • 3.3.1 转化操作
  • 3.3.2 行动操作
  • 3.3.3 惰性求值
  • 3.4 向Spark传递函数
  • 3.4.1 Python
  • 3.4.2 Scala
  • 3.4.3 Java
  • 3.5 常见的转化操作和行动操作
  • 3.5.1 基本RDD
  • 3.5.2 在不同RDD类型间转换
  • 3.6 持久化(缓存)
  • 3.7 总结
  • 第4章 键值对操作
  • 4.1 动机
  • 4.2 创建Pair RDD
  • 4.3 Pair RDD的转化操作
  • 4.3.1 聚合操作
  • 4.3.2 数据分组
  • 4.3.3 连接
  • 4.3.4 数据排序
  • 4.4 Pair RDD的行动操作
  • 4.5 数据分区(进阶)
  • 4.5.1 获取RDD的分区方式
  • 4.5.2 从分区中获益的操作
  • 4.5.3 影响分区方式的操作
  • 4.5.4 示例:PageRank
  • 4.5.5 自定义分区方式
  • 4.6 总结
  • 第5章 数据读取与保存
  • 5.1 动机
  • 5.2 文件格式
  • 5.2.1 文本文件
  • 5.2.2 JSON
  • 5.2.3 逗号分隔值与制表符分隔值
  • 5.2.4 SequenceFile
  • 5.2.5 对象文件
  • 5.2.6 Hadoop输入输出格式
  • 5.2.7 文件压缩
  • 5.3 文件系统
  • 5.3.1 本地/“常规”文件系统
  • 5.3.2 Amazon S3
  • 5.3.3 HDFS
  • 5.4 Spark SQL中的结构化数据
  • 5.4.1 Apache Hive
  • 5.4.2 JSON
  • 5.5 数据库
  • 5.5.1 Java数据库连接
  • 5.5.2 Cassandra
  • 5.5.3 HBase
  • 5.5.4 Elasticsearch
  • 5.6 总结
  • 第6章 Spark 编程进阶
  • 6.1 简介
  • 6.2 累加器
  • 6.2.1 累加器与容错性
  • 6.2.2 自定义累加器
  • 6.3 广播变量
  • 广播的优化
  • 6.4 基于分区进行操作
  • 6.5 与外部程序间的管道
  • 6.6 数值RDD的操作
  • 6.7 总结
  • 第7章 在集群上运行 Spark
  • 7.1 简介
  • 7.2 Spark运行时架构
  • 7.2.1 驱动器节点
  • 7.2.2 执行器节点
  • 7.2.3 集群管理器
  • 7.2.4 启动一个程序
  • 7.2.5 小结
  • 7.3 使用spark-submit部署应用
  • 7.4 打包代码与依赖
  • 7.4.1 使用Maven构建的用Java编写的Spark应用
  • 7.4.2 使用sbt构建的用Scala编写的Spark应用
  • 7.4.3 依赖冲突
  • 7.5 Spark应用内与应用间调度
  • 7.6 集群管理器
  • 7.6.1 独立集群管理器
  • 7.6.2 Hadoop YARN
  • 7.6.3 Apache Mesos
  • 7.6.4 Amazon EC2
  • 7.7 选择合适的集群管理器
  • 7.8 总结
  • 第8章 Spark 调优与调试
  • 8.1 使用SparkConf配置Spark
  • 8.2 Spark执行的组成部分:作业、任务和步骤
  • 8.3 查找信息
  • 8.3.1 Spark网页用户界面
  • 8.3.2 驱动器进程和执行器进程的日志
  • 8.4 关键性能考量
  • 8.4.1 并行度
  • 8.4.2 序列化格式
  • 8.4.3 内存管理
  • 8.4.4 硬件供给
  • 8.5 总结
  • 第9章 Spark SQL
  • 9.1 连接Spark SQL
  • 9.2 在应用中使用Spark SQL
  • 9.2.1 初始化Spark SQL
  • 9.2.2 基本查询示例
  • 9.2.3 SchemaRDD
  • 9.2.4 缓存
  • 9.3 读取和存储数据
  • 9.3.1 Apache Hive
  • 9.3.2 Parquet
  • 9.3.3 JSON
  • 9.3.4 基于RDD
  • 9.4 JDBC/ODBC服务器
  • 9.4.1 使用Beeline
  • 9.4.2 长生命周期的表与查询
  • 9.5 用户自定义函数
  • 9.5.1 Spark SQL UDF
  • 9.5.2 Hive UDF
  • 9.6 Spark SQL性能
  • 性能调优选项
  • 9.7 总结
  • 第10章 Spark Streaming
  • 10.1 一个简单的例子
  • 10.2 架构与抽象
  • 10.3 转化操作
  • 10.3.1 无状态转化操作
  • 10.3.2 有状态转化操作
  • 10.4 输出操作
  • 10.5 输入源
  • 10.5.1 核心数据源
  • 10.5.2 附加数据源
  • 10.5.3 多数据源与集群规模
  • 10.6 24/7不间断运行
  • 10.6.1 检查点机制
  • 10.6.2 驱动器程序容错
  • 10.6.3 工作节点容错
  • 10.6.4 接收器容错
  • 10.6.5 处理保证
  • 10.7 Streaming用户界面
  • 10.8 性能考量
  • 10.8.1 批次和窗口大小
  • 10.8.2 并行度
  • 10.8.3 垃圾回收和内存使用
  • 10.9 总结
  • 第11章 基于 MLlib 的机器学习
  • 11.1 概述
  • 11.2 系统要求
  • 11.3 机器学习基础
  • 示例:垃圾邮件分类
  • 11.4 数据类型
  • 操作向量
  • 11.5 算法
  • 11.5.1 特征提取
  • 11.5.2 统计
  • 11.5.3 分类与回归
  • 11.5.4 聚类
  • 11.5.5 协同过滤与推荐
  • 11.5.6 降维
  • 11.5.7 模型评估
  • 11.6 一些提示与性能考量
  • 11.6.1 准备特征
  • 11.6.2 配置算法
  • 11.6.3 缓存RDD以重复使用
  • 11.6.4 识别稀疏程度
  • 11.6.5 并行度
  • 11.7 流水线API
  • 11.8 总结
  • 作者简介
  • 封面介绍
  • 看完了
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社·图灵出品

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。