展开全部

主编推荐语

四位数据科学家携手打造,教你用Spark进行大规模数据分析。

内容简介

本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在第1版的基础上,针对Spark近年来的发展,对样例代码和所使用的资料进行了大量更新。新版Spark使用了全新的核心API,MLlib和Spark SQL两个子项目也发生了较大变化,本书为关注Spark发展趋势的读者提供了与时俱进的资料,例如Dataset和DataFrame的使用,以及与DataFrame API高度集成的Spark ML API。

目录

  • 版权信息
  • O'Reilly Media, Inc. 介绍
  • 业界评论
  • 推荐序
  • 译者序
  • 前言
  • 本书内容
  • 第2版说明
  • 使用代码示例
  • O'Reilly Safari
  • 联系我们
  • 致谢
  • 电子版
  • 第1章 大数据分析
  • 1.1 数据科学面临的挑战
  • 1.2 认识Apache Spark
  • 1.3 关于本书
  • 1.4 第2版说明
  • 第2章 用Scala和Spark进行数据分析
  • 2.1 数据科学家的Scala
  • 2.2 Spark编程模型
  • 2.3 记录关联问题
  • 2.4 小试牛刀:Spark shell和SparkContext
  • 2.5 把数据从集群上获取到客户端
  • 2.6 把代码从客户端发送到集群
  • 2.7 从RDD到DataFrame
  • 2.8 用DataFrame API来分析数据
  • 2.9 DataFrame的统计信息
  • 2.10 DataFrame的转置和重塑
  • 2.11 DataFrame的连接和特征选择
  • 2.12 为生产环境准备模型
  • 2.13 评估模型
  • 2.14 小结
  • 第3章 音乐推荐和Audioscrobbler数据集
  • 3.1 数据集
  • 3.2 交替最小二乘推荐算法
  • 3.3 准备数据
  • 3.4 构建第一个模型
  • 3.5 逐个检查推荐结果
  • 3.6 评价推荐质量
  • 3.7 计算AUC
  • 3.8 选择超参数
  • 3.9 产生推荐
  • 3.10 小结
  • 第4章 用决策树算法预测森林植被
  • 4.1 回归简介
  • 4.2 向量和特征
  • 4.3 样本训练
  • 4.4 决策树和决策森林
  • 4.5 Covtype数据集
  • 4.6 准备数据
  • 4.7 第一棵决策树
  • 4.8 决策树的超参数
  • 4.9 决策树调优
  • 4.10 重谈类别型特征
  • 4.11 随机决策森林
  • 4.12 进行预测
  • 4.13 小结
  • 第5章 基于K均值聚类的网络流量异常检测
  • 5.1 异常检测
  • 5.2 K均值聚类
  • 5.3 网络入侵
  • 5.4 KDD Cup 1999数据集
  • 5.5 初步尝试聚类
  • 5.6 k的选择
  • 5.7 基于SparkR的可视化
  • 5.8 特征的规范化
  • 5.9 类别型变量
  • 5.10 利用标号的熵信息
  • 5.11 聚类实战
  • 5.12 小结
  • 第6章 基于潜在语义分析算法分析维基百科
  • 6.1 文档-词项矩阵
  • 6.2 获取数据
  • 6.3 分析和准备数据
  • 6.4 词形归并
  • 6.5 计算TF-IDF
  • 6.6 奇异值分解
  • 6.7 找出重要的概念
  • 6.8 基于低维近似的查询和评分
  • 6.9 词项-词项相关度
  • 6.10 文档-文档相关度
  • 6.11 文档-词项相关度
  • 6.12 多词项查询
  • 6.13 小结
  • 第7章 用GraphX分析伴生网络
  • 7.1 对MEDLINE文献引用索引的网络分析
  • 7.2 获取数据
  • 7.3 用Scala XML工具解析XML文档
  • 7.4 分析MeSH主要主题及其伴生关系
  • 7.5 用GraphX来建立一个伴生网络
  • 7.6 理解网络结构
  • 7.7 过滤噪声边
  • 7.8 小世界网络
  • 7.9 小结
  • 第8章 纽约出租车轨迹的空间和时间数据分析
  • 8.1 数据的获取
  • 8.2 基于Spark的第三方库分析
  • 8.3 基于Esri Geometry API和Spray的地理空间数据处理
  • 8.4 纽约市出租车客运数据的预处理
  • 8.5 基于Spark的会话分析
  • 8.6 小结
  • 第9章 基于蒙特卡罗模拟的金融风险评估
  • 9.1 术语
  • 9.2 VaR计算方法
  • 9.3 我们的模型
  • 9.4 获取数据
  • 9.5 数据预处理
  • 9.6 确定市场因素的权重
  • 9.7 采样
  • 9.8 运行试验
  • 9.9 回报分布的可视化
  • 9.10 结果的评估
  • 9.11 小结
  • 第10章 基因数据分析和BDG项目
  • 10.1 分离存储与模型
  • 10.2 用ADAM CLI导入基因学数据
  • 10.3 从ENCODE数据预测转录因子结合位点
  • 10.4 查询1000 Genomes项目中的基因型
  • 10.5 小结
  • 第11章 基于PySpark和Thunder的神经图像数据分析
  • 11.1 PySpark简介
  • 11.2 Thunder工具包概况和安装
  • 11.3 用Thunder加载数据
  • 11.4 用Thunder对神经元进行分类
  • 11.5 小结
  • 作者介绍
  • 封面介绍
  • 看完了
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社·图灵出品

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。