互联网
类型
可以朗读
语音朗读
266千字
字数
2018-05-01
发行日期
展开全部
主编推荐语
四位数据科学家携手打造,教你用Spark进行大规模数据分析。
内容简介
本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在第1版的基础上,针对Spark近年来的发展,对样例代码和所使用的资料进行了大量更新。新版Spark使用了全新的核心API,MLlib和Spark SQL两个子项目也发生了较大变化,本书为关注Spark发展趋势的读者提供了与时俱进的资料,例如Dataset和DataFrame的使用,以及与DataFrame API高度集成的Spark ML API。
目录
- 版权信息
- O'Reilly Media, Inc. 介绍
- 业界评论
- 推荐序
- 译者序
- 序
- 前言
- 本书内容
- 第2版说明
- 使用代码示例
- O'Reilly Safari
- 联系我们
- 致谢
- 电子版
- 第1章 大数据分析
- 1.1 数据科学面临的挑战
- 1.2 认识Apache Spark
- 1.3 关于本书
- 1.4 第2版说明
- 第2章 用Scala和Spark进行数据分析
- 2.1 数据科学家的Scala
- 2.2 Spark编程模型
- 2.3 记录关联问题
- 2.4 小试牛刀:Spark shell和SparkContext
- 2.5 把数据从集群上获取到客户端
- 2.6 把代码从客户端发送到集群
- 2.7 从RDD到DataFrame
- 2.8 用DataFrame API来分析数据
- 2.9 DataFrame的统计信息
- 2.10 DataFrame的转置和重塑
- 2.11 DataFrame的连接和特征选择
- 2.12 为生产环境准备模型
- 2.13 评估模型
- 2.14 小结
- 第3章 音乐推荐和Audioscrobbler数据集
- 3.1 数据集
- 3.2 交替最小二乘推荐算法
- 3.3 准备数据
- 3.4 构建第一个模型
- 3.5 逐个检查推荐结果
- 3.6 评价推荐质量
- 3.7 计算AUC
- 3.8 选择超参数
- 3.9 产生推荐
- 3.10 小结
- 第4章 用决策树算法预测森林植被
- 4.1 回归简介
- 4.2 向量和特征
- 4.3 样本训练
- 4.4 决策树和决策森林
- 4.5 Covtype数据集
- 4.6 准备数据
- 4.7 第一棵决策树
- 4.8 决策树的超参数
- 4.9 决策树调优
- 4.10 重谈类别型特征
- 4.11 随机决策森林
- 4.12 进行预测
- 4.13 小结
- 第5章 基于K均值聚类的网络流量异常检测
- 5.1 异常检测
- 5.2 K均值聚类
- 5.3 网络入侵
- 5.4 KDD Cup 1999数据集
- 5.5 初步尝试聚类
- 5.6 k的选择
- 5.7 基于SparkR的可视化
- 5.8 特征的规范化
- 5.9 类别型变量
- 5.10 利用标号的熵信息
- 5.11 聚类实战
- 5.12 小结
- 第6章 基于潜在语义分析算法分析维基百科
- 6.1 文档-词项矩阵
- 6.2 获取数据
- 6.3 分析和准备数据
- 6.4 词形归并
- 6.5 计算TF-IDF
- 6.6 奇异值分解
- 6.7 找出重要的概念
- 6.8 基于低维近似的查询和评分
- 6.9 词项-词项相关度
- 6.10 文档-文档相关度
- 6.11 文档-词项相关度
- 6.12 多词项查询
- 6.13 小结
- 第7章 用GraphX分析伴生网络
- 7.1 对MEDLINE文献引用索引的网络分析
- 7.2 获取数据
- 7.3 用Scala XML工具解析XML文档
- 7.4 分析MeSH主要主题及其伴生关系
- 7.5 用GraphX来建立一个伴生网络
- 7.6 理解网络结构
- 7.7 过滤噪声边
- 7.8 小世界网络
- 7.9 小结
- 第8章 纽约出租车轨迹的空间和时间数据分析
- 8.1 数据的获取
- 8.2 基于Spark的第三方库分析
- 8.3 基于Esri Geometry API和Spray的地理空间数据处理
- 8.4 纽约市出租车客运数据的预处理
- 8.5 基于Spark的会话分析
- 8.6 小结
- 第9章 基于蒙特卡罗模拟的金融风险评估
- 9.1 术语
- 9.2 VaR计算方法
- 9.3 我们的模型
- 9.4 获取数据
- 9.5 数据预处理
- 9.6 确定市场因素的权重
- 9.7 采样
- 9.8 运行试验
- 9.9 回报分布的可视化
- 9.10 结果的评估
- 9.11 小结
- 第10章 基因数据分析和BDG项目
- 10.1 分离存储与模型
- 10.2 用ADAM CLI导入基因学数据
- 10.3 从ENCODE数据预测转录因子结合位点
- 10.4 查询1000 Genomes项目中的基因型
- 10.5 小结
- 第11章 基于PySpark和Thunder的神经图像数据分析
- 11.1 PySpark简介
- 11.2 Thunder工具包概况和安装
- 11.3 用Thunder加载数据
- 11.4 用Thunder对神经元进行分类
- 11.5 小结
- 作者介绍
- 封面介绍
- 看完了
展开全部
出版方
人民邮电出版社·图灵出品
图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。