展开全部

主编推荐语

介绍Spark的基础知识,从利用Spark API来载入和处理数据,到将数据作为多种机器学习模型的输入。

内容简介

本书每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了Spark的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据开始讲起,全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用。

目录

  • 版权信息
  • 前言
  • 致谢
  • 第1章 Spark的环境搭建与运行
  • 1.1 Spark的本地安装与配置
  • 1.2 Spark集群
  • 1.3 Spark编程模型
  • 1.4 Spark Scala编程入门
  • 1.5 Spark Java编程入门
  • 1.6 Spark Python编程入门
  • 1.7 在Amazon EC2上运行Spark
  • 1.8 小结
  • 第2章 设计机器学习系统
  • 2.1 MovieStream介绍
  • 2.2 机器学习系统商业用例
  • 2.3 机器学习模型的种类
  • 2.4 数据驱动的机器学习系统的组成
  • 2.5 机器学习系统架构
  • 2.6 小结
  • 第3章 Spark上数据的获取、处理与准备
  • 3.1 获取公开数据集
  • 3.2 探索与可视化数据
  • 3.3 处理与转换数据
  • 3.4 从数据中提取有用特征
  • 3.5 小结
  • 第4章 构建基于Spark的推荐引擎
  • 4.1 推荐模型的分类
  • 4.2 提取有效特征
  • 4.3 训练推荐模型
  • 4.4 使用推荐模型
  • 4.5 推荐模型效果的评估
  • 4.6 小结
  • 第5章 Spark构建分类模型
  • 5.1 分类模型的种类
  • 5.2 从数据中抽取合适的特征
  • 5.3 训练分类模型
  • 5.4 使用分类模型
  • 5.5 评估分类模型的性能
  • 5.6 改进模型性能以及参数调优
  • 5.7 小结
  • 第6章 Spark构建回归模型
  • 6.1 回归模型的种类
  • 6.2 从数据中抽取合适的特征
  • 6.3 回归模型的训练和应用
  • 6.4 评估回归模型的性能
  • 6.5 改进模型性能和参数调优
  • 6.6 小结
  • 第7章 Spark构建聚类模型
  • 7.1 聚类模型的类型
  • 7.2 从数据中提取正确的特征
  • 7.3 训练聚类模型
  • 7.4 使用聚类模型进行预测
  • 7.5 评估聚类模型的性能
  • 7.6 聚类模型参数调优
  • 7.7 小结
  • 第8章 Spark应用于数据降维
  • 8.1 降维方法的种类
  • 8.2 从数据中抽取合适的特征
  • 8.3 训练降维模型
  • 8.4 使用降维模型
  • 8.5 评价降维模型
  • 8.6 小结
  • 第9章 Spark高级文本处理技术
  • 9.1 处理文本数据有什么特别之处
  • 9.2 从数据中抽取合适的特征
  • 9.3 使用TF-IDF模型
  • 9.4 评估文本处理技术的作用
  • 9.5 Word2Vec模型
  • 9.6 小结
  • 第10章 Spark Streaming在实时机器学习上的应用
  • 10.1 在线学习
  • 10.2 流处理
  • 10.3 创建Spark Streaming应用
  • 10.4 使用Spark Streaming进行在线学习
  • 10.5 在线模型评估
  • 10.6 小结
  • 看完了
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社·图灵出品

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。