展开全部

主编推荐语

系统介绍pypark开发环境搭建及大数据分析。

内容简介

本书以python作为开发语言,系统介绍pypark开发环境搭建流程及基于pypark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。

本书共7章,第1~5章包括pypark大数据分析概述、pypark安装配置、基于pypark的dataframe作、基于pypark的流式数据处理、基于pypark的机器学库,内容介绍注重理论与实践相结合,通过典型示例强化pypark在大数据分析中的实际应用;

第6、7章通过基于pypark的网络招聘信息的职业类型划分和基于pypark的信用贷款风险分析两个完整的案例实战,结合前5章的pypark编程知识,实现完整的大数据分析过程。

本书大部分章包含实训和课后题,读者通过练和作实践,能够巩固所学的内容。

目录

  • 版权信息
  • 内容提要
  • 大数据技术精品系列教材专家委员会
  • 前言
  • 第1章 PySpark大数据分析概述
  • 1.1 大数据分析概述
  • 1.1.1 大数据的概念
  • 1.1.2 大数据分析的概念
  • 1.1.3 大数据分析的流程
  • 1.1.4 大数据分析的应用场景
  • 1.1.5 大数据技术体系
  • 1.2 Spark大数据技术框架
  • 1.2.1 Spark简介
  • 1.2.2 Spark特点
  • 1.2.3 Spark运行架构与流程
  • 1.2.4 Spark RDD
  • 1.2.5 Spark生态圈
  • 1.3 PySpark大数据分析
  • 1.3.1 PySpark简介
  • 1.3.2 PySpark子模块
  • 小结
  • 课后习题
  • 第2章 PySpark安装配置
  • 2.1 搭建单机模式的PySpark开发环境
  • 2.1.1 安装JDK
  • 2.1.2 安装Anaconda
  • 2.1.3 安装Hadoop
  • 2.1.4 安装MySQL
  • 2.1.5 安装Hive
  • 2.1.6 配置PySpark模块
  • 2.1.7 运行Jupyter Notebook
  • 2.2 搭建分布式模式的PySpark开发环境
  • 2.2.1 安装配置虚拟机
  • 2.2.2 安装Java
  • 2.2.3 搭建Hadoop分布式集群
  • 2.2.4 安装MySQL数据库
  • 2.2.5 安装Hive数据仓库工具
  • 2.2.6 搭建Spark完全分布式集群
  • 2.2.7 安装PyCharm
  • 2.2.8 安装Python解释器及PySpark模块
  • 2.3 Python函数式编程
  • 2.3.1 Python常用数据结构
  • 2.3.2 Python函数式编程基础
  • 小结
  • 课后习题
  • 第3章 基于PySpark的DataFrame操作
  • 3.1 Spark SQL概述
  • 3.1.1 Spark SQL起源与发展历程
  • 3.1.2 Spark SQL主要功能
  • 3.1.3 Spark SQL数据核心抽象DataFrame
  • 3.2 pyspark.sql模块
  • 3.2.1 pyspark.sql模块简介
  • 3.2.2 pyspark.sql模块核心类
  • 3.3 DataFrame基础操作
  • 3.3.1 创建DataFrame对象
  • 3.3.2 DataFrame操作
  • 3.3.3 DataFrame输出操作
  • 小结
  • 实训
  • 实训1 网站搜索热词统计分析
  • 实训2 大数据岗位招聘信息统计分析
  • 课后习题
  • 第4章 基于PySpark的流式数据处理
  • 4.1 Spark Streaming概述
  • 4.1.1 流计算简介
  • 4.1.2 Spark Streaming基本概念
  • 4.1.3 Spark Streaming工作原理
  • 4.1.4 Spark Streaming运行机制
  • 4.2 pyspark.streaming模块
  • 4.2.1 pyspark.streaming模块简介
  • 4.2.2 pyspark.streaming模块核心类
  • 4.2.3 DStream基础操作
  • 4.3 Structured Streaming结构化流处理
  • 4.3.1 Structured Streaming概述
  • 4.3.2 Structured Streaming编程模型
  • 4.3.3 Structured Streaming基础操作
  • 4.3.4 Structured Streaming编程步骤
  • 小结
  • 实训
  • 实训1 使用Spark Streaming实现菜品价格实时计算
  • 实训2 使用Spark Streaming实时判别车辆所属地
  • 课后习题
  • 第5章 基于PySpark的机器学习库
  • 5.1 MLlib算法
  • 5.1.1 机器学习
  • 5.1.2 MLlib
  • 5.1.3 pyspark.ml模块
  • 5.2 使用pyspark.ml模块的转换器处理和转换数据
  • 5.2.1 数据加载及数据集划分
  • 5.2.2 数据降维
  • 5.2.3 数据标准化
  • 5.2.4 数据类型转换
  • 5.3 pyspark.ml模块的评估器和模型评估
  • 5.3.1 使用PySpark构建并评估分类模型
  • 5.3.2 使用PySpark构建并评估回归模型
  • 5.3.3 使用PySpark构建并评估聚类模型
  • 5.3.4 使用PySpark构建并评估智能推荐模型
  • 小结
  • 实训
  • 实训1 使用随机森林模型预测是否批准用户申请
  • 实训2 使用回归模型实现房价预测
  • 课后习题
  • 第6章 案例分析:基于PySpark的网络招聘信息的职业类型划分
  • 6.1 需求与架构分析
  • 6.1.1 业务需求分析与技术选型
  • 6.1.2 系统架构分析
  • 6.2 数据探索
  • 6.2.1 数据说明
  • 6.2.2 数据读取
  • 6.2.3 重复数据与空值探索
  • 6.2.4 异常数据探索
  • 6.3 数据预处理
  • 6.3.1 数据清洗
  • 6.3.2 中文分词与去停用词
  • 6.3.3 词特征向量化
  • 6.4 模型构建与评估
  • 6.4.1 LDA算法简介
  • 6.4.2 LDA模型构建与评估
  • 6.4.3 构建LDA模型
  • 6.5 制作词云图
  • 小结
  • 第7章 案例分析:基于PySpark的信用贷款风险分析
  • 7.1 需求与架构分析
  • 7.1.1 业务需求分析
  • 7.1.2 系统架构分析
  • 7.2 数据探索
  • 7.2.1 数据说明
  • 7.2.2 建立数据仓库并导入数据
  • 7.2.3 用户信息完善情况与逾期率的关系探索
  • 7.2.4 用户信息修改情况与逾期率的关系探索
  • 7.2.5 用户借款月份与逾期率的关系探索
  • 7.3 数据预处理
  • 7.3.1 计算用户信息缺失个数及借款月份构建新特征
  • 7.3.2 用户更新信息重建
  • 7.3.3 用户登录信息重建
  • 7.3.4 分类数据预处理
  • 7.3.5 字符串字段编码处理
  • 7.3.6 分类数据重编码
  • 7.3.7 缺失值处理
  • 7.4 模型构建与评估
  • 7.4.1 了解GBTs算法
  • 7.4.2 构建GBTs模型
  • 7.4.3 评估GBTs模型
  • 7.5 部署和提交PySpark应用程序
  • 7.5.1 打包PySpark应用程序
  • 7.5.2 提交PySpark应用程序
  • 小结
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。