互联网
类型
可以朗读
语音朗读
144千字
字数
2024-04-01
发行日期
展开全部
主编推荐语
系统介绍pypark开发环境搭建及大数据分析。
内容简介
本书以python作为开发语言,系统介绍pypark开发环境搭建流程及基于pypark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。
本书共7章,第1~5章包括pypark大数据分析概述、pypark安装配置、基于pypark的dataframe作、基于pypark的流式数据处理、基于pypark的机器学库,内容介绍注重理论与实践相结合,通过典型示例强化pypark在大数据分析中的实际应用;
第6、7章通过基于pypark的网络招聘信息的职业类型划分和基于pypark的信用贷款风险分析两个完整的案例实战,结合前5章的pypark编程知识,实现完整的大数据分析过程。
本书大部分章包含实训和课后题,读者通过练和作实践,能够巩固所学的内容。
目录
- 版权信息
- 内容提要
- 大数据技术精品系列教材专家委员会
- 序
- 前言
- 第1章 PySpark大数据分析概述
- 1.1 大数据分析概述
- 1.1.1 大数据的概念
- 1.1.2 大数据分析的概念
- 1.1.3 大数据分析的流程
- 1.1.4 大数据分析的应用场景
- 1.1.5 大数据技术体系
- 1.2 Spark大数据技术框架
- 1.2.1 Spark简介
- 1.2.2 Spark特点
- 1.2.3 Spark运行架构与流程
- 1.2.4 Spark RDD
- 1.2.5 Spark生态圈
- 1.3 PySpark大数据分析
- 1.3.1 PySpark简介
- 1.3.2 PySpark子模块
- 小结
- 课后习题
- 第2章 PySpark安装配置
- 2.1 搭建单机模式的PySpark开发环境
- 2.1.1 安装JDK
- 2.1.2 安装Anaconda
- 2.1.3 安装Hadoop
- 2.1.4 安装MySQL
- 2.1.5 安装Hive
- 2.1.6 配置PySpark模块
- 2.1.7 运行Jupyter Notebook
- 2.2 搭建分布式模式的PySpark开发环境
- 2.2.1 安装配置虚拟机
- 2.2.2 安装Java
- 2.2.3 搭建Hadoop分布式集群
- 2.2.4 安装MySQL数据库
- 2.2.5 安装Hive数据仓库工具
- 2.2.6 搭建Spark完全分布式集群
- 2.2.7 安装PyCharm
- 2.2.8 安装Python解释器及PySpark模块
- 2.3 Python函数式编程
- 2.3.1 Python常用数据结构
- 2.3.2 Python函数式编程基础
- 小结
- 课后习题
- 第3章 基于PySpark的DataFrame操作
- 3.1 Spark SQL概述
- 3.1.1 Spark SQL起源与发展历程
- 3.1.2 Spark SQL主要功能
- 3.1.3 Spark SQL数据核心抽象DataFrame
- 3.2 pyspark.sql模块
- 3.2.1 pyspark.sql模块简介
- 3.2.2 pyspark.sql模块核心类
- 3.3 DataFrame基础操作
- 3.3.1 创建DataFrame对象
- 3.3.2 DataFrame操作
- 3.3.3 DataFrame输出操作
- 小结
- 实训
- 实训1 网站搜索热词统计分析
- 实训2 大数据岗位招聘信息统计分析
- 课后习题
- 第4章 基于PySpark的流式数据处理
- 4.1 Spark Streaming概述
- 4.1.1 流计算简介
- 4.1.2 Spark Streaming基本概念
- 4.1.3 Spark Streaming工作原理
- 4.1.4 Spark Streaming运行机制
- 4.2 pyspark.streaming模块
- 4.2.1 pyspark.streaming模块简介
- 4.2.2 pyspark.streaming模块核心类
- 4.2.3 DStream基础操作
- 4.3 Structured Streaming结构化流处理
- 4.3.1 Structured Streaming概述
- 4.3.2 Structured Streaming编程模型
- 4.3.3 Structured Streaming基础操作
- 4.3.4 Structured Streaming编程步骤
- 小结
- 实训
- 实训1 使用Spark Streaming实现菜品价格实时计算
- 实训2 使用Spark Streaming实时判别车辆所属地
- 课后习题
- 第5章 基于PySpark的机器学习库
- 5.1 MLlib算法
- 5.1.1 机器学习
- 5.1.2 MLlib
- 5.1.3 pyspark.ml模块
- 5.2 使用pyspark.ml模块的转换器处理和转换数据
- 5.2.1 数据加载及数据集划分
- 5.2.2 数据降维
- 5.2.3 数据标准化
- 5.2.4 数据类型转换
- 5.3 pyspark.ml模块的评估器和模型评估
- 5.3.1 使用PySpark构建并评估分类模型
- 5.3.2 使用PySpark构建并评估回归模型
- 5.3.3 使用PySpark构建并评估聚类模型
- 5.3.4 使用PySpark构建并评估智能推荐模型
- 小结
- 实训
- 实训1 使用随机森林模型预测是否批准用户申请
- 实训2 使用回归模型实现房价预测
- 课后习题
- 第6章 案例分析:基于PySpark的网络招聘信息的职业类型划分
- 6.1 需求与架构分析
- 6.1.1 业务需求分析与技术选型
- 6.1.2 系统架构分析
- 6.2 数据探索
- 6.2.1 数据说明
- 6.2.2 数据读取
- 6.2.3 重复数据与空值探索
- 6.2.4 异常数据探索
- 6.3 数据预处理
- 6.3.1 数据清洗
- 6.3.2 中文分词与去停用词
- 6.3.3 词特征向量化
- 6.4 模型构建与评估
- 6.4.1 LDA算法简介
- 6.4.2 LDA模型构建与评估
- 6.4.3 构建LDA模型
- 6.5 制作词云图
- 小结
- 第7章 案例分析:基于PySpark的信用贷款风险分析
- 7.1 需求与架构分析
- 7.1.1 业务需求分析
- 7.1.2 系统架构分析
- 7.2 数据探索
- 7.2.1 数据说明
- 7.2.2 建立数据仓库并导入数据
- 7.2.3 用户信息完善情况与逾期率的关系探索
- 7.2.4 用户信息修改情况与逾期率的关系探索
- 7.2.5 用户借款月份与逾期率的关系探索
- 7.3 数据预处理
- 7.3.1 计算用户信息缺失个数及借款月份构建新特征
- 7.3.2 用户更新信息重建
- 7.3.3 用户登录信息重建
- 7.3.4 分类数据预处理
- 7.3.5 字符串字段编码处理
- 7.3.6 分类数据重编码
- 7.3.7 缺失值处理
- 7.4 模型构建与评估
- 7.4.1 了解GBTs算法
- 7.4.2 构建GBTs模型
- 7.4.3 评估GBTs模型
- 7.5 部署和提交PySpark应用程序
- 7.5.1 打包PySpark应用程序
- 7.5.2 提交PySpark应用程序
- 小结
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。