主编推荐语
本书主要讲解数据分析与大数据处理所需的技术、基础设施、核心概念、实施流程。
内容简介
本书从编程语言准备、数据采集与清洗、数据分析与可视化,到大型数据的分布式存储与分布式计算,贯穿了整个大数据项目开发流程。本书轻理论、重实践,目的是让读者快速上手。
第1篇首先介绍了Python的基本语法、面向对象开发、模块化设计等,掌握Python的编程方式。然后介绍了多线程、多进程及其相互间的通信,让读者对分布式程序有个基本的认识。第2篇介绍了网络数据采集、数据清洗、数据存储等技术。第3篇介绍了Python常用的数据分析工具,扩展了更多的数据清洗、插值方法,为最终的数据可视化奠定基础。第4篇是大数据分析的重点。首先介绍了Hadoop的框架原理、调度原理,MapReduce原理与编程模型、环境搭建,接着介绍了Spark框架原理、环境搭建方式,以及如何与Hive等第三方工具进行交互,还介绍了新的结构化流式处理技术。第5篇通过三个项目实例,综合介绍了如何分析网页、如何搭建分布式爬虫、如何应对常见的反爬虫、如何设计数据模型、如何设计架构模型、如何在实践中综合运用前四篇涉及的技术。本书既适合非计算机专业的编程“小白”,也适合刚毕业或即将毕业走向工作岗位的广大毕业生,以及已经有编程经验,但想转行做大数据分析的专业人士。同时,还可以作为广大职业院校、电脑培训班的教学参考用书。
目录
- 版权信息
- 内容提要
- 前言
- 第1篇 Python程序设计
- 第1章 Python入门
- 1.1 Python概述
- 1.2 搭建Python开发环境
- 1.3 Python开发工具介绍
- 1.4 Python软件包的管理
- 1.5 实训:编写“Hello World”
- 本章小结
- 第2章 Python基础
- 2.1 变量
- 2.2 标识符
- 2.3 代码组织
- 2.4 输入与输出
- 2.5 运算符与优先级
- 2.6 新手问答
- 2.7 实训:设计一个简易计算器
- 本章小结
- 第3章 数据类型与流程控制
- 3.1 数字类型
- 3.2 字符串类型
- 3.3 集合类型
- 3.4 流程控制语句
- 3.5 新手问答
- 3.6 实训:设计算法,输出乘法表
- 本章小结
- 第4章 函数、模块、包
- 4.1 自定义函数
- 4.2 函数参数
- 4.3 函数式编程
- 4.4 模块与包
- 4.5 新手问答
- 4.6 实训:设计算法,对列表进行排序
- 本章小结
- 第5章 面向对象的程序设计
- 5.1 面向对象
- 5.2 自定义类
- 5.3 属性
- 5.4 方法
- 5.5 类的继承
- 5.6 可调用对象
- 5.7 不可变对象
- 5.8 新手问答
- 5.9 实训:设计算法,构造一棵二叉树
- 本章小结
- 第6章 高级主题
- 6.1 生成器
- 6.2 迭代器
- 6.3 异步处理
- 6.4 错误、调试
- 6.5 新手问答
- 6.6 实训:使用多进程技术统计数据并汇总
- 本章小结
- 第2篇 数据采集与数据清洗
- 第7章 网络数据采集
- 7.1 HTTP请求概述
- 7.2 XPath网页解析
- 7.3 Scrapy数据采集入门
- 7.4 Scrapy应对反爬虫程序
- 7.5 CrawlSpider类
- 7.6 分布式爬虫
- 7.7 新手问答
- 7.8 实训:构建百度云音乐爬虫
- 本章小结
- 第8章 数据清洗
- 8.1 数据清洗的意义
- 8.2 数据清洗的内容
- 8.3 数据格式与存储类型
- 8.4 数据清洗的步骤
- 8.5 数据清洗的工具
- 8.6 新手问答
- 8.7 实训:清洗百度云音乐数据并储存到CSV
- 本章小结
- 第3篇 数据分析与可视化
- 第9章 NumPy数值计算
- 9.1 NumPy基础
- 9.2 形状操作
- 9.3 副本、浅拷贝和深拷贝
- 9.4 高级索引
- 9.5 排序统计
- 9.6 新手问答
- 9.7 实训:销售额统计
- 本章小结
- 第10章 Matplotlib可视化
- 10.1 图形的基本要素
- 10.2 绘图基础
- 10.3 设置样式
- 10.4 图形样例
- 10.5 新手问答
- 10.6 实训:营业数据可视化
- 本章小结
- 第11章 Pandas统计分析
- 11.1 Pandas数据结构
- 11.2 基础功能
- 11.3 统计分析
- 11.4 时间数据
- 11.5 数据整理
- 11.6 高级功能
- 11.7 读写MySQL数据库
- 11.8 新手问答
- 11.9 实训:成绩分析
- 本章小结
- 第12章 Seaborn可视化
- 12.1 Seaborn概述
- 12.2 可视化数据关系
- 12.3 根据数据分类绘图
- 12.4 单变量与双变量
- 12.5 线性关系
- 12.6 新手问答
- 12.7 实训:成绩分析可视化
- 本章小结
- 第4篇 大数据存储与快速分析篇
- 第13章 Hadoop数据存储与基本操作
- 13.1 Hadoop概述
- 13.2 Hadoop数据存储与任务调度原理
- 13.3 Hadoop基础环境搭建
- 13.4 Hadoop部署模式
- 13.5 Hadoop常用操作命令
- 13.6 新手问答
- 13.7 实训:动手搭建Hadoop集群环境
- 本章小结
- 第14章 Spark入门
- 14.1 Spark概述
- 14.2 Spark核心原理
- 14.3 Spark基础环境搭建
- 14.4 Spark运行模式
- 14.5 新手问答
- 14.6 实训:动手搭建Spark集群
- 本章小结
- 第15章 Spark RDD编程
- 15.1 RDD设计原理
- 15.2 RDD编程
- 15.3 键值对RDD
- 15.4 文件读写
- 15.5 编程进阶
- 15.6 新手问答
- 15.7 实训:统计海鲜销售情况
- 本章小结
- 第16章 Spark SQL编程
- 16.1 Spark SQL概述
- 16.2 创建DataFrame对象
- 16.3 DataFrame常用API
- 16.4 保存DataFrame
- 16.5 新手问答
- 16.6 实训:统计手机销售情况
- 本章小结
- 第17章 Spark流式计算编程
- 17.1 流计算简介
- 17.2 Discretized Stream
- 17.3 Structured Streaming
- 17.4 新手问答
- 17.5 实训:实时统计贷款金额
- 本章小结
- 第5篇 项目实战篇
- 第18章 分析电商网站销售数据
- 18.1 目标分析
- 18.2 数据采集
- 18.3 数据分析
- 本章小结
- 第19章 分析旅游网站数据
- 19.1 目标分析
- 19.2 数据采集
- 19.3 数据分析
- 本章小结
- 第20章 分析在售二手房数据
- 20.1 目标分析
- 20.2 数据采集
- 20.3 数据分析
- 本章小结
- 附录: Python常见面试题精选
- 主要参考文献
出版方
北京大学出版社
北京大学出版社是在1979年,经国家出版事业管理局同意,教育部批准成立的,恢复了北京大学出版社建制。北京大学出版社依靠北大雄厚的教学、科研力量,同时积极争取国内外专家学者的合作支持,出版了大量高水平、高质量、适应多层次需要的优秀高等教育教材。 北大出版社注意对教材进行全面追踪,捕捉信息,及时修订,以跟上各学科的最新发展,反映该学科研究的最新成果,保持北大版教材的领先地位。
