展开全部

主编推荐语

本书主要讲解数据分析与大数据处理所需的技术、基础设施、核心概念、实施流程。

内容简介

本书从编程语言准备、数据采集与清洗、数据分析与可视化,到大型数据的分布式存储与分布式计算,贯穿了整个大数据项目开发流程。本书轻理论、重实践,目的是让读者快速上手。

第1篇首先介绍了Python的基本语法、面向对象开发、模块化设计等,掌握Python的编程方式。然后介绍了多线程、多进程及其相互间的通信,让读者对分布式程序有个基本的认识。第2篇介绍了网络数据采集、数据清洗、数据存储等技术。第3篇介绍了Python常用的数据分析工具,扩展了更多的数据清洗、插值方法,为最终的数据可视化奠定基础。第4篇是大数据分析的重点。首先介绍了Hadoop的框架原理、调度原理,MapReduce原理与编程模型、环境搭建,接着介绍了Spark框架原理、环境搭建方式,以及如何与Hive等第三方工具进行交互,还介绍了新的结构化流式处理技术。第5篇通过三个项目实例,综合介绍了如何分析网页、如何搭建分布式爬虫、如何应对常见的反爬虫、如何设计数据模型、如何设计架构模型、如何在实践中综合运用前四篇涉及的技术。本书既适合非计算机专业的编程“小白”,也适合刚毕业或即将毕业走向工作岗位的广大毕业生,以及已经有编程经验,但想转行做大数据分析的专业人士。同时,还可以作为广大职业院校、电脑培训班的教学参考用书。

目录

  • 版权信息
  • 内容提要
  • 前言
  • 第1篇 Python程序设计
  • 第1章 Python入门
  • 1.1 Python概述
  • 1.2 搭建Python开发环境
  • 1.3 Python开发工具介绍
  • 1.4 Python软件包的管理
  • 1.5 实训:编写“Hello World”
  • 本章小结
  • 第2章 Python基础
  • 2.1 变量
  • 2.2 标识符
  • 2.3 代码组织
  • 2.4 输入与输出
  • 2.5 运算符与优先级
  • 2.6 新手问答
  • 2.7 实训:设计一个简易计算器
  • 本章小结
  • 第3章 数据类型与流程控制
  • 3.1 数字类型
  • 3.2 字符串类型
  • 3.3 集合类型
  • 3.4 流程控制语句
  • 3.5 新手问答
  • 3.6 实训:设计算法,输出乘法表
  • 本章小结
  • 第4章 函数、模块、包
  • 4.1 自定义函数
  • 4.2 函数参数
  • 4.3 函数式编程
  • 4.4 模块与包
  • 4.5 新手问答
  • 4.6 实训:设计算法,对列表进行排序
  • 本章小结
  • 第5章 面向对象的程序设计
  • 5.1 面向对象
  • 5.2 自定义类
  • 5.3 属性
  • 5.4 方法
  • 5.5 类的继承
  • 5.6 可调用对象
  • 5.7 不可变对象
  • 5.8 新手问答
  • 5.9 实训:设计算法,构造一棵二叉树
  • 本章小结
  • 第6章 高级主题
  • 6.1 生成器
  • 6.2 迭代器
  • 6.3 异步处理
  • 6.4 错误、调试
  • 6.5 新手问答
  • 6.6 实训:使用多进程技术统计数据并汇总
  • 本章小结
  • 第2篇 数据采集与数据清洗
  • 第7章 网络数据采集
  • 7.1 HTTP请求概述
  • 7.2 XPath网页解析
  • 7.3 Scrapy数据采集入门
  • 7.4 Scrapy应对反爬虫程序
  • 7.5 CrawlSpider类
  • 7.6 分布式爬虫
  • 7.7 新手问答
  • 7.8 实训:构建百度云音乐爬虫
  • 本章小结
  • 第8章 数据清洗
  • 8.1 数据清洗的意义
  • 8.2 数据清洗的内容
  • 8.3 数据格式与存储类型
  • 8.4 数据清洗的步骤
  • 8.5 数据清洗的工具
  • 8.6 新手问答
  • 8.7 实训:清洗百度云音乐数据并储存到CSV
  • 本章小结
  • 第3篇 数据分析与可视化
  • 第9章 NumPy数值计算
  • 9.1 NumPy基础
  • 9.2 形状操作
  • 9.3 副本、浅拷贝和深拷贝
  • 9.4 高级索引
  • 9.5 排序统计
  • 9.6 新手问答
  • 9.7 实训:销售额统计
  • 本章小结
  • 第10章 Matplotlib可视化
  • 10.1 图形的基本要素
  • 10.2 绘图基础
  • 10.3 设置样式
  • 10.4 图形样例
  • 10.5 新手问答
  • 10.6 实训:营业数据可视化
  • 本章小结
  • 第11章 Pandas统计分析
  • 11.1 Pandas数据结构
  • 11.2 基础功能
  • 11.3 统计分析
  • 11.4 时间数据
  • 11.5 数据整理
  • 11.6 高级功能
  • 11.7 读写MySQL数据库
  • 11.8 新手问答
  • 11.9 实训:成绩分析
  • 本章小结
  • 第12章 Seaborn可视化
  • 12.1 Seaborn概述
  • 12.2 可视化数据关系
  • 12.3 根据数据分类绘图
  • 12.4 单变量与双变量
  • 12.5 线性关系
  • 12.6 新手问答
  • 12.7 实训:成绩分析可视化
  • 本章小结
  • 第4篇 大数据存储与快速分析篇
  • 第13章 Hadoop数据存储与基本操作
  • 13.1 Hadoop概述
  • 13.2 Hadoop数据存储与任务调度原理
  • 13.3 Hadoop基础环境搭建
  • 13.4 Hadoop部署模式
  • 13.5 Hadoop常用操作命令
  • 13.6 新手问答
  • 13.7 实训:动手搭建Hadoop集群环境
  • 本章小结
  • 第14章 Spark入门
  • 14.1 Spark概述
  • 14.2 Spark核心原理
  • 14.3 Spark基础环境搭建
  • 14.4 Spark运行模式
  • 14.5 新手问答
  • 14.6 实训:动手搭建Spark集群
  • 本章小结
  • 第15章 Spark RDD编程
  • 15.1 RDD设计原理
  • 15.2 RDD编程
  • 15.3 键值对RDD
  • 15.4 文件读写
  • 15.5 编程进阶
  • 15.6 新手问答
  • 15.7 实训:统计海鲜销售情况
  • 本章小结
  • 第16章 Spark SQL编程
  • 16.1 Spark SQL概述
  • 16.2 创建DataFrame对象
  • 16.3 DataFrame常用API
  • 16.4 保存DataFrame
  • 16.5 新手问答
  • 16.6 实训:统计手机销售情况
  • 本章小结
  • 第17章 Spark流式计算编程
  • 17.1 流计算简介
  • 17.2 Discretized Stream
  • 17.3 Structured Streaming
  • 17.4 新手问答
  • 17.5 实训:实时统计贷款金额
  • 本章小结
  • 第5篇 项目实战篇
  • 第18章 分析电商网站销售数据
  • 18.1 目标分析
  • 18.2 数据采集
  • 18.3 数据分析
  • 本章小结
  • 第19章 分析旅游网站数据
  • 19.1 目标分析
  • 19.2 数据采集
  • 19.3 数据分析
  • 本章小结
  • 第20章 分析在售二手房数据
  • 20.1 目标分析
  • 20.2 数据采集
  • 20.3 数据分析
  • 本章小结
  • 附录: Python常见面试题精选
  • 主要参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

北京大学出版社

北京大学出版社是在1979年,经国家出版事业管理局同意,教育部批准成立的,恢复了北京大学出版社建制。北京大学出版社依靠北大雄厚的教学、科研力量,同时积极争取国内外专家学者的合作支持,出版了大量高水平、高质量、适应多层次需要的优秀高等教育教材。 北大出版社注意对教材进行全面追踪,捕捉信息,及时修订,以跟上各学科的最新发展,反映该学科研究的最新成果,保持北大版教材的领先地位。