展开全部

主编推荐语

详细介绍使用Python进行数据分析程序开发应掌握的各方面技术。

内容简介

全书共分21章,包括数据分析基础、搭建数据分析开发环境、NumPy模块之数组计算、Pandas模块基础、Pandas模块之数据的读取、Pandas模块之数据的处理、Pandas模块之数据的清洗、数据的计算与格式化、数据统计及透视表、处理日期与时间、Scikit-Learn机器学习模块、Matplotlib模块入门、Matplotlib模块进阶等内容,以及4个项目实战综合案例。

书中所有知识结合具体实例进行介绍,涉及的程序代码给出了详细的注释,读者可轻松领会Python数据分析程序开发的精髓,从而快速提升数据分析开发技能。

目录

  • 版权信息
  • 内容简介
  • 如何使用本书开发资源库
  • 前言
  • 第1篇 基础知识
  • 第1章 数据分析基础
  • 1.1 数据分析概述
  • 1.2 常见数据分析方法
  • 1.2.1 对比分析法
  • 1.2.2 同比分析法
  • 1.2.3 环比分析法
  • 1.2.4 回归分析法
  • 1.2.5 聚类分析法
  • 1.3 了解数据分析工具
  • 1.4 数据分析的基本流程
  • 1.4.1 确认目标
  • 1.4.2 获取数据
  • 1.4.3 处理数据
  • 1.4.4 分析数据
  • 1.4.5 验证结果
  • 1.4.6 展示数据
  • 1.4.7 应用数据
  • 1.5 数据分析常用模块库
  • 1.6 小结
  • 第2章 搭建数据分析开发环境
  • 2.1 强大的编程语言Python
  • 2.1.1 Python概述
  • 2.1.2 安装Python
  • 2.1.3 创建第一个Python程序
  • 2.2 安装Anaconda开发环境
  • 2.3 JupyterNotebook开发工具
  • 2.3.1 初识Jupyter Notebook
  • 2.3.2 创建Jupyter Notebook文件
  • 2.3.3 测试Jupyter Notebook
  • 2.4 PyCharm集成开发环境
  • 2.4.1 PyCharm的下载与安装
  • 2.4.2 配置PyCharm
  • 2.4.3 测试PyCharm
  • 2.5 小结
  • 第3章 NumPy模块之数组计算
  • 3.1 NumPy模块概述
  • 3.1.1 什么是NumPy模块
  • 3.1.2 安装NumPy模块
  • 3.1.3 NumPy的数据类型
  • 3.1.4 ndarray()数组对象
  • 3.1.5 dtype数据类型对象
  • 3.2 创建数组
  • 3.2.1 创建简单的数组
  • 3.2.2 多种创建数组的方式
  • 3.2.3 根据数值范围创建数组
  • 3.2.4 生成随机数组
  • 3.2.5 在已有的数组中创建数组
  • 3.3 数组的基本操作
  • 3.3.1 数组的多种运算方式
  • 3.3.2 数组的索引和切片
  • 3.3.3 数组的重塑
  • 3.3.4 数组的增、删、改、查
  • 3.4 矩阵的基本操作
  • 3.4.1 创建矩阵
  • 3.4.2 矩阵的运算
  • 3.4.3 矩阵的转换
  • 3.5 NumPy常用的数学运算函数
  • 3.5.1 算术函数
  • 3.5.2 舍入函数
  • 3.5.3 三角函数
  • 3.6 统计分析
  • 3.6.1 求和函数sum()
  • 3.6.2 平均值函数mean()
  • 3.6.3 最大值与最小值函数max()、min()
  • 3.6.4 中位数函数median()
  • 3.6.5 加权平均函数average()
  • 3.6.6 方差与标准差函数var()、std()
  • 3.7 数组排序
  • 3.7.1 sort()函数
  • 3.7.2 argsort()函数
  • 3.7.3 lexsort()函数
  • 3.8 小结
  • 第4章 Pandas模块基础
  • 4.1 安装Pandas模块
  • 4.2 了解Pandas模块
  • 4.3 Pandas模块的两大数据结构
  • 4.3.1 Series()对象
  • 4.3.2 DataFrame()对象
  • 4.4 数据中的索引
  • 4.4.1 什么是索引
  • 4.4.2 Series()对象的索引
  • 4.4.3 DataFrame()对象的索引
  • 4.5 小结
  • 第5章 Pandas模块之数据的读取
  • 5.1 读取文本文件中的数据
  • 5.2 Excel文件的读取和写入
  • 5.2.1 读取Excel文件中的数据
  • 5.2.2 读取指定Sheet页中的数据
  • 5.2.3 通过行列索引读取指定数据
  • 5.2.4 将数据写入Excel文件中
  • 5.3 CSV文件的读取和写入
  • 5.3.1 读取CSV文件中的数据
  • 5.3.2 将数据写入CSV文件中
  • 5.4 读取HTML网页
  • 5.5 读取数据库中的数据
  • 5.5.1 读取MySQL数据库中的数据
  • 5.5.2 读取MongoDB数据库中的数据
  • 5.6 小结
  • 第6章 Pandas模块之数据的处理
  • 6.1 数据抽取
  • 6.1.1 抽取指定行数据
  • 6.1.2 抽取多行数据
  • 6.1.3 抽取指定列数据
  • 6.1.4 抽取指定的行、列数据
  • 6.2 数据的增、删、改、查
  • 6.2.1 增加数据
  • 6.2.2 按行增加数据
  • 6.2.3 删除数据
  • 6.2.4 修改数据
  • 6.2.5 查询数据
  • 6.3 数据的排序和排名
  • 6.3.1 数据的排序
  • 6.3.2 数据排名
  • 6.4 小结
  • 第7章 Pandas模块之数据的清洗
  • 7.1 缺失值的处理
  • 7.1.1 了解数据中的缺失值
  • 7.1.2 查看缺失值
  • 7.1.3 处理缺失值
  • 7.2 处理数据中的重复值
  • 7.3 数据中异常值的检测与处理
  • 7.4 数据中字符串的操作函数
  • 7.4.1 字符串对象中的常见函数
  • 7.4.2 替换字符串—replace()函数
  • 7.4.3 数据切分—split()函数
  • 7.4.4 判断字符串—contains()函数
  • 7.5 数据转换
  • 7.5.1 通过字典映射的方式实现数据转换—map()函数
  • 7.5.2 数据分割—cut()函数
  • 7.5.3 数据分类—get_dummies()函数
  • 7.6 小结
  • 第8章 数据的计算与格式化
  • 8.1 常见的数据计算函数
  • 8.1.1 求和—sum()函数
  • 8.1.2 求平均值—mean()函数
  • 8.1.3 求最大值—max()函数
  • 8.1.4 求最小值—min()函数
  • 8.2 高级的数据计算函数
  • 8.2.1 求取中位数—median()函数
  • 8.2.2 求取众数—mode()函数
  • 8.2.3 计算方差—var()函数
  • 8.2.4 计算标准差—std()函数
  • 8.2.5 计算分位数—quantile()函数
  • 8.3 数据格式化
  • 8.3.1 设置小数位数
  • 8.3.2 设置百分比
  • 8.3.3 设置千位分隔符
  • 8.4 小结
  • 第9章 数据统计及透视表
  • 9.1 数据的分组统计
  • 9.1.1 分组统计—groupby()函数
  • 9.1.2 分组数据的迭代
  • 9.1.3 分组聚合运算—agg()函数
  • 9.1.4 通过字典和Series()对象进行分组统计
  • 9.2 数据移位
  • 9.3 数据合并
  • 9.3.1 数据合并—merge()函数
  • 9.3.2 数据合并—concat()函数
  • 9.3.3 最近合并—merge_asof()函数
  • 9.4 数据透视表
  • 9.4.1 pivot()函数
  • 9.4.2 pivot_table()函数
  • 9.5 小结
  • 第10章 处理日期与时间
  • 10.1 日期数据的处理
  • 10.1.1 日期数据的转换
  • 10.1.2 dt()对象
  • 10.1.3 获取指定日期区间的数据
  • 10.1.4 按不同时期统计数据
  • 10.2 日期范围、频率和移位
  • 10.2.1 生成日期范围—date_range()函数
  • 10.2.2 日期频率转换—asfreq()函数
  • 10.2.3 日期移位—shift()函数
  • 10.3 时间区间与频率转换
  • 10.3.1 创建时间区间
  • 10.3.2 区间频率转换
  • 10.4 重新采样与频率转换
  • 10.4.1 重新采样—resample()函数
  • 10.4.2 降采样处理
  • 10.4.3 升采样处理
  • 10.5 移动窗口函数
  • 10.5.1 将时间序列的数据汇总—ohlc()函数
  • 10.5.2 移动窗口数据计算—rolling()函数
  • 10.6 小结
  • 第11章 Scikit-Learn机器学习模块
  • 11.1 Scikit-Learn概述
  • 11.2 安装Scikit-Learn模块
  • 11.3 线性模型
  • 11.3.1 最小二乘法回归—LinearRegression对象
  • 11.3.2 岭回归—Ridge对象
  • 11.4 支持向量机
  • 11.5 聚类
  • 11.5.1 什么是聚类
  • 11.5.2 聚类算法
  • 11.5.3 聚类模块
  • 11.5.4 聚类数据生成器
  • 11.6 小结
  • 第2篇 可视化图表
  • 第12章 Matplotlib模块入门
  • 12.1 Matplotlib模块概述
  • 12.1.1 了解Matplotlib模块
  • 12.1.2 Matplotlib模块的安装
  • 12.1.3 体验Matplotlib可视化图表
  • 12.2 图表的基本设置
  • 12.2.1 基本绘图—plot()函数
  • 12.2.2 设置画布—figure()函数
  • 12.2.3 设置坐标轴—xlabel()、ylabel()函数
  • 12.2.4 设置文本标签—text()函数
  • 12.2.5 设置标题和图例—title()、legend()函数
  • 12.2.6 添加注释—annotate()函数
  • 12.2.7 设置网格线—grid()函数
  • 12.2.8 设置参考线—axhline()、axvline()函数
  • 12.2.9 选取范围—axhspan()、axvspan()函数
  • 12.2.10 图表的布局—tight_layout()函数
  • 12.2.11 保存图表—savefig()函数
  • 12.3 绘制常用的图表
  • 12.3.1 绘制散点图—plot()、scatter()函数
  • 12.3.2 绘制折线图—plot()函数
  • 12.3.3 绘制柱形图—bar()函数
  • 12.3.4 绘制直方图—hist()函数
  • 12.3.5 绘制饼形图—pie()函数
  • 12.3.6 绘制面积图—stackplot()函数
  • 12.3.7 绘制箱形图—boxplot()函数
  • 12.3.8 绘制热力图—imshow()函数
  • 12.3.9 绘制雷达图—polar()函数
  • 12.3.10 绘制气泡图—scatter()函数
  • 12.3.11 绘制棉棒图—stem()函数
  • 12.3.12 绘制误差棒图—errorbar()函数
  • 12.4 小结
  • 第13章 Matplotlib模块进阶
  • 13.1 图表的颜色设置
  • 13.1.1 常用颜色
  • 13.1.2 可识别的颜色格式
  • 13.1.3 颜色映射
  • 13.2 处理日期与时间
  • 13.2.1 dates子模块
  • 13.2.2 设置坐标轴日期的显示格式
  • 13.2.3 设置坐标轴日期刻度标签
  • 13.3 次坐标轴(双坐标轴)
  • 13.3.1 共享x坐标轴—twinx()函数
  • 13.3.2 共享y坐标轴—twiny()函数
  • 13.4 绘制多个子图表
  • 13.4.1 subplot()函数
  • 13.4.2 subplots()函数
  • 13.4.3 add_subplot()函数
  • 13.4.4 子图表共用一个坐标轴
  • 13.5 绘制函数图像
  • 13.5.1 一元一次函数图像
  • 13.5.2 一元二次函数图像
  • 13.5.3 正弦函数图像—sin()函数
  • 13.5.4 余弦函数图像—cos()函数
  • 13.5.5 S型生长曲线— Sigmoid()函数
  • 13.6 形状与路径
  • 13.6.1 绘制形状—patches子模块
  • 13.6.2 绘制路径—path子模块
  • 13.6.3 绘制圆—Circle()对象
  • 13.6.4 绘制矩形—Rectangle()对象
  • 13.7 绘制3D图表
  • 13.8 小结
  • 第14章 Seaborn图表
  • 14.1 了解Seaborn图表
  • 14.1.1 Seaborn概述
  • 14.1.2 安装Seaborn模块
  • 14.1.3 体验Seaborn图表
  • 14.2 Seaborn图表的基本设置
  • 14.2.1 设置背景风格
  • 14.2.2 控制边框的显示方式
  • 14.3 绘制常见图表
  • 14.3.1 绘制散点图—replot()函数
  • 14.3.2 绘制折线图—relplot()、lineplot()函数
  • 14.3.3 绘制直方图—displot()函数
  • 14.3.4 绘制条形图—barplot()函数
  • 14.3.5 绘制线性回归模型—lmplot()函数
  • 14.3.6 绘制箱形图—boxplot()函数
  • 14.3.7 绘制核密度图—kdeplot()函数
  • 14.3.8 绘制提琴图—violinplot()函数
  • 14.4 小结
  • 第15章 Plotly图表
  • 15.1 了解Plotly图表
  • 15.1.1 安装Plotly模块
  • 15.1.2 Plotly绘图原理及流程
  • 15.1.3 Plotly图表的生成方法
  • 15.2 绘制基础图表
  • 15.2.1 绘制散点图与折线图—Scatter()对象
  • 15.2.2 绘制柱形图与水平条形图—Bar()对象
  • 15.2.3 绘制饼形图与环形图—Pie()对象
  • 15.3 设置图表
  • 15.3.1 图层布局—Layout()对象
  • 15.3.2 设置图表标题
  • 15.3.3 设置文本标记
  • 15.3.4 设置注释文本
  • 15.4 统计图表
  • 15.4.1 绘制直方图
  • 15.4.2 绘制箱形图
  • 15.4.3 绘制热力图
  • 15.4.4 绘制等高线图
  • 15.5 绘制子图表
  • 15.5.1 绘制基本的子图表
  • 15.5.2 自定义子图位置
  • 15.5.3 子图可供选择的图形类型
  • 15.6 三维图绘制
  • 15.7 绘制表格
  • 15.7.1 Table()对象
  • 15.7.2 create_table()函数
  • 15.8 小结
  • 第16章 Bokeh图表
  • 16.1 了解Bokeh图表
  • 16.1.1 安装Bokeh模块
  • 16.1.2 词汇与接口说明
  • 16.1.3 绘制第一张Bokeh图表
  • 16.1.4 通过数据类型绘制图表
  • 16.2 绘制常见图表
  • 16.2.1 绘制散点图—circle()函数
  • 16.2.2 绘制组合图表—line()、circle()函数
  • 16.2.3 绘制条形图—vbar()函数
  • 16.2.4 绘制饼(环)形图—wedge()、annular_wedge()函数
  • 16.3 设置图表
  • 16.3.1 图表布局—column()、row()、gridplot()函数
  • 16.3.2 配置绘图工具
  • 16.3.3 设置视觉属性
  • 16.3.4 图表注释
  • 16.4 图表可视化交互
  • 16.4.1 微调器
  • 16.4.2 选项卡
  • 16.4.3 滑块功能
  • 16.5 小结
  • 第17章 Pyecharts图表
  • 17.1 了解Pyecharts图表
  • 17.1.1 Pyecharts概述
  • 17.1.2 安装Pyecharts模块
  • 17.1.3 绘制第一张Pyecharts图表
  • 17.1.4 Pyecharts函数的链式调用
  • 17.2 Pyecharts图表的组成部分
  • 17.2.1 主题风格—InitOpts()对象
  • 17.2.2 图表标题—TitleOpts()对象
  • 17.2.3 图例—LegendOpts()对象
  • 17.2.4 提示框—TooltipOpts()对象
  • 17.2.5 视觉映射—VisualMapOpts()对象
  • 17.2.6 工具箱—ToolboxOpts()对象
  • 17.2.7 区域缩放—DataZoomOpts()对象
  • 17.3 绘制Pyecharts图表
  • 17.3.1 绘制散点图—EffectScatter()对象
  • 17.3.2 绘制折线图和面积图—Line()对象
  • 17.3.3 绘制柱形图—Bar()对象
  • 17.3.4 绘制饼形图—Pie()对象
  • 17.3.5 绘制箱形图—Boxplot()对象
  • 17.3.6 绘制词云图—WordCloud对象
  • 17.3.7 绘制热力图—HeatMap()对象
  • 17.3.8 绘制水球图—Liquid()对象
  • 17.3.9 绘制日历图—Calendar()对象
  • 17.4 小结
  • 第3篇 项目实战
  • 第18章 综合案例:股票数据分析
  • 18.1 概述
  • 18.2 案例效果预览
  • 18.3 案例环境
  • 18.4 前期准备
  • 18.4.1 安装第三方模块
  • 18.4.2 新建Jupyter Notebook文件
  • 18.4.3 导入必要的模块
  • 18.4.4 获取股票历史数据
  • 18.5 数据预处理
  • 18.5.1 数据查看与缺失性分析
  • 18.5.2 描述性统计分析
  • 18.5.3 数据处理
  • 18.5.4 异常值分析
  • 18.5.5 数据归一化处理
  • 18.6 数据统计分析
  • 18.6.1 可视化股票走势图
  • 18.6.2 股票收盘价格走势图
  • 18.6.3 股票成交量时间序列图
  • 18.6.4 股票涨跌情况分析图
  • 18.6.5 股票k线走势图
  • 第19章 综合案例:淘宝网订单分析
  • 19.1 概述
  • 19.2 案例效果预览
  • 19.3 案例环境
  • 19.4 数据集介绍
  • 19.5 前期准备
  • 19.5.1 安装第三方模块
  • 19.5.2 新建Jupyter Notebook文件
  • 19.5.3 导入必要的模块
  • 19.5.4 数据读取与查看
  • 19.6 数据预处理
  • 19.6.1 缺失性分析
  • 19.6.2 描述性统计分析
  • 19.6.3 数据处理
  • 19.7 数据统计分析
  • 19.7.1 整体情况分析
  • 19.7.2 按订单类型分析订单量
  • 19.7.3 按区域分析订单量
  • 19.7.4 每日订单量分析
  • 19.7.5 小时订单量分析
  • 第20章 综合案例:网站用户数据分析
  • 20.1 概述
  • 20.2 案例效果预览
  • 20.3 案例环境
  • 20.4 MySQL数据
  • 20.4.1 导入MySQL数据
  • 20.4.2 Python连接MySQL数据库
  • 20.5 实现过程
  • 20.5.1 数据准备
  • 20.5.2 数据检测
  • 20.5.3 年度注册用户分析
  • 20.5.4 新注册用户分析
  • 第21章 综合案例:NBA球员薪资的数据分析
  • 21.1 概述
  • 21.2 案例效果预览
  • 21.3 案例环境
  • 21.4 实现过程
  • 21.4.1 数据准备
  • 21.4.2 确定网页格式
  • 21.4.3 Pandas爬取数据并保存
  • 21.4.4 数据清洗
  • 21.4.5 水平柱形图分析湖人队薪资状况
  • 21.4.6 统计分析各个球队队员薪资总和
  • 21.4.7 统计分析多个球队所有球员的薪资状况
  • 21.4.8 分析不同位置球员的薪资状况
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。