互联网
类型
可以朗读
语音朗读
191千字
字数
2021-05-01
发行日期
展开全部
主编推荐语
本书讲解了11种数据分析方法,拿来就用。
内容简介
本书共13章,主要内容涵盖Python语法及数据分析方法。
第1章主要介绍数据分析的概念,使读者有一个大致的印象,并简单介绍本书频繁使用的Python的5个第三方库。第2章主要做一些准备工作,手把手带读者搭建Python环境,包括Python3.7.6的安装和pip的安装。第3章介绍Python编程基础。第4章到第7章介绍使用Python进行简单数据分析的基础库,包括NumPy、Pandas和Matplotlib库,并介绍使用正则表达式处理数据的方法。第8章到第13章属于进阶内容,但也是Python数据分析的基础,结合机器学习介绍一些常见的用于数据分析的机器学习算法及常用的数学模型。
目录
- 版权信息
- 内容简介
- 前言
- 第1章 数据分析存在的意义
- 1.1 数据分析与Python
- 1.1.1 数据科学和数据分析的始末
- 1.1.2 为什么使用Python作为脚本
- 1.2 本书的主要内容
- 1.2.1 数据分析基础:NumPy、Pandas和Matplotlib库概述
- 1.2.2 数据处理:NumPy库简介
- 1.2.3 数据处理:Pandas库简介
- 1.2.4 图表绘制:Matplotlib库简介
- 1.2.5 中坚力量:Sklearn和Statsmodels库简介
- 第2章 开始前的准备
- 2.1 Python 3.7.6的安装
- 2.1.1 Python3和Python2的区别
- 2.1.2 在Windows 10系统中下载并安装Python 3.7.6
- 2.1.3 手动配置环境变量
- 2.2 pip的安装
- 2.2.1 pip是什么
- 2.2.2 在Windows系统中下载和安装pip
- 2.2.3 使用pip命令下载和管理pip
- 第3章 Python编程基础
- 3.1 Python编程初识
- 3.1.1 第一个Python程序
- 3.1.2 整型、浮点型、布尔型与复数型
- 3.1.3 不同数据类型之间的运算法则
- 3.1.4 Python中的常用内建函数
- 3.2 Python编程常用类型
- 3.2.1 Python的列表
- 3.2.2 Python的元组
- 3.2.3 Python的字典
- 3.2.4 Python的字符串
- 3.3 Python的条件、循环和分支语句以及异常处理
- 3.3.1 Python的编程风格
- 3.3.2 错误、异常和异常处理
- 3.3.3 条件语句:if、if-else和elif
- 3.3.4 循环语句:while和for
- 3.4 其他关于Python的重要知识点
- 3.4.1 匿名函数lambda
- 3.4.2 Python自定义类与打印函数
- 第4章 线性代数知识和第三方库NumPy的使用
- 4.1 必要的线性代数知识
- 4.1.1 线性代数综述
- 4.1.2 行列式
- 4.1.3 矩阵及矩阵的运算
- 4.1.4 矩阵的初等变换与秩、向量组与线性相关
- 4.1.5 相似矩阵
- 4.2 NumPy库的基础操作
- 4.2.1 NumPy库的安装和基本方法
- 4.2.2 创建一个数组
- 4.2.3 索引、切片和迭代
- 4.2.4 拼合、划分一个矩阵
- 4.2.5 深拷贝、浅拷贝与不拷贝
- 4.3 用NumPy库实现矩阵运算
- 4.3.1 矩阵基本运算一(矩阵加法、矩阵减法、矩阵数乘)
- 4.3.2 矩阵基本运算二(矩阵相乘、逆矩阵、矩阵的特征值和特征向量)
- 第5章 使用正则表达式处理数据
- 5.1 RE模块简述
- 5.1.1 正则表达式(RE)模块使用的符号
- 5.1.2 正则表达式的匹配规则
- 5.2 使用正则表达式模块
- 5.2.1 匹配对象方法group()和groups()的用法
- 5.2.2 使用管道符进行匹配
- 5.2.3 使用*、+、?、{}符号实现多个条件匹配
- 5.2.4 一些特殊格式的正则表达式匹配模式
- 第6章 使用Pandas库处理数据
- 6.1 Pandas库简述
- 6.1.1 Pandas库能做什么
- 6.1.2 Pandas库功能简述
- 6.2 三种格式的文件后缀简述
- 6.2.1 什么是CSV文件
- 6.2.2 Python自带的CSV模块
- 6.2.3 为什么要将TXT和Excel文件转化为CSV文件
- 6.3 处理.csv格式的数据
- 6.3.1 用read_csv()和head()读取CSV文件并显示其行/列
- 6.3.2 查看列数、维度以及切片操作
- 6.3.3 读取特定的列以及列的改值操作
- 6.3.4 求某一列的最大值、最小值、算术平均数以及数据的排序
- 6.3.5 Pandas库的写入操作——to_csv()方法
- 6.4 处理非.csv格式的数据
- 6.4.1 用Pandas库读取TXT文件
- 6.4.2 用Pandas库读取Excel文件
- 6.5 Pandas库的其他常用操作
- 6.5.1 新增DataFrame数据结构的意义
- 6.5.2 创建与遍历DataFrame数据结构
- 6.5.3 检索已有的DataFrame数据结构
- 6.5.4 DataFrame数据结构的选择操作
- 6.5.5 处理DataFrame数据结构中的缺失数据
- 第7章 使用Matplotlib库实现数据可视化
- 7.1 Matplotlib库简述
- 7.1.1 Matplotlib库的安装
- 7.1.2 Matplotlib库常见的问题
- 7.2 Matplotlib库的基本方法
- 7.2.1 设定x轴与y轴的相关内容
- 7.2.2 “点”和“线”样式的设定
- 7.3 使用Matplotlib库绘制图表
- 7.3.1 绘制柱状图
- 7.3.2 绘制直方图
- 7.3.3 绘制散点图
- 7.3.4 绘制饼状图
- 7.3.5 绘制折线图
- 第8章 数学模型与数理统计
- 8.1 走进数学模型
- 8.1.1 什么是数学模型
- 8.1.2 建立数学模型的一般步骤
- 8.1.3 数学模型示例
- 8.2 必要的数理统计知识
- 8.2.1 样本、总体、个体、统计量
- 8.2.2 3个重要的分布:χ2分布、t分布、f分布
- 8.2.3 点估计、矩估计与区间估计
- 8.2.4 全概率公式和贝叶斯公式
- 8.2.5 依概率收敛与切比雪夫不等式
- 第9章 线性回归
- 9.1 最小二乘法与切比雪夫准则
- 9.1.1 最小二乘法的数学原理
- 9.1.2 切比雪夫准则的数学原理
- 9.2 OLS回归模型
- 9.2.1 OLS回归模型的概念
- 9.2.2 如何生成测试数据
- 9.2.3 OLS回归模型的代码实现和可视化
- 9.3 LAD回归模型
- 9.3.1 LAD回归模型的概念
- 9.3.2 LAD回归模型的代码实现和可视化
- 9.4 OLS回归模型与LAD回归模型
- 9.4.1 比较OLS回归模型与LAD回归模型的拟合曲线
- 9.4.2 简单的一元线性回归分析的代码展示
- 9.5 从极大似然估计再审视线性回归
- 9.5.1 从传统的数理统计到线性回归
- 9.5.2 极大似然估计
- 9.5.3 假设检验基本概念
- 9.5.4 区间估计、置信区间和置信限
- 第10章 分类问题与逻辑回归
- 10.1 逻辑回归:从分类问题谈起
- 10.1.1 从线性回归到分类问题
- 10.1.2 逻辑回归与Sigmoid函数
- 10.1.3 使用极大似然估计计算Sigmoid函数的损失函数
- 10.1.4 逻辑回归模型求解的本质
- 10.2 从梯度上升法与梯度下降法到逻辑回归
- 10.2.1 梯度上升法和梯度下降法的由来
- 10.2.2 梯度下降法及梯度上升法的数学原理
- 10.2.3 用Python实现逻辑回归
- 10.2.4 题外话:从用Python实现逻辑回归中看psutil库
- 10.2.5 逻辑回归可视化:绘制决策边界
- 第11章 模型评估与模型改进
- 11.1 线性回归模型的评估与改进
- 11.1.1 线性回归模型的评估
- 11.1.2 模型改进:从一元线性回归到多元线性回归问题
- 11.1.3 模型改进:过度拟合与添加、设定惩罚项
- 11.2 逻辑回归模型的评估与改进
- 11.2.1 分类模型的评估:查准率、查全率及F-score
- 11.2.2 分类模型的评估:ROC曲线、AUC指标
- 11.2.3 模型改进:随机梯度下降法
- 11.2.4 逻辑回归最终代码展示(使用随机梯度下降法)
- 第12章 聚类:K-means算法
- 12.1 K-means算法及相关内容的基本概念
- 12.1.1 聚类与机器学习的概念
- 12.1.2 聚类:K-means算法的原理
- 12.2 K-means算法的Python实现
- 12.2.1 朴素的K-means算法的Python实现
- 12.2.2 朴素的K-means算法的Python实现的具体解析
- 12.2.3 模型改进:使用不同颜色和形状标记不同的簇
- 12.2.4 K-means算法改进:使用二分K-means算法
- 第13章 分类:KNN算法
- 13.1 KNN算法的基本概念
- 13.1.1 KNN算法的相关概念
- 13.1.2 KNN算法原理概述
- 13.2 KNN算法的Python实现
- 13.2.1 制作测试用例数据集
- 13.2.2 KNN算法的具体实现
- 13.2.3 KNN算法的完整代码
- 13.3 结语:关于数据分析
- 13.3.1 决策树之前:树的概念
- 13.3.2 信息熵和决策树
- 13.3.3 写在最后的话:留给机器学习
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。