展开全部

主编推荐语

数据挖掘基础流程、模型方法、实现技术及案例应用,适合本科数据挖掘课程的教学。

内容简介

数据挖掘旨在发现蕴含在数据中的有价值的数据模式、知识或规律,是目前非常热门的研究领域。理解数据挖掘模型的原理、方法并熟练掌握其实现技术是数据挖掘从业者的能力。

本书从理论模型和技术实战两个角度,全面讲述数据挖掘的基本流程、模型方法、实现技术及案例应用,帮助读者系统地掌握数据挖掘的核心技术,培养读者从事数据挖掘工作的基本能力。

本书适合作为相关专业本科生和研究生的数据挖掘课程的教材,也可以作为数据挖掘技术爱好者或从业者的入门参考书。

目录

  • 版权信息
  • 内容提要
  • 前言
  • 第1章 绪论
  • 1.1 数据挖掘概述
  • 1.1.1 基本概念
  • 1.1.2 数据挖掘的典型应用场景
  • 1.1.3 数据挖掘的演化历程
  • 1.2 数据挖掘的一般流程
  • 1.3 数据挖掘环境的配置
  • 1.3.1 常用的数据挖掘工具
  • 1.3.2 Anaconda 3下载和安装
  • 1.4 本章小结
  • 习题
  • 第2章 Python数据挖掘模块
  • 2.1 NumPy
  • 2.1.1 Ndarray的创建
  • 2.1.2 Ndarray的属性
  • 2.1.3 索引和切片
  • 2.1.4 排序
  • 2.1.5 NumPy的数组运算
  • 2.1.6 NumPy的统计函数
  • 2.2 Pandas
  • 2.2.1 Pandas的数据结构
  • 2.2.2 查看和获取数据
  • 2.2.3 Pandas的算术运算
  • 2.2.4 Pandas的汇总和描述性统计函数
  • 2.2.5 Pandas的其他常用函数
  • 2.2.6 Pandas读写文件
  • 2.3 Matplotlib
  • 2.3.1 Matplotlib基本绘图元素
  • 2.3.2 常用的Matplotlib图形绘制
  • 2.4 Scikit-learn
  • 2.5 本章小结
  • 习题
  • 第3章 数据探索
  • 3.1 数据对象与特征
  • 3.1.1 特征及其类型
  • 3.1.2 离散和连续特征
  • 3.2 数据统计描述
  • 3.2.1 集中趋势
  • 3.2.2 离中趋势
  • 3.3 数据可视化
  • 3.3.1 散点图
  • 3.3.2 箱线图
  • 3.3.3 频率直方图
  • 3.3.4 柱状图
  • 3.3.5 饼图
  • 3.3.6 散点图矩阵
  • 3.4 相关性和相似性度量
  • 3.4.1 相关性度量
  • 3.4.2 相似性度量
  • 3.5 本章小结
  • 习题
  • 第4章 数据预处理
  • 4.1 数据集成
  • 4.2 数据清洗
  • 4.2.1 重复值处理
  • 4.2.2 缺失值处理
  • 4.2.3 异常值处理
  • 4.3 数据变换
  • 4.3.1 数据规范化
  • 4.3.2 数值特征的二值化和离散化
  • 4.3.3 标称特征的数值化处理
  • 4.4 数据规约
  • 4.4.1 样本规约
  • 4.4.2 维度规约
  • 4.4.3 数据压缩
  • 4.5 本章小结
  • 习题
  • 第5章 特征选择
  • 5.1 特征选择方法概述
  • 5.2 过滤法
  • 5.2.1 单变量过滤方法
  • 5.2.2 多变量过滤方法
  • 5.2.3 过滤法的优缺点
  • 5.2.4 综合实例
  • 5.3 包装法
  • 5.3.1 递归特征消除
  • 5.3.2 序列特征选择
  • 5.3.3 包装法的优缺点
  • 5.4 嵌入法
  • 5.4.1 基于正则化线性模型的方法
  • 5.4.2 基于树模型的方法
  • 5.4.3 嵌入法的优缺点
  • 5.5 本章小结
  • 习题
  • 第6章 基础分类模型及回归模型
  • 6.1 基本理论
  • 6.1.1 分类模型
  • 6.1.2 欠拟合和过拟合
  • 6.1.3 二分类和多分类
  • 6.1.4 线性及非线性分类器
  • 6.2 朴素贝叶斯分类器
  • 6.2.1 基本原理
  • 6.2.2 基于Python的实现
  • 6.3 k近邻分类器
  • 6.3.1 基本原理
  • 6.3.2 基于Python的实现
  • 6.4 决策树
  • 6.4.1 基本原理
  • 6.4.2 属性选择方法
  • 6.4.3 例子:计算信息增益
  • 6.4.4 剪枝
  • 6.4.5 基于CART决策树的分类
  • 6.4.6 进一步讨论
  • 6.5 人工神经网络
  • 6.5.1 人工神经网络简介
  • 6.5.2 BP神经网络
  • 6.5.3 基于BP神经网络的分类
  • 6.6 支持向量机
  • 6.6.1 支持向量机的原理
  • 6.6.2 支持向量分类的Python实现
  • 6.7 模型的性能评价
  • 6.7.1 分类模型的评价指标
  • 6.7.2 模型的评估方法
  • 6.8 案例:信用评分模型
  • 6.8.1 案例描述
  • 6.8.2 探索性数据分析和预处理
  • 6.8.3 模型训练与评估
  • 6.9 回归
  • 6.9.1 线性回归
  • 6.9.2 CART决策树回归
  • 6.9.3 BP神经网络回归
  • 6.9.4 支持向量回归
  • 6.10 本章小结
  • 习题
  • 第7章 集成技术
  • 7.1 基本集成技术
  • 7.1.1 装袋
  • 7.1.2 提升
  • 7.1.3 堆叠
  • 7.1.4 集成技术的定性分析
  • 7.2 随机森林
  • 7.2.1 工作原理
  • 7.2.2 随机森林的Python实现
  • 7.3 提升树
  • 7.3.1 原理
  • 7.3.2 提升树的Python实现
  • 7.4 案例:电信客户流失预测
  • 7.4.1 探索数据
  • 7.4.2 模型性能比较
  • 7.5 类不平衡问题
  • 7.5.1 类不平衡处理方法
  • 7.5.2 不平衡数据处理的Python实现
  • 7.6 本章小结
  • 习题
  • 第8章 聚类分析
  • 8.1 聚类的基本原理
  • 8.2 k-means算法
  • 8.2.1 基本原理
  • 8.2.2 进一步讨论
  • 8.2.3 基于Python的实现
  • 8.2.4 k-means算法的优缺点
  • 8.3 聚类算法的性能评价指标
  • 8.3.1 内部度量指标
  • 8.3.2 外部度量指标
  • 8.3.3 基于Python的实现
  • 8.4 DBSCAN算法
  • 8.4.1 基本概念
  • 8.4.2 DBSCAN聚类算法的原理
  • 8.4.3 进一步讨论
  • 8.4.4 基于Python的实现
  • 8.4.5 DBSCAN算法的优缺点
  • 8.5 GMM聚类算法
  • 8.5.1 基本原理
  • 8.5.2 进一步讨论
  • 8.5.3 基于Python的实现
  • 8.5.4 讨论:优点和不足
  • 8.6 本章小结
  • 习题
  • 第9章 关联规则分析
  • 9.1 概述
  • 9.1.1 基本概念
  • 9.1.2 关联规则挖掘算法
  • 9.2 Apriori算法生成频繁项集
  • 9.2.1 先验原理
  • 9.2.2 产生频繁项集
  • 9.2.3 生成关联规则
  • 9.2.4 基于Python的Apriori算法实现
  • 9.2.5 进一步讨论
  • 9.3 FP-growth算法
  • 9.3.1 FP-tree的构建
  • 9.3.2 挖掘主FP-tree和条件FP-tree
  • 9.3.3 基于Python的FP-growth算法实现
  • 9.3.4 进一步讨论
  • 9.4 Eclat算法
  • 9.4.1 事务数据集的表示方式
  • 9.4.2 Eclat算法生成频繁项集
  • 9.4.3 基于Python的Eclat算法实现
  • 9.4.4 进一步讨论
  • 9.5 案例:网上零售购物篮分析
  • 9.5.1 数据集及案例背景
  • 9.5.2 探索性分析和数据预处理
  • 9.5.3 使用Apriori算法挖掘关联规则
  • 9.6 本章小结
  • 习题
  • 第10章 时间序列挖掘
  • 10.1 时间序列挖掘概述
  • 10.1.1 时间序列挖掘的目的
  • 10.1.2 时间序列挖掘的意义
  • 10.1.3 时间序列挖掘的基本概念
  • 10.2 时间序列预处理
  • 10.2.1 常用序列特征统计量
  • 10.2.2 平稳序列
  • 10.2.3 平稳性检验
  • 10.2.4 纯随机性检验
  • 10.3 平稳非白噪声序列建模
  • 10.3.1 AR模型
  • 10.3.2 MA模型
  • 10.3.3 ARMA模型
  • 10.3.4 建模过程
  • 10.3.5 模型检验方法
  • 10.4 非平稳序列建模
  • 10.4.1 非平稳序列概述
  • 10.4.2 差分运算
  • 10.4.3 ARIMA模型
  • 10.5 基于Python的ARIMA模型实现
  • 10.6 案例:基于ARIMA模型的销售额预测
  • 10.7 本章小结
  • 习题
  • 第11章 异常检测
  • 11.1 基于统计的异常检测方法
  • 11.1.1 基于一元正态分布的异常检测方法
  • 11.1.2 基于多元正态分布的异常检测方法
  • 11.1.3 基于Python的实现
  • 11.2 基于聚类的异常检测方法
  • 11.2.1 基本原理
  • 11.2.2 基于Python的实现
  • 11.3 孤立森林方法
  • 11.3.1 基本原理
  • 11.3.2 基于Python的实现
  • 11.4 本章小结
  • 习题
  • 第12章 智能推荐
  • 12.1 智能推荐概述
  • 12.1.1 智能推荐定义
  • 12.1.2 智能推荐场景
  • 12.1.3 常用智能推荐技术
  • 12.2 基于用户的协同过滤技术
  • 12.2.1 概述
  • 12.2.2 常用的评价指标
  • 12.2.3 基本过程描述
  • 12.2.4 案例:使用基于用户的协同过滤方法进行电影推荐
  • 12.3 基于物品的协同过滤技术
  • 12.4 非负矩阵分解
  • 12.4.1 基本原理
  • 12.4.2 基于Python的实现
  • 12.5 本章小结
  • 习题
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。