展开全部

主编推荐语

普通高等学校数据科学与大数据技术专业精品教材。

内容简介

本书系统地介绍了数据挖掘理论、方法与应用,包括数据特征分析与预处理,经典数据挖掘算法(分类、回归、聚类、关联规则和集成学习等),大数据新常态下催生的数据分析方法(推荐系统、链接分析与网页排序、互联网信息抽取、日志挖掘与查询分析等)等理论与方法。在此基础上,每章均有基于Python语言的实例应用。

本书可以作为高等院校数据科学与大数据技术专业相关课程的教材,以及计算机、软件工程等专业的教材或参考书。高职高专学校相关专业也可选用部分内容开展教学。

目录

  • 版权信息
  • 内容简介
  • 编委会
  • 总序
  • 第2版前言
  • 第1版前言
  • 第1章 绪论
  • 1.1 数据挖掘的基本概念
  • 1.1.1 数据挖掘的概念
  • 1.1.2 大数据环境下的数据挖掘
  • 1.1.3 数据挖掘的特性
  • 1.1.4 数据挖掘的任务和功能
  • 1.1.5 数据挖掘的对象
  • 1.1.6 数据挖掘的过程
  • 1.2 数据挖掘的起源及发展
  • 1.3 数据挖掘的常用工具
  • 1.3.1 商用工具
  • 1.3.2 开源工具
  • 1.4 数据挖掘的应用
  • 习题
  • 参考文献
  • 第2章 数据特征分析及预处理
  • 2.1 数据类型
  • 2.1.1 属性与度量
  • 2.1.2 数据集的类型
  • 2.2 数据特征分析
  • 2.2.1 描述数据集中趋势的度量
  • 2.2.2 描述数据离散程度的度量
  • 2.2.3 数据相关性分析
  • 2.3 数据预处理
  • 2.3.1 数据清洗
  • 2.3.2 数据集成
  • 2.3.3 数据规范化
  • 2.3.4 数据规约
  • 2.3.5 数据离散化
  • 2.4 数据的相似性
  • 2.4.1 数值属性的相似性度量
  • 2.4.2 标称属性的相似性度量
  • 2.4.3 组合异种属性的相似性度量
  • 2.4.4 文本的相似性度量
  • 2.4.5 离散序列的相似性度量
  • 习题
  • 参考文献
  • 第3章 分类
  • 3.1 分类概述
  • 3.1.1 分类的基本概念
  • 3.1.2 分类的过程
  • 3.1.3 分类器性能的评估方法
  • 3.2 决策树
  • 3.2.1 决策树的基本概念
  • 3.2.2 决策树的用途和特性
  • 3.2.3 决策树的工作原理
  • 3.2.4 决策树的构建步骤
  • 3.2.5 决策树算法原理
  • 3.3 贝叶斯分类
  • 3.3.1 贝叶斯定理
  • 3.3.2 朴素贝叶斯分类
  • 3.3.3 贝叶斯分析
  • 3.3.4 贝叶斯决策
  • 3.3.5 贝叶斯估计
  • 3.4 支持向量机
  • 3.4.1 支持向量机的主要思想
  • 3.4.2 支持向量机的基础理论
  • 3.4.3 支持向量机的原理
  • 3.5 实战:Python支持向量机分类
  • 习题
  • 参考文献
  • 第4章 回归
  • 4.1 回归的基本概念
  • 4.1.1 回归分析的定义
  • 4.1.2 回归分析的步骤
  • 4.1.3 回归分析要注意的问题
  • 4.2 一元回归分析
  • 4.2.1 一元回归分析的模型设定
  • 4.2.2 回归参数的最小二乘估计
  • 4.2.3 基本假设下OLS估计的统计性质
  • 4.2.4 误差方差估计
  • 4.2.5 回归系数检验(t检验)
  • 4.2.6 拟合优度和模型检验(F检验)
  • 4.3 多元线性回归分析
  • 4.3.1 多元线性回归模型
  • 4.3.2 多元线性回归模型的假定
  • 4.3.3 多元线性回归模型的参数估计
  • 4.3.4 显著性检验
  • 4.3.5 回归变量的选择与逐步回归
  • 4.4 逻辑回归分析
  • 4.4.1 逻辑回归模型
  • 4.4.2 logit变换
  • 4.4.3 估计回归系数
  • 4.4.4 Logistic分布
  • 4.4.5 列联表的Logistic回归模型
  • 4.5 其他回归分析
  • 4.5.1 多项式回归
  • 4.5.2 逐步回归
  • 4.5.3 岭回归
  • 4.5.4 套索回归
  • 4.5.5 弹性网络
  • 4.6 实战:获得最大有效率时的药物用量
  • 习题
  • 参考文献
  • 第5章 聚类
  • 5.1 聚类基本概念
  • 5.2 划分聚类方法
  • 5.2.1 k-平均算法
  • 5.2.2 k-中心点算法
  • 5.3 层次聚类方法
  • 5.3.1 层次聚类方法的分类
  • 5.3.2 BIRCH算法
  • 5.4 密度聚类方法
  • 5.5 实战:Python聚类分析
  • 5.5.1 Python实现k-平均划分聚类
  • 5.5.2 Python实现BIRCH层次聚类
  • 5.5.3 Python实现DBSCAN密度聚类
  • 习题
  • 参考文献
  • 第6章 关联规则
  • 6.1 基本概念
  • 6.1.1 啤酒与尿布的经典案例
  • 6.1.2 关联规则的概念
  • 6.1.3 频繁项集的产生
  • 6.2 Apriori算法:通过限制候选产生发现频繁项集
  • 6.2.1 Apriori算法的频繁项集产生
  • 6.2.2 Apriori算法描述
  • 6.3 FP-growth算法
  • 6.3.1 构造FP树
  • 6.3.2 挖掘FP树
  • 6.3.3 FP-growth算法
  • 6.4 其他关联规则算法
  • 6.4.1 约束性关联规则
  • 6.4.2 增量式关联规则
  • 6.4.3 多层关联规则
  • 6.5 实战:购物篮关联规则挖掘
  • 6.5.1 背景与挖掘目标
  • 6.5.2 分析方法与过程
  • 6.5.3 总结
  • 习题
  • 参考文献
  • 第7章 集成学习
  • 7.1 集成学习的概念
  • 7.1.1 集成学习的构建
  • 7.1.2 集成学习的优势
  • 7.2 Bagging算法与随机森林算法
  • 7.2.1 Bagging算法基本思想
  • 7.2.2 Bagging算法流程
  • 7.2.3 随机森林算法
  • 7.3 Boosting算法
  • 7.3.1 Boosting算法流程
  • 7.3.2 Boosting系列算法
  • 7.4 结合策略
  • 7.4.1 投票方法
  • 7.4.2 叠加方法
  • 7.5 多样性
  • 7.5.1 多样性的概念
  • 7.5.2 多样性的作用
  • 7.5.3 多样性的度量
  • 7.5.4 多样性的构建
  • 7.6 实战案例
  • 7.6.1 鸢尾花数据集
  • 7.6.2 集成学习算法
  • 7.6.3 集成学习在鸢尾花数据集上的应用
  • 7.7 本章小结
  • 习题
  • 参考文献
  • 第8章 推荐系统
  • 8.1 推荐系统概述
  • 8.1.1 什么是推荐系统
  • 8.1.2 推荐系统评测指标
  • 8.1.3 推荐系统中的冷启动
  • 8.2 基于内容的推荐
  • 8.2.1 物品表示
  • 8.2.2 物品相似度
  • 8.2.3 用户对物品的评分
  • 8.2.4 基于向量空间模型的推荐
  • 8.3 协同过滤推荐
  • 8.3.1 协同过滤的基本概念
  • 8.3.2 基于用户的协同过滤
  • 8.3.3 基于物品的协同过滤
  • 8.3.4 隐语义模型和矩阵因子分解模型
  • 8.4 基于标签的推荐
  • 8.4.1 数据标注与关键词提取
  • 8.4.2 标签分类
  • 8.4.3 基于标签的推荐系统原理
  • 8.5 实战:搭建一个电影推荐系统
  • 8.5.1 数据准备与导入
  • 8.5.2 电影热度值计算
  • 8.5.3 电影相似度计算
  • 8.5.4 指定标签下的电影统计
  • 习题
  • 参考文献
  • 第9章 互联网数据挖掘
  • 9.1 链接分析与网页排序
  • 9.1.1 PageRank
  • 9.1.2 PageRank的快速计算
  • 9.1.3 面向主题的PageRank
  • 9.1.4 时间序列分析
  • 9.1.5 排序背后的机理探讨
  • 9.1.6 重新思考时间序列
  • 9.2 互联网信息抽取
  • 9.2.1 互联网信息深度挖掘概述
  • 9.2.2 典型应用模型构建
  • 9.2.3 挖掘、存储与网络技术分析
  • 9.2.4 数据信息采集管理
  • 9.2.5 信息抽取方法与知识发现
  • 9.2.6 智能决策
  • 9.2.7 行业案例研究
  • 9.3 日志挖掘与查询分析
  • 9.3.1 互联网日志分析概述
  • 9.3.2 挖掘分析技术方法
  • 9.3.3 工具比较
  • 9.3.4 海量数据挖掘过程展现与分析
  • 9.3.5 行业应用举例
  • 9.4 Python实战案例
  • 9.4.1 PageRank Python实现
  • 9.4.2 跨境电商运营潜在市场选择
  • 9.4.3 天池“双11”日志数据挖掘示例
  • 习题
  • 参考文献
  • 附录A 大数据和人工智能实验环境
展开全部

评分及书评

评分不足
1个评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。