展开全部

主编推荐语

本书深入剖析数据仓库、挖掘算法、产品及税务案例,探讨大数据管理与应用。

内容简介

本书把数据视为基础资源,根据软件工程的思想,总结了数据利用的历程,讲述了数据仓库的基础知识和工具,研究了数据挖掘的任务及其挑战,给出了经典的数据挖掘算法,介绍了数据挖掘的产品,剖析了税务数据挖掘的案例,探索了大数据的管理和应用问题。

目录

  • 扉页
  • 版权页
  • 目录
  • 内容提要
  • 前言
  • 第1章 数据仓库和数据挖掘概述
  • 1.1 概述
  • 1.1.1 数据仓库和数据挖掘的目标
  • 1.1.2 数据仓库与数据挖掘的发展历程
  • 1.2 数据中心
  • 1.2.1 关系型数据中心
  • 1.2.2 非关系型数据中心
  • 1.2.3 混合型数据中心(大数据平台)
  • 1.3 混合型数据中心参考架构
  • 1.3.1 基础设施层
  • 1.3.2 数据源层
  • 1.3.3 交换服务体系
  • 1.3.4 数据存储区
  • 1.3.5 基础服务层
  • 1.3.6 应用层
  • 1.3.7 用户终端层
  • 1.3.8 数据治理
  • 1.3.9 元数据管理
  • 1.3.10 IT安全运维管理
  • 1.3.11 IT综合监控
  • 1.3.12 企业资产管理
  • 思考题
  • 第2章 数据
  • 2.1 数据的概念
  • 2.2 数据的内容
  • 2.2.1 实时数据与历史数据
  • 2.2.2 事务数据与时态数据
  • 2.2.3 图形数据与图像数据
  • 2.2.4 主题数据与全局数据
  • 2.2.5 空间数据
  • 2.2.6 序列数据和数据流
  • 2.2.7 元数据与数据字典
  • 2.3 数据属性及数据集
  • 2.4 数据特征的统计描述
  • 2.4.1 集中趋势
  • 2.4.2 离散程度
  • 2.4.3 数据的分布形状
  • 2.5 数据的可视化
  • 2.6 数据相似性与相异性的度量
  • 2.7 数据质量
  • 2.8 数据预处理
  • 2.8.1 被污染的数据
  • 2.8.2 数据清理
  • 2.8.3 数据集成
  • 2.8.4 数据变换
  • 2.8.5 数据规约
  • 思考题
  • 第3章 数据仓库与数据ETL基础
  • 3.1 从数据库到数据仓库
  • 3.2 数据仓库的结构
  • 3.2.1 两层体系结构
  • 3.2.2 三层体系结构
  • 3.2.3 组成元素
  • 3.3 数据仓库的数据模型
  • 3.3.1 概念模型
  • 3.3.2 逻辑模型
  • 3.3.3 物理模型
  • 3.4 ETL
  • 3.4.1 数据抽取
  • 3.4.2 数据转换
  • 3.4.3 数据加载
  • 3.5 OLAP
  • 3.5.1 维
  • 3.5.2 OLAP与OLTP
  • 3.5.3 OLAP的基本操作
  • 3.6 OLAP的数据模型
  • 3.6.1 ROLAP
  • 3.6.2 MOLAP
  • 3.6.3 HOLAP
  • 思考题
  • 第4章 数据仓库和ETL工具
  • 4.1 IBM DB2 V10
  • 4.1.1 自适应压缩
  • 4.1.2 多温度存储
  • 4.1.3 时间旅行查询
  • 4.1.4 DB2兼容性功能
  • 4.1.5 工作负载管理
  • 4.1.6 PureXML
  • 4.1.7 当前已落实
  • 4.1.8 DB2 PureScale Feature
  • 4.1.9 分区特性
  • 4.1.10 并行技术
  • 4.1.11 SQW
  • 4.1.12 Cubing Services
  • 4.1.13 列式存储及压缩技术
  • 4.2 InfoSphere Datastage
  • 4.2.1 基于Information Server的架构
  • 4.2.2 企业级实施和管理
  • 4.2.3 高扩展的体系架构
  • 4.2.4 具备线性扩充能力
  • 4.2.5 ETL元数据管理
  • 4.3 InfoSphere QualityStage
  • 思考题
  • 第5章 数据挖掘基础
  • 5.1 数据挖掘的起源
  • 5.2 数据挖掘的定义
  • 5.3 数据挖掘的任务
  • 5.3.1 分类
  • 5.3.2 回归分析
  • 5.3.3 相关分析
  • 5.3.4 聚类分析
  • 5.3.5 关联规则
  • 5.3.6 异常检测
  • 5.4 数据挖掘标准流程
  • 5.4.1 业务理解
  • 5.4.2 数据理解
  • 5.4.3 数据准备
  • 5.4.4 建立模型
  • 5.4.5 模型评估
  • 5.4.6 发布
  • 5.5 数据挖掘的十大挑战性问题
  • 5.5.1 数据挖掘统一理论的探索
  • 5.5.2 高维数据和高速数据流的研究与应用
  • 5.5.3 时序数据的挖掘与降噪
  • 5.5.4 从复杂数据中寻找复杂知识
  • 5.5.5 网络环境中的数据挖掘
  • 5.5.6 分布式数据挖掘
  • 5.5.7 生物医学和环境科学数据挖掘
  • 5.5.8 数据挖掘过程自动化与可视化
  • 5.5.9 信息安全与隐私保护
  • 5.5.10 动态、不平衡及成本敏感数据的挖掘
  • 思考题
  • 第6章 数据挖掘算法
  • 6.1 算法评估概述
  • 6.1.1 分类算法及评估指标
  • 6.1.2 聚类算法及其评价指标
  • 6.2 C4.5
  • 6.2.1 信息论基础知识
  • 6.2.2 ID3算法
  • 6.2.3 C4.5算法
  • 6.2.4 C4.5算法的实现
  • 6.2.5 C4.5的软件实现
  • 6.3 CART算法
  • 6.3.1 算法介绍
  • 6.3.2 算法描述
  • 6.4 K-Means算法
  • 6.4.1 基础知识
  • 6.4.2 算法描述
  • 6.4.3 算法的软件实现
  • 6.5 SVM算法
  • 6.5.1 线性可分SVM
  • 6.5.2 线性不可分SVM
  • 6.5.3 参数设置
  • 6.5.4 SVM算法的软件实现
  • 6.6 Apriori算法
  • 6.6.1 基本概念
  • 6.6.2 Apriori算法
  • 6.6.3 Apriori算法示例
  • 6.6.4 Apriori算法的软件实现
  • 6.7 EM算法
  • 6.7.1 算法描述
  • 6.7.2 基于EM的混合高斯聚类
  • 6.7.3 算法的软件实现
  • 6.8 PageRank
  • 6.8.1 PageRank算法发展背景
  • 6.8.2 PageRank算法描述
  • 6.8.3 PageRank算法发展
  • 6.9 Adaboost算法
  • 6.9.1 集成学习
  • 6.9.2 Adaboost算法描述
  • 6.9.3 Adaboost算法实验
  • 6.10 KNN算法
  • 6.10.1 KNN算法描述
  • 6.10.2 KNN算法的软件实现
  • 6.11 Naive Bayes
  • 6.11.1 基础知识
  • 6.11.2 算法描述
  • 6.11.3 Naive Bayes软件实现
  • 思考题
  • 第7章 数据挖掘工具与产品
  • 7.1 数据挖掘工具概述
  • 7.1.1 发展过程
  • 7.1.2 基本类型
  • 7.1.3 开发者与使用者
  • 7.2 商业数据挖掘工具IBM SPSS Modeler
  • 7.2.1 产品概述
  • 7.2.2 可视化数据挖掘
  • 7.2.3 SPSS Modeler技术说明
  • 7.2.4 SPSS Modeler的数据挖掘应用
  • 7.3 开源数据挖掘工具WEKA
  • 7.3.1 WEKA数据格式
  • 7.3.2 WEKA的使用
  • 思考题
  • 第8章 数据挖掘案例
  • 8.1 概述
  • 8.2 纳税评估示例
  • 8.2.1 纳税评估监控等级预测的方法
  • 8.2.2 构建税务行业数据中心
  • 8.2.3 构建纳税评估监控等级模型
  • 8.3 税收预测建模示例
  • 8.4 税务行业纳税人客户细分探索
  • 8.4.1 客户细分概述
  • 8.4.2 客户细分的主要研究方法
  • 8.4.3 构建客户细分模型
  • 8.5 基于Hadoop平台的数据挖掘
  • 8.5.1 基于IBM SPSS Analytic Server的数据挖掘
  • 8.5.2 基于R的数据挖掘
  • 思考题
  • 第9章 大数据管理
  • 9.1 什么是大数据
  • 9.2 Hadoop介绍
  • 9.3 NoSQL介绍
  • 9.3.1 CAP定理
  • 9.3.2 一致性
  • 9.3.3 ACID模型
  • 9.3.4 BASE模型
  • 9.3.5 MoreSQL/NewSQL
  • 9.4 InfoSphere BigInsights 3.0介绍
  • 9.4.1 Big SQL 3.0
  • 9.4.2 企业集成
  • 9.4.3 GPFS-FPO
  • 9.4.4 IBM Adaptive MR
  • 9.4.5 BigSheets
  • 9.4.6 高级文本分析
  • 9.4.7 Solr
  • 9.4.8 改进工作负载调度
  • 9.4.9 压缩
  • 思考题
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。