互联网
类型
可以朗读
语音朗读
191千字
字数
2021-02-01
发行日期
展开全部
主编推荐语
本书教你掌握大数据、人工智能时代需要的数据预处理技术。
内容简介
在大数据、人工智能时代,数据分析必不可少。
本书以数据分析中至关重要的数据预处理为主题,通过54道例题具体介绍了基于SQL、R、Python的处理方法和相关技巧。全书共4个部分:
第1部分介绍预处理的基础知识;
第2部分介绍以数据结构为对象的预处理,包括数据提取、数据聚合、数据连接、数据拆分、数据生成和数据扩展;
第3部分介绍以数据内容为对象的预处理,涉及数值型、分类型、日期时间型、字符型和位置信息型;
第4部分为预处理实战,介绍与实际业务相同的预处理流程。
本书适合新手数据科学家、系统工程师、具备编程及数理基础的技术人才,以及对数据挖掘和数据分析等感兴趣的人阅读。
目录
- 版权信息
- 译者序
- 成功源于平淡、孤独而漫长的磨炼
- 前言
- 声明
- 第1部分 预处理入门
- 第1章 什么是预处理
- 1-1 数据
- 1-2 预处理的作用
- 1-3 预处理的流程
- 1-4 3 种编程语言
- 1-5 包和库
- 1-6 数据集
- 1-7 读取数据
- 第2部分 对数据结构的预处理
- 第2章 数据提取
- 2-1 提取指定的列
- 2-2 按指定条件提取
- 2-3 不基于数据值的采样
- 2-4 基于聚合 ID 的采样
- 第3章 数据聚合
- 3-1 计算数据条数和类型数
- 3-2 计算合计值
- 3-3 计算最值、代表值
- 3-4 计算离散程度
- 3-5 计算众数
- 3-6 排序
- 第4章 数据连接
- 4-1 主表的连接
- 4-2 切换按条件连接的表
- 4-3 连接历史数据
- 4-4 交叉连接
- 第5章 数据拆分
- 5-1 记录数据中模型验证数据的拆分
- 5-2 时序数据中模型验证数据的拆分
- 第6章 数据生成
- 6-1 通过欠采样调整不平衡数据
- 6-2 通过过采样调整不平衡数据
- 第7章 数据扩展
- 7-1 转换为横向显示
- 7-2 转换为稀疏矩阵
- 第3部分 对数据内容的预处理
- 第8章 数值型
- 8-1 转换为数值型
- 8-2 通过对数化实现非线性变换
- 8-3 通过分类化实现非线性变换
- 8-4 归一化
- 8-5 删除异常值
- 8-6 用主成分分析实现降维
- 8-7 数值填充
- 第9章 分类型
- 9-1 转换为分类型
- 9-2 哑变量化
- 9-3 分类值的聚合
- 9-4 分类值的组合
- 9-5 分类型的数值化
- 9-6 分类型的填充
- 第10章 日期时间型
- 10-1 转换为日期时间型、日期型
- 10-2 转换为年、月、日、时、分、秒、星期
- 10-3 转换为日期时间差
- 10-4 日期时间型的增减
- 10-5 转换为季节
- 10-6 转换为时间段
- 10-7 转换为工作日、休息日
- 第11章 字符型
- 11-1 通过形态分析进行分解
- 11-2 转换为单词的集合数据
- 11-3 用 TF-IDF 调整单词权重
- 第12章 位置信息型
- 12-1 从日本坐标系到世界坐标系的转换以及从度、分、秒到度的转换
- 12-2 两点间距离、方向的计算
- 第4部分 预处理实战
- 第13章 实战练习
- 13-1 聚合分析的预处理
- 13-2 用于推荐的预处理
- 13-3 预测建模的预处理
- 结语
- 参考文献
- 作者简介
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。