展开全部

主编推荐语

本书详细介绍数据预处理技术,实用性强,适合大数据从业者。

内容简介

数据预处理在大数据和人工智能方面有着广泛的应用,本书结合理论和工程应用循序渐进地介绍数据预处理技术,内容包括:网络爬虫、数据采集与存储、python数据处理库、信息格式化抽取、数据清洗、数据集成、特征向量化、特征降维、可视化技术、数据预处理在实际项目中的应用及其深度学习技术进行数据预处理。本书的特点是示例代码丰富,实用性和系统性较强,适合于大数据从业者、AI技术开发人员、培训机构及大专院校相关专业的教学参考书。

目录

  • 封面页
  • 书名页
  • 版权页
  • 作者简介
  • 内容简介
  • 前言
  • 目录
  • 第1章 概述
  • 1.1 Python数据预处理
  • 1.1.1 什么是数据预处理
  • 1.1.2 为什么要做数据预处理
  • 1.1.3 数据预处理的工作流程
  • 1.1.4 数据预处理的应用场景
  • 1.2 开发工具与环境
  • 1.2.1 Anaconda介绍与安装
  • 1.2.2 Sublime Text
  • 1.3 实战案例:第一个中文分词程序
  • 1.3.1 中文分词
  • 1.3.2 实例介绍
  • 1.3.3 结巴实现中文分词
  • 1.4 本章小结
  • 第2章 Python科学计算工具
  • 2.1 NumPy
  • 2.1.1 NumPy的安装和特点
  • 2.1.2 NumPy数组
  • 2.1.3 Numpy的数学函数
  • 2.1.4 NumPy线性代数运算
  • 2.1.5 NumPy IO操作
  • 2.2 SciPy
  • 2.2.1 SciPy的安装和特点
  • 2.2.2 SciPy Linalg
  • 2.2.3 SciPy文件操作
  • 2.2.4 SciPy插值
  • 2.2.5 SciPy Ndimage
  • 2.2.6 SciPy优化算法
  • 2.3 Pandas
  • 2.3.1 Pandas的安装和特点
  • 2.3.2 Pandas的数据结构
  • 2.3.3 Pandas的数据统计
  • 2.3.4 Pandas处理丢失值
  • 2.3.5 Pandas处理稀疏数据
  • 2.3.6 Pandas的文件操作
  • 2.3.7 Pandas可视化
  • 2.4 本章小结
  • 第3章 数据采集与存储
  • 3.1 数据与数据采集
  • 3.2 数据类型与采集方法
  • 3.2.1 结构化数据
  • 3.2.2 半结构化数据
  • 3.2.3 非结构化数据
  • 3.3 网络爬虫技术
  • 3.3.1 前置条件
  • 3.3.2 Scrapy技术原理
  • 3.3.3 Scrapy新建爬虫项目
  • 3.3.4 爬取网站内容
  • 3.4 爬取数据以JSON格式进行存储
  • 3.5 爬取数据的MySQL存储
  • 3.5.1 MySQL与Navicat部署
  • 3.5.2 MySQL存储爬虫数据
  • 3.6 网络爬虫技术扩展
  • 3.7 本章小结
  • 第4章 文本信息抽取
  • 4.1 文本抽取概述
  • 4.2 文本抽取问题
  • 4.3 Pywin32抽取文本信息
  • 4.3.1 Pywin32介绍
  • 4.3.2 抽取Word文档文本信息
  • 4.3.3 抽取PDF文档文本信息
  • 4.3.4 打造灵活的文本抽取工具
  • 4.4 文本批量编码
  • 4.5 实战案例:遍历文件批量抽取新闻文本内容
  • 4.5.1 递归读取文件
  • 4.5.2 遍历抽取新闻文本
  • 4.6 本章小结
  • 第5章 文本数据清洗
  • 5.1 新闻语料的准备
  • 5.2 高效读取文件
  • 5.2.1 递归遍历读取新闻
  • 5.2.2 yield生成器
  • 5.2.3 高效遍历读取新闻
  • 5.3 通过正则表达式来清洗文本数据
  • 5.3.1 正则表达式
  • 5.3.2 清洗文本数据
  • 5.4 清洗HTML网页数据
  • 5.5 简繁字体转换
  • 5.6 实战案例:批量新闻文本数据清洗
  • 5.6.1 高效读取文件内容
  • 5.6.2 抽样处理文件
  • 5.6.3 通过正则表达式批量清洗文件
  • 5.7 本章小结
  • 第6章 中文分词技术
  • 6.1 中文分词简介
  • 6.1.1 中文分词概述
  • 6.1.2 常见中文分词方法
  • 6.2 结巴分词精讲
  • 6.2.1 结巴分词的特点
  • 6.2.2 结巴分词的安装
  • 6.2.3 结巴分词核心方法
  • 6.2.4 结巴中文分词的基本操作
  • 6.2.5 自定义分词词典
  • 6.2.6 关键词提取
  • 6.2.7 词性标注
  • 6.3 HanLP分词精讲
  • 6.3.1 JPype1的安装
  • 6.3.2 调用HanLP的Java包
  • 6.3.3 HanLP分词
  • 6.3.4 HanLP实现自定义分词
  • 6.3.5 命名实体识别与词性标注
  • 6.3.6 HanLP实现关键词抽取
  • 6.3.7 HanLP实现自动摘要
  • 6.4 自定义去除停用词
  • 6.4.1 以正则表达式对文本信息进行清洗
  • 6.4.2 结巴中文分词词性解读
  • 6.4.3 根据词性规则构建自定义停用词
  • 6.5 词频统计
  • 6.5.1 NLTK介绍与安装
  • 6.5.2 统计新闻文本词频
  • 6.5.3 统计特定词频和次数
  • 6.5.4 特征词的频率分布表
  • 6.5.5 频率分布图与频率累计分布图
  • 6.5.6 基于Counter的词频统计
  • 6.6 自定义去高低词频
  • 6.7 自定义规则提取特征词
  • 6.8 实战案例:新闻文本分词处理
  • 6.9 本章小结
  • 第7章 文本特征向量化
  • 7.1 解析数据文件
  • 7.2 处理缺失值
  • 7.2.1 什么是数据缺失值
  • 7.2.2 均值法处理数据缺失值
  • 7.2.3 Pandas处理缺失值
  • 7.3 数据的归一化处理
  • 7.3.1 不均衡数据分析
  • 7.3.2 归一化的原理
  • 7.3.3 归一化的优点
  • 7.4 特征词转文本向量
  • 7.5 词频-逆词频(TF-IDF)
  • 7.6 词集模型与词袋模型
  • 7.7 实战案例:新闻文本特征向量化
  • 7.8 本章小结
  • 第8章 Gensim文本向量化
  • 8.1 Gensim的特性和核心概念
  • 8.2 Gensim构建语料词典
  • 8.3 Gensim统计词频特征
  • 8.4 Gensim计算TF-IDF
  • 8.5 Gensim实现主题模型
  • 8.5.1 主题模型
  • 8.5.2 潜在语义分析(LSA)
  • 8.5.3 隐含狄利克雷分布(LDA)
  • 8.5.4 LDA的模型实现
  • 8.5.5 随机映射(RP)
  • 8.6 实战案例:Gensim实现新闻文本特征向量化
  • 8.6.1 参数设置
  • 8.6.2 生成词典模型
  • 8.6.3 生成TF-IDF模型
  • 8.7 本章小结
  • 第9章 PCA降维技术
  • 9.1 什么是降维
  • 9.2 PCA概述
  • 9.3 PCA应用场景
  • 9.4 PCA的算法实现
  • 9.4.1 准备数据
  • 9.4.2 PCA数据降维
  • 9.4.3 高维向低维数据映射
  • 9.5 实战案例:PCA技术实现新闻文本特征降维
  • 9.5.1 加载新闻数据
  • 9.5.2 前N个主成分特征
  • 9.5.3 PCA新闻特征降维可视化
  • 9.6 本章小结
  • 第10章 数据可视化
  • 10.1 Matplotlib概述
  • 10.1.1 认识Matplotlib
  • 10.1.2 Matplotlib的架构
  • 10.2 Matplotlib绘制折线图
  • 10.2.1 折线图的应用场景
  • 10.2.2 折线图的绘制示例
  • 10.3 Matplotlib绘制散点图
  • 10.3.1 散点图的应用场景
  • 10.3.2 散点图的绘制示例
  • 10.4 Matplotlib绘制直方图
  • 10.4.1 直方图的应用场景
  • 10.4.2 直方图的绘制示例
  • 10.5 练习:Matplotlib绘制气温图
  • 10.6 练习:Matplotlib绘制三维图
  • 10.6.1 练习1:绘制三维梯度下降图
  • 10.6.2 练习2:绘制三维散点图
  • 10.7 本章小结
  • 第11章 竞赛神器XGBoost
  • 11.1 XGBoost概述
  • 11.1.1 认识XGBoost
  • 11.1.2 XGBoost的应用场景
  • 11.2 XGBoost的优点
  • 11.3 使用XGBoost预测毒蘑菇
  • 11.3.1 XGBoost的开发环境及安装
  • 11.3.2 数据准备
  • 11.3.3 参数设置
  • 11.3.4 模型训练
  • 11.3.5 可视化特征排名
  • 11.4 XGBoost优化调参
  • 11.4.1 参数解读
  • 11.4.2 调参原则
  • 11.4.3 调参技巧
  • 11.5 预测糖尿病患者
  • 11.5.1 数据准备
  • 11.5.2 预测器模型构建
  • 11.5.3 调参提高预测器的性能
  • 11.6 本章小结
  • 第12章 XGBoost实现新闻文本分类
  • 12.1 文本分类概述
  • 12.2 文本分类的原理
  • 12.2.1 文本分类的数学描述
  • 12.2.2 文本分类的形式化描述
  • 12.3 分类模型评估
  • 12.4 数据预处理
  • 12.4.1 通用的类库
  • 12.4.2 阶段1:生成词典
  • 12.4.3 阶段2:词典向量化TF-IDF
  • 12.4.4 阶段3:生成主题模型
  • 12.5 XGBoost分类器
  • 12.6 新闻文本分类应用
  • 12.7 本章小结
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。