展开全部

主编推荐语

掌握高效数据清洗方法,让用户更好地体验大数据价值。

内容简介

理解数据清洗在整个数据科学过程中的作用,掌握数据清洗的基础知识,包括文件清洗、数据类型、字符编码等。

发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能,学会常见数据格式的相互转换,如JSON、CSV和一些特殊用途的格式,采用三种策略来解析和清洗HTML文件中的数据,揭开PDF文档的秘密,提取需要的数据。

借助一系列解决方案来清洗存放在关系型数据库里的坏数据,创建自己的干净数据集,为其打包、添加授权许可并与他人共享,使用书中的工具以及Twitter和Stack Overflow数据,完成两个真实的项目。

目录

  • 版权信息
  • 版权声明
  • 前言
  • 本书内容
  • 你需要准备些什么
  • 本书的目标读者
  • 本书排版约定
  • 读者反馈
  • 客户支持
  • 彩色图片下载
  • 勘误表
  • 关于盗版
  • 问题反馈
  • 第1章 为什么需要清洗数据
  • 1.1 新视角
  • 1.2 数据科学过程
  • 1.3 传达数据清洗工作的内容
  • 1.4 数据清洗环境
  • 1.5 入门示例
  • 1.6 小结
  • 第2章 基础知识——格式、类型与编码
  • 2.1 文件格式
  • 2.1.1 文本文件与二进制文件
  • 2.1.2 常见的文本文件格式
  • 2.1.3 分隔格式
  • 2.2 归档与压缩
  • 2.2.1 归档文件
  • 2.2.2 压缩文件
  • 2.3 数据类型、空值与编码
  • 2.3.1 数据类型
  • 2.3.2 数据类型间的相互转换
  • 2.3.3 转换策略
  • 2.3.4 隐藏在数据森林中的空值
  • 2.3.5 字符编码
  • 2.4 小结
  • 第3章 数据清洗的老黄牛——电子表格和文本编辑器
  • 3.1 电子表格中的数据清洗
  • 3.1.1 Excel的文本分列功能
  • 3.1.2 字符串拆分
  • 3.1.3 字符串拼接
  • 3.2 文本编辑器里的数据清洗
  • 3.2.1 文本调整
  • 3.2.2 列选模式
  • 3.2.3 加强版的查找与替换功能
  • 3.2.4 文本排序与去重处理
  • 3.2.5 Process Lines Containing
  • 3.3 示例项目
  • 3.3.1 第一步:问题陈述
  • 3.3.2 第二步:数据收集
  • 3.3.3 第三步:数据清洗
  • 3.3.4 第四步:数据分析
  • 3.4 小结
  • 第4章 讲通用语言——数据转换
  • 4.1 基于工具的快速转换
  • 4.1.1 从电子表格到CSV
  • 4.1.2 从电子表格到JSON
  • 4.1.3 使用phpMyAdmin从SQL语句中生成CSV或JSON
  • 4.2 使用PHP实现数据转换
  • 4.2.1 使用PHP实现SQL到JSON的数据转换
  • 4.2.2 使用PHP实现SQL到CSV的数据转换
  • 4.2.3 使用PHP实现JSON到CSV的数据转换
  • 4.2.4 使用PHP实现CSV到JSON的数据转换
  • 4.3 使用Python实现数据转换
  • 4.3.1 使用Python实现CSV到JSON的数据转换
  • 4.3.2 使用csvkit实现CSV到JSON的数据转换
  • 4.3.3 使用Python实现JSON到CSV的数据转换
  • 4.4 示例项目
  • 4.4.1 第一步:下载GDF格式的Facebook数据
  • 4.4.2 第二步:在文本编辑器中查看GDF文件
  • 4.4.3 第三步:从GDF格式到JSON格式的转换
  • 4.4.4 第四步:构建D3图
  • 4.4.5 第五步:把数据转换成Pajek格式
  • 4.4.6 第六步:简单的社交网络分析
  • 4.5 小结
  • 第5章 收集并清洗来自网络的数据
  • 5.1 理解HTML页面结构
  • 5.1.1 行分隔模型
  • 5.1.2 树形结构模型
  • 5.2 方法一:Python和正则表达式
  • 5.2.1 第一步:查找并保存实验用的Web文件
  • 5.2.2 第二步:观察文件内容并判定有价值的数据
  • 5.2.3 第三步:编写Python程序把数据保存到CSV文件中
  • 5.2.4 第四步:查看文件并确认清洗结果
  • 5.2.5 使用正则表达式解析HTML的局限性
  • 5.3 方法二:Python和BeautifulSoup
  • 5.3.1 第一步:找到并保存实验用的文件
  • 5.3.2 第二步:安装BeautifulSoup
  • 5.3.3 第三步:编写抽取数据用的Python程序
  • 5.3.4 第四步:查看文件并确认清洗结果
  • 5.4 方法三:Chrome Scraper
  • 5.4.1 第一步:安装Chrome扩展Scraper
  • 5.4.2 第二步:从网站上收集数据
  • 5.4.3 第三步:清洗数据
  • 5.5 示例项目:从电子邮件和论坛中抽取数据
  • 5.5.1 项目背景
  • 5.5.2 第一部分:清洗来自Google Groups电子邮件的数据
  • 5.5.3 第二部分:清洗来自网络论坛的数据
  • 5.6 小结
  • 第6章 清洗PDF文件中的数据
  • 6.1 为什么PDF文件很难清洗
  • 6.2 简单方案——复制
  • 6.2.1 我们的实验文件
  • 6.2.2 第一步:把我们需要的数据复制出来
  • 6.2.3 第二步:把复制出来的数据粘贴到文本编辑器中
  • 6.2.4 第三步:轻量级文件
  • 6.3 第二种技术——pdfMiner
  • 6.3.1 第一步:安装pdfMiner
  • 6.3.2 第二步:从PDF文件中提取文本
  • 6.4 第三种技术——Tabula
  • 6.4.1 第一步:下载Tabula
  • 6.4.2 第二步:运行Tabula
  • 6.4.3 第三步:用Tabula提取数据
  • 6.4.4 第四步:数据复制
  • 6.4.5 第五步:进一步清洗
  • 6.5 所有尝试都失败之后——第四种技术
  • 6.6 小结
  • 第7章 RDBMS清洗技术
  • 7.1 准备
  • 7.2 第一步:下载并检查Sentiment140
  • 7.3 第二步:清洗要导入的数据
  • 7.4 第三步:把数据导入MySQL
  • 7.4.1 发现并清洗异常数据
  • 7.4.2 创建自己的数据表
  • 7.5 第四步:清洗&字符
  • 7.6 第五步:清洗其他未知字符
  • 7.7 第六步:清洗日期
  • 7.8 第七步:分离用户提及、标签和URL
  • 7.8.1 创建一些新的数据表
  • 7.8.2 提取用户提及
  • 7.8.3 提取标签
  • 7.8.4 提取URL
  • 7.9 第八步:清洗查询表
  • 7.10 第九步:记录操作步骤
  • 7.11 小结
  • 第8章 数据分享的最佳实践
  • 8.1 准备干净的数据包
  • 警句箴言——使用GitHub发布数据
  • 8.2 为数据编写文档
  • 8.2.1 README文件
  • 8.2.2 文件头
  • 8.2.3 数据模型和图表
  • 8.2.4 维基或CMS
  • 8.3 为数据设置使用条款与许可协议
  • 常见使用条款
  • 8.4 数据发布
  • 8.4.1 数据集清单列表
  • 8.4.2 Stack Exchange上的Open Data
  • 8.4.3 编程马拉松
  • 8.5 小结
  • 第9章 Stack Overflow项目
  • 9.1 第一步:关于Stack Overflow的问题
  • 9.2 第二步:收集并存储Stack Overflow数据
  • 9.2.1 下载Stack Overflow数据
  • 9.2.2 文件解压
  • 9.2.3 创建MySQL数据表并加载数据
  • 9.2.4 构建测试表
  • 9.3 第三步:数据清洗
  • 9.3.1 创建新的数据表
  • 9.3.2 提取URL并填写新数据表
  • 9.3.3 提取代码并填写新表
  • 9.4 第四步:数据分析
  • 9.4.1 哪些代码分享网站最为流行
  • 9.4.2 问题和答案中的代码分享网站都有哪些
  • 9.4.3 提交内容会同时包含代码分享URL和程序源代码吗
  • 9.5 第五步:数据可视化
  • 9.6 第六步:问题解析
  • 9.7 从测试表转向完整数据表
  • 9.8 小结
  • 第10章 Twitter项目
  • 10.1 第一步:关于推文归档数据的问题
  • 10.2 第二步:收集数据
  • 10.2.1 下载并提取弗格森事件的数据文件
  • 10.2.2 创建一个测试用的文件
  • 10.2.3 处理推文ID
  • 10.3 第三步:数据清洗
  • 10.3.1 创建数据表
  • 10.3.2 用Python为新表填充数据
  • 10.4 第四步:简单的数据分析
  • 10.5 第五步:数据可视化
  • 10.6 第六步:问题解析
  • 10.7 把处理过程应用到全数据量(非测试用)数据表
  • 10.8 小结
  • 看完了
展开全部

评分及书评

尚无评分
目前还没人评分
  • 加载中...

出版方

人民邮电出版社·图灵出品

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。