互联网
类型
5.5
豆瓣评分
可以朗读
语音朗读
175千字
字数
2016-05-01
发行日期
展开全部
主编推荐语
掌握高效数据清洗方法,让用户更好地体验大数据价值。
内容简介
理解数据清洗在整个数据科学过程中的作用,掌握数据清洗的基础知识,包括文件清洗、数据类型、字符编码等。
发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能,学会常见数据格式的相互转换,如JSON、CSV和一些特殊用途的格式,采用三种策略来解析和清洗HTML文件中的数据,揭开PDF文档的秘密,提取需要的数据。
借助一系列解决方案来清洗存放在关系型数据库里的坏数据,创建自己的干净数据集,为其打包、添加授权许可并与他人共享,使用书中的工具以及Twitter和Stack Overflow数据,完成两个真实的项目。
目录
- 版权信息
- 版权声明
- 前言
- 本书内容
- 你需要准备些什么
- 本书的目标读者
- 本书排版约定
- 读者反馈
- 客户支持
- 彩色图片下载
- 勘误表
- 关于盗版
- 问题反馈
- 第1章 为什么需要清洗数据
- 1.1 新视角
- 1.2 数据科学过程
- 1.3 传达数据清洗工作的内容
- 1.4 数据清洗环境
- 1.5 入门示例
- 1.6 小结
- 第2章 基础知识——格式、类型与编码
- 2.1 文件格式
- 2.1.1 文本文件与二进制文件
- 2.1.2 常见的文本文件格式
- 2.1.3 分隔格式
- 2.2 归档与压缩
- 2.2.1 归档文件
- 2.2.2 压缩文件
- 2.3 数据类型、空值与编码
- 2.3.1 数据类型
- 2.3.2 数据类型间的相互转换
- 2.3.3 转换策略
- 2.3.4 隐藏在数据森林中的空值
- 2.3.5 字符编码
- 2.4 小结
- 第3章 数据清洗的老黄牛——电子表格和文本编辑器
- 3.1 电子表格中的数据清洗
- 3.1.1 Excel的文本分列功能
- 3.1.2 字符串拆分
- 3.1.3 字符串拼接
- 3.2 文本编辑器里的数据清洗
- 3.2.1 文本调整
- 3.2.2 列选模式
- 3.2.3 加强版的查找与替换功能
- 3.2.4 文本排序与去重处理
- 3.2.5 Process Lines Containing
- 3.3 示例项目
- 3.3.1 第一步:问题陈述
- 3.3.2 第二步:数据收集
- 3.3.3 第三步:数据清洗
- 3.3.4 第四步:数据分析
- 3.4 小结
- 第4章 讲通用语言——数据转换
- 4.1 基于工具的快速转换
- 4.1.1 从电子表格到CSV
- 4.1.2 从电子表格到JSON
- 4.1.3 使用phpMyAdmin从SQL语句中生成CSV或JSON
- 4.2 使用PHP实现数据转换
- 4.2.1 使用PHP实现SQL到JSON的数据转换
- 4.2.2 使用PHP实现SQL到CSV的数据转换
- 4.2.3 使用PHP实现JSON到CSV的数据转换
- 4.2.4 使用PHP实现CSV到JSON的数据转换
- 4.3 使用Python实现数据转换
- 4.3.1 使用Python实现CSV到JSON的数据转换
- 4.3.2 使用csvkit实现CSV到JSON的数据转换
- 4.3.3 使用Python实现JSON到CSV的数据转换
- 4.4 示例项目
- 4.4.1 第一步:下载GDF格式的Facebook数据
- 4.4.2 第二步:在文本编辑器中查看GDF文件
- 4.4.3 第三步:从GDF格式到JSON格式的转换
- 4.4.4 第四步:构建D3图
- 4.4.5 第五步:把数据转换成Pajek格式
- 4.4.6 第六步:简单的社交网络分析
- 4.5 小结
- 第5章 收集并清洗来自网络的数据
- 5.1 理解HTML页面结构
- 5.1.1 行分隔模型
- 5.1.2 树形结构模型
- 5.2 方法一:Python和正则表达式
- 5.2.1 第一步:查找并保存实验用的Web文件
- 5.2.2 第二步:观察文件内容并判定有价值的数据
- 5.2.3 第三步:编写Python程序把数据保存到CSV文件中
- 5.2.4 第四步:查看文件并确认清洗结果
- 5.2.5 使用正则表达式解析HTML的局限性
- 5.3 方法二:Python和BeautifulSoup
- 5.3.1 第一步:找到并保存实验用的文件
- 5.3.2 第二步:安装BeautifulSoup
- 5.3.3 第三步:编写抽取数据用的Python程序
- 5.3.4 第四步:查看文件并确认清洗结果
- 5.4 方法三:Chrome Scraper
- 5.4.1 第一步:安装Chrome扩展Scraper
- 5.4.2 第二步:从网站上收集数据
- 5.4.3 第三步:清洗数据
- 5.5 示例项目:从电子邮件和论坛中抽取数据
- 5.5.1 项目背景
- 5.5.2 第一部分:清洗来自Google Groups电子邮件的数据
- 5.5.3 第二部分:清洗来自网络论坛的数据
- 5.6 小结
- 第6章 清洗PDF文件中的数据
- 6.1 为什么PDF文件很难清洗
- 6.2 简单方案——复制
- 6.2.1 我们的实验文件
- 6.2.2 第一步:把我们需要的数据复制出来
- 6.2.3 第二步:把复制出来的数据粘贴到文本编辑器中
- 6.2.4 第三步:轻量级文件
- 6.3 第二种技术——pdfMiner
- 6.3.1 第一步:安装pdfMiner
- 6.3.2 第二步:从PDF文件中提取文本
- 6.4 第三种技术——Tabula
- 6.4.1 第一步:下载Tabula
- 6.4.2 第二步:运行Tabula
- 6.4.3 第三步:用Tabula提取数据
- 6.4.4 第四步:数据复制
- 6.4.5 第五步:进一步清洗
- 6.5 所有尝试都失败之后——第四种技术
- 6.6 小结
- 第7章 RDBMS清洗技术
- 7.1 准备
- 7.2 第一步:下载并检查Sentiment140
- 7.3 第二步:清洗要导入的数据
- 7.4 第三步:把数据导入MySQL
- 7.4.1 发现并清洗异常数据
- 7.4.2 创建自己的数据表
- 7.5 第四步:清洗&字符
- 7.6 第五步:清洗其他未知字符
- 7.7 第六步:清洗日期
- 7.8 第七步:分离用户提及、标签和URL
- 7.8.1 创建一些新的数据表
- 7.8.2 提取用户提及
- 7.8.3 提取标签
- 7.8.4 提取URL
- 7.9 第八步:清洗查询表
- 7.10 第九步:记录操作步骤
- 7.11 小结
- 第8章 数据分享的最佳实践
- 8.1 准备干净的数据包
- 警句箴言——使用GitHub发布数据
- 8.2 为数据编写文档
- 8.2.1 README文件
- 8.2.2 文件头
- 8.2.3 数据模型和图表
- 8.2.4 维基或CMS
- 8.3 为数据设置使用条款与许可协议
- 常见使用条款
- 8.4 数据发布
- 8.4.1 数据集清单列表
- 8.4.2 Stack Exchange上的Open Data
- 8.4.3 编程马拉松
- 8.5 小结
- 第9章 Stack Overflow项目
- 9.1 第一步:关于Stack Overflow的问题
- 9.2 第二步:收集并存储Stack Overflow数据
- 9.2.1 下载Stack Overflow数据
- 9.2.2 文件解压
- 9.2.3 创建MySQL数据表并加载数据
- 9.2.4 构建测试表
- 9.3 第三步:数据清洗
- 9.3.1 创建新的数据表
- 9.3.2 提取URL并填写新数据表
- 9.3.3 提取代码并填写新表
- 9.4 第四步:数据分析
- 9.4.1 哪些代码分享网站最为流行
- 9.4.2 问题和答案中的代码分享网站都有哪些
- 9.4.3 提交内容会同时包含代码分享URL和程序源代码吗
- 9.5 第五步:数据可视化
- 9.6 第六步:问题解析
- 9.7 从测试表转向完整数据表
- 9.8 小结
- 第10章 Twitter项目
- 10.1 第一步:关于推文归档数据的问题
- 10.2 第二步:收集数据
- 10.2.1 下载并提取弗格森事件的数据文件
- 10.2.2 创建一个测试用的文件
- 10.2.3 处理推文ID
- 10.3 第三步:数据清洗
- 10.3.1 创建数据表
- 10.3.2 用Python为新表填充数据
- 10.4 第四步:简单的数据分析
- 10.5 第五步:数据可视化
- 10.6 第六步:问题解析
- 10.7 把处理过程应用到全数据量(非测试用)数据表
- 10.8 小结
- 看完了
展开全部
出版方
人民邮电出版社·图灵出品
图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。