互联网
类型
可以朗读
语音朗读
291千字
字数
2024-01-01
发行日期
展开全部
主编推荐语
一本关于Python数据整理和数据质量的实用指南。
内容简介
本书主要介绍了如何使用Python进行数据清洗、转换和整合,以及如何确保数据的准确性和一致性。
本书涵盖了数据整理基础、数据清洗、数据转换、数据整合、数据质量检查和数据可视化等内容。通过丰富的实例和代码示例,读者可以掌握Python数据整理和数据分析的相关技能。无论你是数据分析师、数据科学家还是其他领域的数据从业者,本书都不仅能够帮助你提高工作效率,还能够让你更好地理解和应用数据科学相关的知识和技能。
目录
- 版权信息
- 作者简介
- 封面简介
- O'Reilly Media, Inc.介绍
- 译者序
- 前言
- 第1章 数据整理与数据质量简介
- 1.1 什么是数据整理
- 1.2 什么是数据质量
- 1.2.1 数据的完整程度
- 1.2.2 数据的适合程度
- 1.3 为什么选用Python语言整理数据
- 1.3.1 功能丰富
- 1.3.2 容易入门
- 1.3.3 代码易读
- 1.3.4 庞大的社区
- 1.3.5 除了Python还可以考虑哪些语言
- 1.4 编写并运行Python代码
- 1.5 如何在自己的设备上编写Python代码
- 1.5.1 了解如何使用命令行界面
- 1.5.2 安装Python、Jupyter Notebook与代码编辑器
- 1.6 在网页版的开发环境中编写Python代码
- 1.7 编写“Hello World!”程序
- 1.7.1 用Atom编辑器创建单独的Python文件
- 1.7.2 用Jupyter新建Python notebook
- 1.7.3 用Google Colab新建Python notebook
- 1.8 添加代码
- 1.8.1 在单独的Python文件中编写代码
- 1.8.2 在notebook中编写代码
- 1.9 运行代码
- 1.9.1 运行写在单独的Python文件中的代码
- 1.9.2 运行写在notebook中的代码
- 1.10 撰写文档、保存工作资料和管理不同版本的资料
- 1.10.1 撰写文档
- 1.10.2 保存工作资料
- 1.10.3 管理不同版本的资料
- 1.11 小结
- 第2章 Python入门
- 2.1 词性
- 2.1.1 日常语言中的名词相当于编程语言中的变量
- 2.1.2 日常语言中的动词相当于编程语言中的函数
- 2.1.3 用自定义函数调配代码
- 2.1.4 通过程序库借用其他开发者所编写的自定义函数
- 2.2 用循环结构与条件结构控制程序的走向
- 2.2.1 循环
- 2.2.2 根据某条件是否成立做不同的处理
- 2.3 代码中可能出现的各种错误
- 2.3.1 语法错误
- 2.3.2 运行时错误
- 2.3.3 逻辑错误
- 2.4 用Citi Bike数据来演示如何编写数据整理程序
- 2.4.1 先写伪代码
- 2.4.2 试着把程序用在规模更大的数据中
- 2.5 小结
- 第3章 了解数据质量
- 3.1 判断数据是否合适
- 3.1.1 有效程度
- 3.1.2 可靠程度
- 3.1.3 典型程度
- 3.2 判断数据是否完整
- 3.2.1 完整的数据所具备的必要非充分特征
- 3.2.2 完整的数据所具备的重要特征
- 3.2.3 有则更好的特征
- 3.3 提升数据的质量
- 3.3.1 数据清洗
- 3.3.2 数据增强
- 3.4 小结
- 第4章 用Python处理基于文件与基于feed的数据
- 4.1 结构化的数据与非结构化的数据
- 4.2 处理结构化的数据
- 4.2.1 基于文件的表格型数据——这种数据需要切割
- 4.2.2 用Python语言整理表格型数据
- 4.3 以了解失业情况为例来整理现实数据
- 4.3.1 如何把XLSX与ODS等表格数据转换成CSV格式
- 4.3.2 如何处理固定宽度的表格数据
- 4.3.3 如何处理基于feed的数据(该数据适合用来分析实时更新的网络内容)
- 4.3.4 用Python整理feed型数据
- 4.4 处理非结构化的数据
- 4.4.1 如何处理基于图像的文本
- 4.4.2 用Python整理PDF文件
- 4.4.3 用Tabula访问PDF文件中的表格
- 4.5 小结
- 第5章 访问网络数据
- 5.1 联网访问在线的XML与JSON数据
- 5.2 API简介
- 5.3 以搜索引擎为例讲解如何调用基本的API
- 5.4 如何调用带有基本身份认证机制的API
- 5.4.1 获取FRED提供的API密钥
- 5.4.2 通过API密钥请求数据
- 5.5 阅读API文档
- 5.6 使用Python时保护你的API密钥
- 5.6.1 创建包含API密钥的credentials文件
- 5.6.2 在单独的脚本中使用credentials文件中的API密钥
- 5.6.3 学习.gitignore文件的用法
- 5.7 如何调用带有OAuth认证机制的API
- 5.7.1 申请Twitter开发者账号
- 5.7.2 在Twitter开发者平台创建你的“App”并获取访问凭据
- 5.7.3 通过编码调整API Key与API Key Secret的形式
- 5.7.4 申请access token,并用它来调用Twitter API以获取数据
- 5.8 调用API时所应遵循的行为准则
- 5.9 获取数据的最后一招:网页抓取
- 5.9.1 以MTA数据为例演示如何谨慎地抓取网页
- 5.9.2 使用浏览器的inspection工具
- 5.9.3 Python的网页抓取方案:Beautiful Soup
- 5.10 小结
- 第6章 评估数据质量
- 6.1 流行病与PPP
- 6.2 评估数据的完整程度
- 6.2.1 数据是否有确定的来源
- 6.2.2 数据是否及时
- 6.2.3 数据是否完备
- 6.2.4 数据是否包含丰富的注解或元数据
- 6.2.5 数据是否有充足的信息
- 6.2.6 数据是否一致
- 6.2.7 数据是否多元
- 6.2.8 数据是不是原子的
- 6.2.9 数据是否明确
- 6.2.10 数据是否从多个方面提供了信息
- 6.3 评估数据的适合程度
- 6.3.1 数据是否有效
- 6.3.2 数据是否可靠
- 6.3.3 数据是否典型
- 6.4 小结
- 第7章 清洗、转换和增强数据
- 7.1 如何从Citi Bike数据中选取一部分内容
- 7.1.1 通过切割字段值来提取数据
- 7.1.2 用正则表达式来实现更为精准的匹配
- 7.1.3 根据字符串创建日期对象,以筛选特定日期的记录
- 7.2 把数据文件清洗干净
- 7.3 把Excel表格中的日期处理好
- 7.4 把定宽数据转换成真正的CSV文件
- 7.5 修正拼写不一致的现象
- 7.6 为了找到简单方案而走过的弯路
- 7.7 一些容易出错的地方
- 7.8 增强数据
- 7.9 小结
- 第8章 调整并重构代码
- 8.1 重新思考自定义的函数
- 8.1.1 这段代码是不是要多次使用
- 8.1.2 代码是不是已经变得既难看又难懂了
- 8.1.3 你是不是很讨厌默认的做法
- 8.2 什么是作用域
- 8.3 为函数设计参数
- 8.3.1 设计可选的参数
- 8.3.2 还有没有其他办法设计参数
- 8.4 返回值
- 8.5 以嵌套的形式调用函数
- 8.6 既有趣又有用的重构
- 8.6.1 编写函数来判断某天是不是工作日
- 8.6.2 重构处理元数据与表格数据的脚本
- 8.7 用pydoc给自定义的脚本与函数撰写文档
- 8.8 让Python脚本支持命令行参数
- 8.9 命令行脚本与notebook的区别
- 8.10 小结
- 第9章 数据分析入门
- 9.1 情境很重要
- 9.2 常规与反常
- 9.3 评估集中趋势
- 9.3.1 平均值未必能反映一般状况
- 9.3.2 多考虑中位数
- 9.4 另辟蹊径:识别异常值
- 9.5 数据分析可视化
- 9.5.1 直方图
- 9.5.2 对称是很重要的
- 9.5.3 注意那些聚集在一起的样本
- 9.6 这些200万美元的贷款记录是怎么回事
- 9.7 注意按比例计算
- 9.8 小结
- 第10章 展示数据
- 10.1 视觉说服力
- 10.2 把整理数据后形成的观点表达出来
- 10.3 如何选择图表
- 10.3.1 饼图
- 10.3.2 条形图与柱状图
- 10.3.3 折线图
- 10.3.4 散点图
- 10.3.5 地图
- 10.4 视觉说服力要素
- 10.4.1 细节很重要
- 10.4.2 相信自己和专家的眼力
- 10.4.3 设定坐标轴的比例及刻度
- 10.4.4 选择配色
- 10.4.5 注解很重要
- 10.5 通过 seaborn与matplotlib库自定义更好的可视化图表
- 10.6 提高设计水平
- 10.7 小结
- 第11章 Python以外的工具
- 11.1 查看数据的其他工具
- 11.1.1 电子表格软件
- 11.1.2 OpenRefine
- 11.2 分享并展示数据的其他工具
- 11.2.1 编辑JPG、PNG与GIF图像的工具
- 11.2.2 编辑SVG与其他矢量图的工具
- 11.3 考虑原则问题
- 11.4 小结
- 附录A 其他Python编程资源
- A.1 Python语言及各种Python库的官方文档
- A.2 安装各种Python软件包
- A.3 及时更新开发工具
- A.4 如何继续寻找学习资料
- 附录B 再讲一讲Git
- B.1 执行git命令之后,进入了奇怪的编辑界面
- B.2 git push或git pull命令遭到拒绝
- B.3 Git命令速查
- 附录C 获取数据的渠道
- C.1 通过数据仓库与API获取数据
- C.2 向主题专家询问数据
- C.3 援引《信息自由法》来申请数据
- C.4 自己收集数据
- 附录D 与可视化及信息设计有关的资源
- D.1 信息可视化的基础书籍
- D.2 可以随时查阅的参考书籍
- D.3 能够激发灵感的参考资料
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。