互联网
类型
可以朗读
语音朗读
119千字
字数
No.65
科学技术
2025-07-01
发行日期
展开全部
主编推荐语
本书旨在帮助读者从零基础入行到专家级数据分析师需掌握的全栈核心能力。
内容简介
全书共13章。
第1~5章为基础部分,系统介绍Python学习的基本路径以及数据分析师所需的核心编程技能,包括Pandas和NumPy基础、数据预处理和SQL基础。
第6~11章侧重于应用,涵盖了数据获取、可视化、分析方法、自动化分析报告生成、行业分析思维和数据挖掘等实用技能。
第12章为创新部分,重点探讨了如何利用ChatGPT进行数据挖掘。
第13章为答疑部分,回答了数据分析从业者常见的问题,如思维培养、突破瓶颈和转行准备,总结了多年的经验供读者参考。
目录
- 版权信息
- 内容简介
- 前言
- 配套资源下载
- 第1章 从菜鸟到高手的路径是什么
- 1.1 数据分析基础技能学习
- 1.1.1 Excel能力
- 1.要学习什么
- 2.怎么学
- 3.学到什么程度
- 1.1.2 SQL编程能力
- 1.要学习什么
- 2.怎么学
- 3.学到什么程度
- 1.1.3 Python编程能力
- 1.要学什么
- 2.怎么学
- 3.学到什么程度
- 1.2 数据分析思维能力培养
- 1.2.1 需求层面:角色转换
- 1.2.2 业务层面:核心指标
- 1.2.3 战略层面:明确方向
- 1.2.4 行业层面:洞察影响
- 1.3 Python数据分析通用链路技能
- 1.3.1 数据收集
- 1.3.2 数据预处理
- 1.3.3 数据分析
- 1.3.4 数据挖掘
- 1.3.5 数据可视化
- 1.3.6 数据分析报告
- 1.4 保持最佳的职业心态
- 1.4.1 遇到问题
- 1.4.2 面对和理解问题
- 1.4.3 解决问题:保持最佳的职业心态
- 1.主动思考,打破工具人设
- 2.挖掘能力洼地,突破瓶颈
- 3.学会能力迁移,拓展行业边界
- 1.5 本章小结
- 第2章 NumPy基础
- 2.1 NumPy简介
- 2.2 NumPy结构
- 2.3 数据类型及转换
- 2.4 生成各种数组
- 2.5 数组计算
- 2.6 索引和切片
- 1.一维数组的索引和切片
- 2.二维数组的索引和切片
- 3.多维数组的索引和切片
- 2.7 布尔索引
- 2.8 本章小结
- 第3章 Pandas入门
- 3.1 Series基础使用
- 3.1.1 Series定义和构造
- 1.Series定义
- 2.Series构造
- 3.1.2 Series索引和值
- 3.1.3 字典生成Series
- 3.1.4 Series基础查询与过滤
- 3.1.5 Series和数值相乘
- 3.1.6 Series识别缺失值
- 3.2 DataFrame基础使用
- 3.2.1 DataFrame定义和构造
- 1.DataFrame定义
- 2.DataFrame构造
- 3.2.2 嵌套字典生成DataFrame
- 3.2.3 DataFrame固定行输出
- 3.2.4 DataFrame固定列输出
- 1.单列输出
- 2.多列输出
- 3.2.5 DataFrame列赋值
- 3.2.6 DataFrame列删除
- 3.3 Pandas数据交互
- 3.3.1 重新设置索引
- 3.3.2 删除行和列
- 3.3.3 Pandas选择与过滤
- 3.3.4 Pandas数据对齐和相加
- 3.3.5 Pandas函数apply应用
- 3.3.6 Pandas数据排序
- 1.按索引排序
- 2.按变量值排序
- 3.4 动手实践:Pandas描述性统计
- 3.4.1 列求和
- 3.4.2 最大值和最小值索引位置
- 3.4.3 累计求和输出
- 3.4.4 描述方法describe()
- 3.5 本章小结
- 第4章 Python基础数据处理
- 4.1 数据读取
- 1.Excel数据写入
- 2.Excel数据读取
- 4.2 数据合并
- 4.2.1 按数据库表关联方式
- 4.2.2 按轴方向合并
- 1.按行方向合并(纵向堆叠)
- 2.按列方向合并(横向合并)
- 3.内连接与外连接
- 4.使用多层索引
- 5.转换索引为列名
- 6.使用列头
- 7.小结
- 4.3 数据清洗
- 4.3.1 缺失值处理
- 1.过滤缺失值
- 2.填充缺失值
- 4.3.2 重复值处理
- 1.识别重复值
- 2.删除重复值
- 4.3.3 特殊处理
- 1.字符截取
- 2.去除字符前后空格和特殊符号
- 3.列数据分割
- 4.4 数据分组
- 4.5 数据替换
- 4.6 本章小结
- 第5章 SQL基础
- 5.1 MySQL数据库安装
- 5.1.1 MySQL下载与安装
- 1.MySQL的下载与安装
- 2.修改数据库密码以确认安装成功
- 5.1.2 数据库管理工具安装
- 5.1.3 数据库的连接
- 5.2 MySQL数据查询
- 5.2.1 基础数据查询
- 1.单表查询
- 2.查询所有列
- 3.查询指定列
- 4.条件查询
- 5.2.2 模糊数据查询
- 5.2.3 字段处理查询
- 1.去重
- 2.求和
- 3.添加别名
- 5.2.4 排序
- 1.按照年龄排序
- 2.按照年龄降序排序
- 3.按照多个字段排序
- 5.2.5 函数运算查询
- 1.COUNT()函数
- 2.SUM()函数
- 3.AVG()函数
- 4.MAX()函数和MIN()函数
- 5.2.6 分组查询
- 1.查询不同性别的总分
- 2.查询总分大于100的性别组
- 5.2.7 限制查询
- 5.3 多表查询
- 1.示例表数据
- 2.内连接
- 3.左连接
- 4.右连接
- 5.全连接
- 5.4 增、删、改方法
- 1.创建表
- 2.增加数据
- 3.删除数据
- 4.更新数据
- 5.5 本章小结
- 1.SQL基础知识
- 2.数据查询的核心
- 3.数据操作的增、删、改
- 4.创建和管理表
- 5.进一步学习的方向
- 第6章 Python爬虫基础
- 6.1 爬虫原理和网页构造
- 6.1.1 网络连接
- 6.1.2 爬虫原理
- 1.多页面爬取流程
- 2.跨页面爬取流程
- 6.1.3 网页构造
- 6.2 请求和解析库
- 6.2.1 Requests库
- 6.2.2 Lxml库与Xpath语法
- 1.Lxml库
- 2.Xpath语法
- 3.节点关系
- 1)父子节点和同胞节点
- 2)先辈节点和后代节点
- 4.节点选择
- 5.节点使用实践
- 6.3 数据库存储
- 6.3.1 新建MySQL数据库
- 6.3.2 Python数据存储
- 6.4 案例实践:爬取当当网图书好评榜TOP500
- 6.4.1 爬取思路
- 1.找到当当网好评榜页面
- 2.确认翻页的链接
- 3.确认要爬取的内容
- 4.爬取的具体路径
- 6.4.2 爬取代码
- 1.第一个页面爬取
- 2.保存到Excel文件
- 6.4.3 整体代码和输出
- 6.5 本章小结
- 第7章 数据分析方法
- 7.1 5W2H分析法
- 1.定义
- 2.案例介绍
- 3.应用场景
- 7.2 漏斗分析法
- 1.定义
- 2.案例介绍
- 3.应用场景
- 4.常用的漏斗模型
- 1)用户行为漏斗模型
- 2)AARRR模型
- 3)RARRA模型
- 7.3 行业分析法
- 1.定义
- 2.分析维度
- 7.4 对比分析法
- 1.定义
- 2.应用场景
- 3.使用对比分析法
- 1)与自身比较
- 2)与行业比较
- 3)与竞争对手比较
- 7.5 逻辑树分析法
- 1.定义
- 2.应用场景
- 3.案例介绍
- 7.6 相关分析法
- 1.定义
- 2.相关分析法的作用
- 3.相关分析法的使用
- 4.相关分析法如何解决问题
- 7.7 2A3R分析法
- 1.获取用户
- 2.激活用户
- 3.提高用户留存率
- 4.增加收入
- 5.推荐
- 6.小结
- 7.8 多维拆解分析方法
- 1.多维拆解分析方法的应用
- 2.拆解维度
- 1)按照指标拆解
- 2)按照业务流程拆解
- 3.小结
- 7.9 本章小结
- 第8章 Python可视化
- 8.1 Matplotlib基础
- 8.1.1 可视化:多个子图
- 8.1.2 标题、刻度、标签、图例设置
- 8.1.3 注释
- 1.使用text方法添加文本
- 2.使用annotate方法添加箭头
- 8.1.4 图片保存
- 8.2 Matplotlib各种可视化图形
- 8.2.1 折线图
- 8.2.2 柱状图
- 1.垂直柱状图
- 2.水平柱状图
- 8.2.3 饼图
- 8.2.4 散点图
- 8.3 其他Python可视化工具介绍
- 8.4 可视化案例:动态可视化展示案例
- 8.5 本章小结
- 第9章 Python自动化生成Word分析报告
- 9.1 添加Word文档
- 9.2 添加标题和段落文本
- 9.2.1 添加标题
- 9.2.2 添加段落文本
- 9.3 添加表格
- 9.4 添加图片
- 9.5 设置各种格式
- 9.5.1 添加分页符
- 9.5.2 段落样式
- 9.5.3 字符样式
- 9.6 案例实践:杭州租房市场分析报告自动化
- 9.7 本章小结
- 第10章 行业数据分析思维
- 10.1 电商行业
- 10.1.1 行业经验总结
- 1.电商业务基础模式
- 2.用户如何运营
- 10.1.2 电商案例分析思维
- 1.明确问题现状
- 2.分析下降原因
- 1)时间维度分析
- 2)行为角度分析
- 3)时间内行为分析
- 3.分析思维总结
- 10.2 金融信贷行业
- 10.2.1 行业经验总结
- 1.业务模式
- 2.风控策略
- 3.业务指标
- 10.2.2 信贷风控案例分析思维
- 1.明确问题情况
- 2.分析逾期原因思维
- 3.风控策略思维
- 10.3 零售行业
- 10.3.1 行业经验总结
- 1.业务模式
- 2.零售业务的分析方法
- 3.零售业务的销售指标
- 1)销售完成率
- 2)销售退货率
- 3)销售折扣率
- 1)库龄
- 2)周转率
- 3)周转天数
- 4)存销比
- 1)坪效
- 2)SKU
- 3)动销比
- 4)售罄率
- 5)订单执行率
- 1)费率比
- 2)毛利率
- 3)净利率
- 10.3.2 零售案例分析思维
- 1.人、货、场
- 2.案例
- 1)明确问题情况
- 2)原因分析
- 10.4 本章小结
- 第11章 Python数据挖掘
- 11.1 常用的数据挖掘算法
- 11.1.1 C4.5算法
- 11.1.2 CART算法
- 11.1.3 朴素贝叶斯算法
- 11.1.4 SVM算法
- 11.1.5 KNN算法
- 11.1.6 AdaBoost算法
- 11.1.7 K-Means算法
- 11.1.8 EM算法
- 11.1.9 Apriori算法
- 1.支持度
- 2.置信度
- 3.提升度
- 4.频繁项集
- 11.1.10 PageRank算法
- 1.原理
- 2.比喻说明
- 1)微博
- 2)店铺经营
- 3)兴趣
- 3.阻尼因子
- 11.2 数据预处理方法
- 11.2.1 数据导入
- 1.CSV格式数据集
- 2.XLSX格式数据集
- 3.JSON格式数据集
- 11.2.2 数据描述
- 1.读取数据,查看前5行
- 2.了解数据类型
- 3.基础统计分析
- 4.了解行列数和名称
- 11.2.3 数据清洗
- 1.缺失值的处理
- 2.格式内容的处理
- 3.逻辑错误的处理
- 4.相关性核验
- 11.2.4 数据转换
- 11.2.5 数据分割
- 11.2.6 特征缩放
- 11.3 Scikit-learn介绍
- 1.数据加载
- 2.缺失值处理
- 3.特征编码
- 11.4 模型评估
- 1.分类模型评估指标
- 2.回归模型评估指标
- 3.聚类模型评估指标
- 11.5 案例分享
- 11.5.1 数据导入
- 11.5.2 数据现状分析维度
- 11.5.3 缺失值情况
- 11.5.4 异常值情况
- 1.比值类变量
- 1)RevolvingUtilizationOfUnsecuredLines
- 2)DebtRatio
- 2.年龄
- 3.对于单列数字查看离散情况,绘制箱线图查找异常值
- 1)NumberOfTime30-59DaysPastDueNotWorse
- 2)NumberOfTimes90DaysLate
- 3)NumberOfTime60-89DaysPastDueNotWorse
- 4)NumberRealEstateLoansOrLines
- 5)NumberOfOpenCreditLinesAndLoans
- 6)NumberOfDependents
- 7)MonthlyIncome
- 11.5.5 数据预处理
- 1.缺失值处理
- 2.异常值处理
- 11.5.6 探索性分析
- 1.好坏样本分布
- 2.相关性分析
- 3.数据集划分
- 4.计算IV值
- 1)固定分箱计算IV
- 2)自定义分箱计算IV值
- 5.建模
- 6.模型评估
- 7.详细代码
- 11.6 本章小结
- 第12章 ChatGPT数据分析方法实践
- 12.1 应用场景与分析方法建议
- 12.2 产品优化建议
- 12.3 使用ChatGPT编写代码
- 12.3.1 使用ChatGPT编写SQL代码
- 12.3.2 使用ChatGPT编写可视化图表代码
- 12.4 案例分享:使用ChatGPT自动化建模
- 12.4.1 数据上传
- 12.4.2 数据说明
- 12.4.3 数据探索分析
- 12.4.4 数据预处理
- 12.4.5 建模输出预测结果
- 12.4.6 模型评估
- 12.5 本章小结
- 第13章 数据分析师成长过程常见疑问
- 13.1 大厂数据分析岗位的日常工作
- 13.1.1 快速熟悉业务与数据库
- 13.1.2 可视化工具的使用
- 13.1.3 全局思维:搭建业务指标体系
- 13.1.4 产品思维:快速推进
- 13.1.5 不管什么分析方法,能发现解决问题就是好方法
- 13.1.6 项目管理和沟通是一把利剑
- 13.1.7 碎片化时间管理必不可少
- 13.1.8 小结:一个成熟的阿里数据分析师的日常要求
- 1.懂业务
- 2.懂工具
- 3.懂产品
- 4.懂分析
- 5.懂管理
- 13.2 数据分析新人如何写好阶段性工作总结
- 13.2.1 日常工作总结
- 13.2.2 重点项目
- 13.2.3 重点价值
- 13.2.4 重点协同
- 13.2.5 成果呈现
- 13.2.6 小结
- 13.3 做数据分析师会遇到哪些职业困惑
- 13.3.1 数据分析师是否需要具备强大的编程能力
- 13.3.2 数据分析师的价值
- 13.3.3 数据分析师升职加薪是不是很快
- 13.3.4 数据分析师是否容易遇到职业天花板,如何突破
- 1.从公司内部的角度
- 2.从公司外部的角度
- 13.3.5 如果将来不想再做数据分析师,还可以转向哪些职业
- 13.3.6 小结
- 13.4 转行做数据分析师要做好什么准备
- 13.4.1 了解自己、了解行业、确定方向
- 13.4.2 硬件准备和软件准备
- 1.硬件实操准备
- 1)基础:学习SQL和Excel
- 2)数据分析方法:学习各种分析方法
- 3)数据分析项目:各类项目实践准备
- 2.软件心理准备
- 1)枯燥的数据提取
- 2)付出不被认可
- 3)螺丝钉的准备
- 4)瓶颈来得太快太早
- 13.4.3 小结
- 13.5 数据分析师如何避免中年危机
- 13.5.1 扎实的基本功:分析能力
- 13.5.2 深耕行业:积累独特经验
- 1.经验之谈:以小见大
- 2.经验之谈:趋势预测
- 13.5.3 保持热情,不断创新
- 13.5.4 小结
- 13.6 数据分析师的前景
- 13.6.1 一般前景——数据分析师的发展路径
- 13.6.2 潜在前景——数据分析师的内功修炼
- 1.数据认知能力
- 2.业务洞察能力
- 3.产品设计能力
- 13.6.3 小结
- 13.7 数据分析师的薪资差异
- 13.7.1 硬件技能差异
- 13.7.2 分析思维的差异
- 1.分析问题
- 2.解决问题
- 13.7.3 沟通能力差异
- 13.7.4 项目管理能力差异
- 13.7.5 小结
- 13.8 数据分析师沦为“取数工具人”,如何破局
- 13.8.1 知己知彼:清楚如何被动沦为工具人
- 13.8.2 提高效率:找到以一当百的终极武器——自助分析工具
- 13.8.3 实现价值:数据驱动业务支持决策,彻底摆脱工具人角色
- 13.8.4 小结
- 13.9 本章小结
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。
