互联网
类型
可以朗读
语音朗读
217千字
字数
No.48
科学技术
2025-06-01
发行日期
展开全部
主编推荐语
数据科学实用入门指南,助你应对常见商业挑战。
内容简介
本书通过对数据科学技术基本技能和丰富实用的示例的介绍,展示如何获取、分析和可视化数据,利用数据应对常见的业务挑战。通过优化共享单车公司的业务运营、从网站上提取数据并创建推荐系统等示例,你将学会如何找到数据驱动的解决方案并使用这些方案做出商业决策。
本书所涵盖的内容包括进行探索性数据分析、运行A/B测试、使用逻辑回归模型进行二分类及使用机器学习算法等。通过本书,你还将学习如何预测客户需求、优化营销活动、减少客户流失、预测网站流量,以及构建推荐系统等。
目录
- 版权信息
- 内容提要
- 作者简介
- 技术评审简介
- 致谢
- 前言
- 资源与支持
- 1 探索性数据分析
- 1.1 作为CEO的第一天
- 1.1.1 找出数据中的规律
- 1.1.2 使用.csv文件查看和存储数据
- 1.2 用Python显示数据
- 1.3 计算汇总统计信息
- 1.4 分析数据子集
- 1.4.1 夜间数据
- 1.4.2 季节性数据
- 1.5 使用Matplotlib进行数据可视化
- 1.5.1 绘制并显示一个简单的图表
- 1.5.2 为图表添加标题和标签
- 1.5.3 绘制数据子集图表
- 1.5.4 测试不同绘图类型
- 1.6 探索相关性
- 1.6.1 计算相关系数
- 1.6.2 理解强相关性和弱相关性
- 1.6.3 寻找变量之间的相关性
- 1.7 创建热力图
- 1.8 进一步探索
- 1.9 本章小结
- 2 预测
- 2.1 预测客户需求
- 2.2 清洗错误数据
- 2.3 使用数据绘图从而发现趋势
- 2.4 执行线性回归
- 2.4.1 将代数应用于回归线
- 2.4.2 计算误差测量
- 2.5 使用回归预测未来趋势
- 2.6 尝试更多的回归模型
- 2.6.1 通过多变量线性回归对销售量进行预测
- 2.6.2 用三角函数捕捉变化
- 2.7 选择用于预测的最佳回归模型
- 2.8 进一步探索
- 2.9 本章小结
- 3 分组比较
- 3.1 读取总体数据
- 3.1.1 汇总统计信息
- 3.1.2 随机采样
- 3.1.3 样本数据之间的差异
- 3.2 进行假设检验
- 3.2.1 t检验
- 3.2.2 假设检验的细微差别
- 3.3 在实际环境中进行组间比较
- 3.4 本章小结
- 4 A/B测试
- 4.1 实验的必要性
- 4.2 运行实验来检验新的假设
- 4.2.1 理解A/B测试的数学原理
- 4.2.2 将数学转化为实践
- 4.3 优化冠军/挑战者框架
- 4.4 用泰曼定律和A/A测试预防错误
- 4.5 理解效应值
- 4.6 计算数据的显著性
- 4.7 应用及注意事项
- 4.8 A/B测试的伦理问题
- 4.9 本章小结
- 5 二分类算法
- 5.1 减少客户流失
- 5.2 利用线性概率模型发现高流失风险客户
- 5.2.1 绘制流失情况数据图表
- 5.2.2 用线性回归确定关系
- 5.2.3 预测未来
- 5.2.4 提出业务建议
- 5.2.5 测量预测准确性
- 5.2.6 使用多变量线性概率模型
- 5.2.7 创建新指标
- 5.2.8 线性概率模型的缺点
- 5.3 用逻辑回归预测二分类结果
- 5.3.1 绘制逻辑曲线
- 5.3.2 逻辑回归
- 5.4 二分类的应用
- 5.5 本章小结
- 6 监督学习
- 6.1 预测网站流量
- 6.2 读取并绘制文章数据
- 6.3 使用线性回归作为预测方法
- 6.4 理解监督学习
- 6.5 k近邻
- 6.5.1 使用kNN
- 6.5.2 使用Python的sklearn执行kNN
- 6.6 使用其他监督学习算法
- 6.6.1 决策树
- 6.6.2 随机森林
- 6.6.3 神经网络
- 6.7 测量预测准确性的指标
- 6.8 使用多变量模型
- 6.9 使用分类代替回归
- 6.10 本章小结
- 7 无监督学习
- 7.1 无监督学习与监督学习
- 7.2 生成和探索数据
- 7.2.1 掷色子
- 7.2.2 使用另一种色子
- 7.3 聚类观测的来源
- 7.4 实际业务中的聚类
- 7.5 分析多维数据
- 7.6 EM聚类
- 7.6.1 “猜测”步骤
- 7.6.2 “期望”步骤
- 7.6.3 “最大化”步骤
- 7.6.4 “收敛”步骤
- 7.7 其他聚类方法
- 7.8 其他无监督学习方法
- 7.9 本章小结
- 8 网络爬取
- 8.1 理解网站是如何运行的
- 8.2 创建第一个网页爬虫
- 8.3 解析HTML代码
- 8.3.1 爬取电子邮件地址
- 8.3.2 直接搜索地址
- 8.4 使用正则表达式执行搜索
- 8.4.1 使用元字符进行灵活的搜索
- 8.4.2 使用转义序列对搜索进行微调
- 8.4.3 结合文本和元字符进行高级搜索
- 8.5 使用正则表达式搜索电子邮件地址
- 8.6 将爬取的结果转换为可用数据
- 8.7 使用Beautiful Soup
- 8.7.1 解析HTML标签元素
- 8.7.2 爬取和解析HTML表格
- 8.8 高级爬取
- 8.9 本章小结
- 9 推荐系统
- 9.1 基于人气的推荐
- 9.2 基于商品的协同过滤
- 9.2.1 量化向量相似性
- 9.2.2 计算余弦相似度
- 9.2.3 实现基于商品的协同过滤
- 9.3 基于用户的协同过滤
- 9.4 案例研究:音乐推荐
- 9.5 用高级系统生成推荐
- 9.6 本章小结
- 10 自然语言处理
- 10.1 使用NLP技术检测抄袭
- 10.2 理解word2vec NLP模型
- 10.2.1 量化单词之间的相似性
- 10.2.2 创建一个方程组
- 10.3 word2vec中的数值向量分析
- 10.3.1 通过数学运算来操作向量
- 10.3.2 使用word2vec检测抄袭
- 10.4 使用skip-thoughts
- 10.5 主题建模
- 10.6 其他NLP应用
- 10.7 本章小结
- 11 其他语言中的数据科学
- 11.1 用SQL赢得足球比赛
- 11.1.1 读取和分析数据
- 11.1.2 熟悉SQL
- 11.1.3 设置SQL数据库
- 11.1.4 运行SQL查询
- 11.1.5 使用连接从多张表取得数据
- 11.2 用R赢得足球比赛
- 11.2.1 熟悉R
- 11.2.2 在R中使用线性回归
- 11.2.3 使用R对数据进行绘图
- 11.3 获得其他有价值的技能
- 11.4 本章小结
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。