展开全部

主编推荐语

8大实战项目,手把手教你用R语言搞定数据分析。

内容简介

本书精选不同行业、不同分析方法及预测方法等8个热门R语言数据分析项目,既可作为练手项目,也可应用到实际数据分析工作中,其中的机器学习也可供参赛项目参考,总体来说各个项目实用性都非常强。

具体项目包含学生成绩统计分析、汽车数据可视化分析系统、泰坦尼克号数据集分析实战、鸢尾花数据分析与预测、基于会员数据的探索和聚类分析、快团团订单数据统计分析与关联分析、抖音账号运营数据分析与预测、基于diamonds(钻石)数据集的分析与预测。

本书从数据分析、机器学习的角度出发,按照项目开发的顺序,系统、全面地讲解每一个项目的开发实现过程。在体例上,每章一个项目,统一采用“开发背景→系统设计→技术准备→各功能模块实现→项目运行→源码下载”的形式完整呈现项目,给读者明确的成就感,可以让读者快速积累实际数据分析的经验与技巧,早日实现就业目标。

目录

  • 版权信息
  • 内容简介
  • 前言
  • 第1章 学生成绩统计分析
  • 1.1 开发背景
  • 1.2 系统设计
  • 1.2.1 开发环境
  • 1.2.2 分析流程
  • 1.2.3 功能结构
  • 1.3 技术准备
  • 1.3.1 技术概览
  • 1.3.2 VIM包
  • 1.3.3 rank()函数详细解析
  • 1.4 前期工作
  • 1.4.1 安装第三方R包
  • 1.4.2 新建工程
  • 1.4.3 新建项目文件夹
  • 1.5 数据准备
  • 1.5.1 数据集介绍
  • 1.5.2 读取数据
  • 1.6 数据预处理
  • 1.6.1 查看数据
  • 1.6.2 缺失值查看与处理
  • 1.6.3 描述性统计量
  • 1.7 数据统计分析
  • 1.7.1 综合排名
  • 1.7.2 直方图分析各科成绩
  • 1.7.3 箱形图分析各科成绩
  • 1.7.4 各科最高分和最低分状况分析
  • 1.7.5 各科中上等成绩统计分析
  • 1.7.6 语数英成绩等级状况分析
  • 1.7.7 成绩波动情况分析
  • 1.7.8 个人成绩排名分析
  • 1.8 项目运行
  • 1.9 源码下载
  • 第2章 汽车数据可视化分析系统
  • 2.1 开发背景
  • 2.2 系统设计
  • 2.2.1 开发环境
  • 2.2.2 分析流程
  • 2.2.3 功能结构
  • 2.3 技术准备
  • 2.3.1 技术概览
  • 2.3.2 ordered()函数的应用
  • 2.3.3 详解pairs.panels()函数
  • 2.3.4 了解coplot()函数
  • 2.4 前期工作
  • 2.4.1 安装第三方R包
  • 2.4.2 新建项目文件夹
  • 2.5 数据集介绍
  • 2.6 数据预处理
  • 2.6.1 导入mtcars数据集
  • 2.6.2 查看数据
  • 2.6.3 缺失值查看
  • 2.6.4 描述性统计分析
  • 2.7 数据统计分析
  • 2.7.1 矩阵图分析相关性
  • 2.7.2 相关系数分析相关性
  • 2.7.3 箱形图分析气缸数与里程数
  • 2.7.4 箱形图分析变速器与里程数
  • 2.7.5 散点图分析重量与里程数
  • 2.7.6 气缸数、里程数和排量之间的关系
  • 2.7.7 里程数、总马力和重量之间的关系
  • 2.8 项目运行
  • 2.9 源码下载
  • 第3章 泰坦尼克号数据集分析实战
  • 3.1 开发背景
  • 3.2 系统设计
  • 3.2.1 开发环境
  • 3.2.2 分析流程
  • 3.2.3 功能结构
  • 3.3 技术准备
  • 3.3.1 技术概览
  • 3.3.2 批量数据类型转换
  • 3.3.3 详解group_by()函数
  • 3.3.4 巧用管道符%>%
  • 3.4 前期工作
  • 3.4.1 安装第三方R包
  • 3.4.2 新建项目文件夹
  • 3.5 数据准备
  • 3.5.1 数据集介绍
  • 3.5.2 读取数据
  • 3.6 数据预处理
  • 3.6.1 查看数据信息
  • 3.6.2 缺失值分析与处理
  • 3.7 基本统计分析
  • 3.7.1 乘客年龄分析
  • 3.7.2 乘客性别分析
  • 3.7.3 不同性别乘客的年龄分布情况
  • 3.7.4 不同年龄乘客亲属数量分析
  • 3.7.5 船舱等级情况分析
  • 3.7.6 票价分布情况
  • 3.8 乘客生存情况分析
  • 3.8.1 总体生存情况分析
  • 3.8.2 不同等级船舱乘客生存情况分析
  • 3.8.3 各个登船港口乘客生存情况分析
  • 3.8.4 性别与乘客生存情况分析
  • 3.8.5 年龄和性别与乘客生存情况分析
  • 3.8.6 乘客亲属数量与生存情况分析
  • 3.9 项目运行
  • 3.10 源码下载
  • 第4章 鸢尾花数据分析与预测
  • 4.1 开发背景
  • 4.2 系统设计
  • 4.2.1 开发环境
  • 4.2.2 分析流程
  • 4.2.3 功能结构
  • 4.3 技术准备
  • 4.3.1 技术概览
  • 4.3.2 scale()函数详解
  • 4.3.3 训练集和测试集划分
  • 4.3.4 随机森林randomForest包
  • 4.4 前期工作
  • 4.4.1 安装第三方R包
  • 4.4.2 新建项目文件夹
  • 4.4.3 认识鸢尾花
  • 4.4.4 了解鸢尾花数据集iris
  • 4.5 查看数据概况
  • 4.5.1 加载数据
  • 4.5.2 查看数据
  • 4.6 描述性统计分析
  • 4.6.1 查看数据统计信息
  • 4.6.2 分组查看数据统计信息
  • 4.7 数据统计分析
  • 4.7.1 绘制花萼长度的箱形图
  • 4.7.2 绘制花瓣长度的箱形图
  • 4.7.3 鸢尾花最常见的花瓣
  • 4.7.4 直方图分析鸢尾花花瓣长度
  • 4.8 相关性分析
  • 4.8.1 相关系数分析
  • 4.8.2 各特征之间关系矩阵图
  • 4.8.3 散点图分析鸢尾花花瓣长度和宽度的关系
  • 4.8.4 散点图分析鸢尾花花萼长度和宽度的关系
  • 4.8.5 鸢尾花的线性关系分析
  • 4.9 随机森林预测鸢尾花种类
  • 4.9.1 数据标准化处理
  • 4.9.2 划分训练集和测试集
  • 4.9.3 构建随机森林模型
  • 4.9.4 预测鸢尾花种类
  • 4.9.5 评估模型性能
  • 4.10 项目运行
  • 4.11 源码下载
  • 第5章 基于会员数据的探索和聚类分析
  • 5.1 开发背景
  • 5.2 系统设计
  • 5.2.1 开发环境
  • 5.2.2 分析流程
  • 5.2.3 功能结构
  • 5.3 技术准备
  • 5.3.1 技术概览
  • 5.3.2 3种方法统计各列缺失值
  • 5.3.3 RFM模型
  • 5.3.4 k均值聚类分析
  • 5.3.5 聚类方案NbClust包
  • 5.3.6 聚类可视化
  • 5.4 前期工作
  • 5.4.1 安装第三方R包
  • 5.4.2 新建项目文件夹
  • 5.5 数据准备
  • 5.6 数据预处理
  • 5.6.1 数据预览
  • 5.6.2 日期时间数据处理
  • 5.6.3 缺失性分析
  • 5.6.4 计算RFM值
  • 5.7 数据统计分析
  • 5.7.1 消费周期分析
  • 5.7.2 消费频次分析
  • 5.7.3 消费金额分析
  • 5.8 K-means聚类分析
  • 5.8.1 数据标准化
  • 5.8.2 聚类方案
  • 5.8.3 K均值聚类分析
  • 5.9 项目运行
  • 5.10 源码下载
  • 第6章 快团团订单数据统计分析与关联分析
  • 6.1 开发背景
  • 6.2 系统设计
  • 6.2.1 开发环境
  • 6.2.2 分析流程
  • 6.2.3 功能结构
  • 6.3 技术准备
  • 6.3.1 技术概览
  • 6.3.2 绘图排序reorder()函数
  • 6.3.3 详解ggplot2包的主题函数theme()
  • 6.3.4 Apriori关联分析
  • 6.3.5 详解arules包
  • 6.4 前期工作
  • 6.4.1 新建项目文件夹
  • 6.4.2 数据准备
  • 6.5 数据预处理
  • 6.5.1 查看数据
  • 6.5.2 缺失性分析
  • 6.5.3 描述性统计分析
  • 6.5.4 异常数据处理
  • 6.6 数据统计分析
  • 6.6.1 柱形图分析商品数量
  • 6.6.2 订单商品数量分布情况
  • 6.6.3 直方图分析订单商品金额
  • 6.6.4 区域订单数量分析
  • 6.6.5 城市订单数量分析
  • 6.7 订单商品关联分析
  • 6.7.1 数据处理
  • 6.7.2 可视化频繁项
  • 6.7.3 关联分析
  • 6.8 项目运行
  • 6.9 源码下载
  • 第7章 抖音账号运营数据分析与预测
  • 7.1 开发背景
  • 7.2 系统设计
  • 7.2.1 开发环境
  • 7.2.2 分析流程
  • 7.2.3 功能结构
  • 7.3 技术准备
  • 7.3.1 技术概览
  • 7.3.2 map()函数与reduce()函数的完美结合
  • 7.3.3 column_to_rownames()函数的应用
  • 7.4 前期工作
  • 7.4.1 安装第三方R包
  • 7.4.2 新建项目文件夹
  • 7.5 数据准备
  • 7.5.1 数据下载
  • 7.5.2 数据集介绍
  • 7.6 数据预处理
  • 7.6.1 数据合并
  • 7.6.2 查看数据
  • 7.6.3 数据类型转换
  • 7.6.4 描述性统计分析
  • 7.7 数据统计分析
  • 7.7.1 播放量趋势分析
  • 7.7.2 粉丝净增长趋势分析
  • 7.7.3 主页访问数据分析
  • 7.7.4 作品数据分析
  • 7.7.5 星期播放量分析
  • 7.8 相关性分析
  • 7.8.1 矩阵图分析相关性
  • 7.8.2 相关系数分析相关性
  • 7.8.3 散点图分析播放量与净增粉丝
  • 7.8.4 气泡图分析播放量、净增粉丝与主页访问
  • 7.9 净增粉丝预测
  • 7.9.1 一元线性回归预测净增粉丝
  • 7.9.2 多元线性回归预测净增粉丝
  • 7.10 项目运行
  • 7.11 源码下载
  • 第8章 基于diamonds(钻石)数据集的分析与预测
  • 8.1 开发背景
  • 8.2 系统设计
  • 8.2.1 开发环境
  • 8.2.2 分析流程
  • 8.2.3 功能结构
  • 8.3 技术准备
  • 8.3.1 技术概览
  • 8.3.2 IQR方法
  • 8.3.3 分类变量异常值检测常用方法
  • 8.3.4 异常值处理方法
  • 8.3.5 详解kruskal.test()函数
  • 8.4 前期工作
  • 8.4.1 安装第三方R包
  • 8.4.2 新建项目文件夹
  • 8.5 数据集介绍
  • 8.5.1 数据集概述
  • 8.5.2 变量说明
  • 8.5.3 数据集特点
  • 8.6 数据预处理
  • 8.6.1 导入diamonds数据集
  • 8.6.2 查看数据
  • 8.6.3 描述性统计分析
  • 8.7 异常值分析与处理
  • 8.7.1 异常值分析
  • 8.7.2 异常值检测
  • 8.7.3 异常值处理
  • 8.8 数据统计分析
  • 8.8.1 钻石深度和台面分析
  • 8.8.2 钻石切工、颜色和净度分析
  • 8.8.3 钻石价格分析
  • 8.9 相关性分析
  • 8.9.1 散点图分析克拉对价格的影响
  • 8.9.2 切工对价格的影响
  • 8.9.3 颜色对价格的影响
  • 8.9.4 净度对价格的影响
  • 8.9.5 钻石长宽深与价格之间的关系
  • 8.9.6 相关系数分析相关性
  • 8.10 多元线性回归分析
  • 8.10.1 Kruskal-Wallis检验
  • 8.10.2 构建多元线性回归模型
  • 8.10.3 模型改进
  • 8.10.4 钻石价格预测
  • 8.11 项目运行
  • 8.12 源码下载
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。