展开全部

主编推荐语

R语言机器学习必备指南,案例结合理论,覆盖算法实践,更新前沿内容,通俗易懂。

内容简介

R本身是一款十分优秀的数据分析和数据可视化软件。本书由机器学习领域的专家撰写,通过将实践案例与核心的理论知识相结合,全面介绍多种重要的机器学习算法,从对案例数据的探索、整理到模型的建立和模型的评估,每一步都给出详尽的步骤和R代码,为读者深入理解并灵活应用R语言进行数据挖掘和机器学习提供翔实参考。

无论你是经验丰富的R语言用户还是初学者,作者都会教你如何进行数据预处理、发现关键见解、做出新的预测以及将结果可视化。这本书新增了机器学习成功之道、高级数据准备、构建更好的学习器以及利用大数据等章节,反映了机器学习在过去几年中取得的进步,帮助你掌握更多的数据科学技能,解决更具挑战性的问题。

这本书已更新至 R语言4.2.2版,其中包含更新、更好的库,关于机器学习中的道德和偏见问题的建议以及深度学习方面的介绍。无论你是想迈出使用R进行机器学习的第一步,还是想确保技能和知识与时俱进,这本书都是不可错过的读物。

目录

  • 版权信息
  • Preface译者序
  • Preface 前言
  • 关于作者
  • 关于审校者
  • Chapter 1 第1章机器学习概述
  • 1.1 机器学习起源
  • 1.2 机器学习的应用与滥用
  • 1.2.1 机器学习能做什么
  • 1.2.2 机器学习的局限性
  • 1.2.3 机器学习伦理
  • 1.3 机器如何学习
  • 1.3.1 数据存储
  • 1.3.2 抽象
  • 1.3.3 泛化
  • 1.3.4 评估
  • 1.4 机器学习实践
  • 1.4.1 输入数据类型
  • 1.4.2 机器学习算法分类
  • 1.4.3 选择合适的算法
  • 1.5 基于R语言的机器学习
  • 1.5.1 安装R软件包
  • 1.5.2 加载和卸载R软件包
  • 1.5.3 安装RStudio
  • 1.5.4 为何选择R语言
  • 1.6 小结
  • Chapter 2 第2章管理与解读数据
  • 2.1 R语言中的数据结构
  • 2.1.1 向量
  • 2.1.2 因子
  • 2.1.3 列表
  • 2.1.4 数据框
  • 2.1.5 矩阵和数组
  • 2.2 管理数据
  • 2.2.1 保存、加载、删除数据结构
  • 2.2.2 从CSV文件导入和保存数据集
  • 2.2.3 用RStudio导入数据集
  • 2.3 探索和解读数据
  • 2.3.1 数据结构分析
  • 2.3.2 数值型特征分析
  • 2.3.3 类别型特征分析
  • 2.3.4 特征间的关系
  • 2.4 小结
  • Chapter 3 第3章 懒惰学习——最近邻分类
  • 3.1 最近邻分类
  • 3.1.1 k-NN算法
  • 3.1.2 何为“懒惰”算法
  • 3.2 示例:用k-NN算法诊断乳腺癌
  • 3.2.1 第1步:收集数据
  • 3.2.2 第2步:探索并准备数据
  • 3.2.3 第3步:训练模型
  • 3.2.4 第4步:评估模型性能
  • 3.2.5 第5步:优化模型性能
  • 3.3 小结
  • Chapter 4 第4章 概率学习——朴素贝叶斯分类
  • 4.1 朴素贝叶斯算法
  • 4.1.1 贝叶斯算法的基本概念
  • 4.1.2 朴素贝叶斯算法简介
  • 4.2 示例:用朴素贝叶斯算法过滤手机垃圾短信
  • 4.2.1 第1步:收集数据
  • 4.2.2 第2步:探索并准备数据
  • 4.2.3 第3步:训练模型
  • 4.2.4 第4步:评估模型性能
  • 4.2.5 第5步:优化模型性能
  • 4.3 小结
  • Chapter 5 第5章 分而治之——用决策树和规则分类
  • 5.1 决策树
  • 5.1.1 分而治之
  • 5.1.2 C5.0决策树算法
  • 5.2 示例:使用C5.0决策树识别高风险银行贷款
  • 5.2.1 第1步:收集数据
  • 5.2.2 第2步:探索并准备数据
  • 5.2.3 第3步:训练模型
  • 5.2.4 第4步:评估模型性能
  • 5.2.5 第5步:优化模型性能
  • 5.3 分类规则
  • 5.3.1 离而治之
  • 5.3.2 1R算法
  • 5.3.3 RIPPER算法
  • 5.3.4 决策树中的规则
  • 5.3.5 何为决策树和规则的贪婪
  • 5.4 示例:用规则学习器识别毒蘑菇
  • 5.4.1 第1步:收集数据
  • 5.4.2 第2步:探索并准备数据
  • 5.4.3 第3步:训练模型
  • 5.4.4 第4步:评估模型性能
  • 5.4.5 第5步:优化模型性能
  • 5.5 小结
  • Chapter 6 第6章 预测数值型数据——回归法
  • 6.1 回归
  • 6.1.1 简单线性回归
  • 6.1.2 普通最小二乘估计
  • 6.1.3 相关性
  • 6.1.4 多重线性回归
  • 6.1.5 广义线性模型与逻辑回归
  • 6.2 示例:用线性回归预测汽车保险理赔成本
  • 6.2.1 第1步:收集数据
  • 6.2.2 第2步:探索并准备数据
  • 6.2.3 第3步:训练模型
  • 6.2.4 第4步:评估模型性能
  • 6.2.5 第5步:优化模型性能
  • 6.2.6 更进一步:用逻辑回归预测保险客户流失
  • 6.3 回归树和模型树
  • 6.4 示例:用回归树和模型树评估葡萄酒的品质
  • 6.4.1 第1步:收集数据
  • 6.4.2 第2步:探索并准备数据
  • 6.4.3 第3步:训练模型
  • 6.4.4 第4步:评估模型性能
  • 6.4.5 第5步:优化模型性能
  • 6.5 小结
  • Chapter 7 第7章黑盒法——神经网络和支持向量机
  • 7.1 神经网络
  • 7.1.1 从生物神经元到人工神经元
  • 7.1.2 激活函数
  • 7.1.3 网络拓扑结构
  • 7.1.4 用反向传播训练神经网络
  • 7.2 示例:用ANN对混凝土强度进行建模
  • 7.2.1 第1步:收集数据
  • 7.2.2 第2步:探索并准备数据
  • 7.2.3 第3步:训练模型
  • 7.2.4 第4步:评估模型性能
  • 7.2.5 第5步:优化模型性能
  • 7.3 支持向量机
  • 7.3.1 用超平面分类
  • 7.3.2 使用核函数处理非线性空间
  • 7.4 示例:使用SVM进行OCR识别
  • 7.4.1 第1步:收集数据
  • 7.4.2 第2步:探索并准备数据
  • 7.4.3 第3步:训练模型
  • 7.4.4 第4步:评估模型性能
  • 7.4.5 第5步:优化模型性能
  • 7.5 小结
  • Chapter 8 第8章发掘模式——用关联规则进行购物篮分析
  • 8.1 关联规则
  • 8.1.1 Apriori算法
  • 8.1.2 衡量规则的兴趣度——支持度和置信度
  • 8.1.3 用先验原则建立规则
  • 8.2 示例:用关联规则识别热销商品
  • 8.2.1 第1步:收集数据
  • 8.2.2 第2步:探索并准备数据
  • 8.2.3 第3步:训练模型
  • 8.2.4 第4步:评估模型性能
  • 8.2.5 第5步:优化模型性能
  • 8.3 小结
  • Chapter 9 第9章 寻找数据分组——k均值聚类
  • 9.1 聚类
  • 9.1.1 基于聚类的机器学习
  • 9.1.2 聚类算法中的簇
  • 9.1.3 k均值聚类算法
  • 9.2 用k均值聚类找出青少年用户细分市场
  • 9.2.1 第1步:收集数据
  • 9.2.2 第2步:探索并准备数据
  • 9.2.3 第3步:训练模型
  • 9.2.4 第4步:评估模型性能
  • 9.2.5 第5步:优化模型性能
  • 9.3 小结
  • Chapter 10 第10章评估模型性能
  • 10.1 衡量分类性能
  • 10.1.1 分类器预测
  • 10.1.2 进一步了解混淆矩阵
  • 10.1.3 用混淆矩阵衡量性能
  • 10.1.4 除准确率之外的其他性能衡量指标
  • 10.1.5 用ROC曲线可视化性能权衡
  • 10.2 估算未来性能
  • 10.2.1 留出法
  • 10.2.2 交叉验证
  • 10.2.3 自助抽样
  • 10.3 小结
  • Chapter 11 第11章机器学习成功之道
  • 11.1 机器学习从业指南
  • 11.2 何为成功的机器学习模型
  • 11.2.1 规避浅显的预测
  • 11.2.2 进行公平的评估
  • 11.2.3 考虑现实影响
  • 11.2.4 建立对模型的信任
  • 11.3 为数据科学注入“科学”元素
  • 11.3.1 使用R笔记本和R标记
  • 11.3.2 高级数据探索
  • 11.4 小结
  • Chapter 12 第12章高级数据准备
  • 12.1 特征工程简介
  • 12.1.1 人机角色
  • 12.1.2 大数据和深度学习的影响
  • 12.2 特征工程实践
  • 12.2.1 建议1:集思广益构建新特征
  • 12.2.2 建议2:找出文本中蕴含的信息
  • 12.2.3 建议3:转换数值范围
  • 12.2.4 建议4:观测相邻数据
  • 12.2.5 建议5:利用相关行
  • 12.2.6 建议6:分解时间序列
  • 12.2.7 建议7:引入外部数据
  • 12.3 探索tidyverse
  • 12.3.1 用tibble构建清晰的表结构
  • 12.3.2 用readr和readxl快速读取数据表
  • 12.3.3 用dplyr准备并传输数据
  • 12.3.4 用stringr转换文本
  • 12.3.5 用lubridate处理日期数据
  • 12.4 小结
  • Chapter 13 第13章 难以处理的数据——过多、太少,或过于复杂
  • 13.1 高维数据
  • 13.1.1 特征选择
  • 13.1.2 特征提取
  • 13.2 稀疏数据
  • 13.2.1 识别稀疏数据
  • 13.2.2 示例:重映射稀疏分类数据
  • 13.2.3 示例:划分数值型稀疏数据区间
  • 13.3 缺失数据
  • 13.3.1 缺失数据的类型
  • 13.3.2 缺失值填补
  • 13.4 数据不平衡问题
  • 13.4.1 平衡数据的简单策略
  • 13.4.2 用SMOTE生成合成平衡数据集
  • 13.4.3 平衡的取舍
  • 13.5 小结
  • Chapter 14 第14章构建更好的学习器
  • 14.1 优化现有模型以提升性能
  • 14.1.1 确定超参数调优范围
  • 14.1.2 示例:用caret进行自动调优
  • 14.2 用集成法提高模型性能
  • 14.2.1 集成学习
  • 14.2.2 常用的集成算法
  • 14.3 元学习模型堆叠
  • 14.3.1 模型堆叠与融合
  • 14.3.2 用R语言实现融合与堆叠
  • 14.4 小结
  • Chapter 15 第15章 利用大数据
  • 15.1 深度学习应用
  • 15.1.1 深度学习简介
  • 15.1.2 卷积神经网络
  • 15.2 无监督学习和大数据
  • 15.2.1 用嵌入表示高维概念
  • 15.2.2 高维数据可视化
  • 15.3 用R语言处理大型数据集
  • 15.3.1 SQL数据库查询
  • 15.3.2 用并行处理提升性能
  • 15.3.3 利用专用硬件和算法
  • 15.4 小结
  • 推荐阅读
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。