展开全部

主编推荐语

实际数据分析流程,常用机器学习算法,贴近工程实践。

内容简介

本书围绕实际数据分析的流程展开,着重介绍数据探索、数据预处理和常用的机器学习算法模型。本书从解决实际问题的角度出发,介绍回归算法、分类算法、推荐算法、排序算法和集成学习算法。本书的最大特色就是贴近工程实践。首先,本书仅侧重介绍当前工业界最常用的机器学习算法,而不追求知识本身的覆盖面;其次,本书在介绍每类机器学习算法时,力求通俗易懂地阐述算法思想,而不追求理论的深度,让读者借助代码获得直观的体验。

目录

  • 版权信息
  • 内容提要
  • 序一
  • 序二
  • 前言
  • 第1章 引论
  • 1.1 什么是机器学习
  • 1.2 机器学习算法的分类
  • 1.3 实际应用
  • 1.3.1 病人住院时间预测
  • 1.3.2 信用分数估计
  • 1.3.3 Netflix上的影片推荐
  • 1.3.4 酒店推荐
  • 1.3.5 讨论
  • 1.4 本书概述
  • 1.4.1 本书结构
  • 1.4.2 阅读材料及其他资源
  • 第2章 R语言
  • 2.1 R的简单介绍
  • 2.2 R的初步体验
  • 2.3 基本语法
  • 2.3.1 语句
  • 2.3.2 函数
  • 2.4 常用数据结构
  • 2.4.1 向量
  • 2.4.2 因子
  • 2.4.3 矩阵
  • 2.4.4 数据框
  • 2.4.5 列表
  • 2.4.6 下标系统
  • 2.5 公式对象和apply函数
  • 2.6 R软件包
  • 2.6.1 软件包的安装
  • 2.6.2 软件包的使用
  • 2.6.3 软件包的开发
  • 2.7 网络资源
  • 第3章 数学基础
  • 3.1 概率
  • 3.1.1 基本概念
  • 3.1.2 基本公式
  • 3.1.3 常用分布
  • 3.1.4 随机向量及其分布
  • 3.1.5 随机变量的数字特征
  • 3.1.6 随机向量的数字特征
  • 3.2 统计
  • 3.2.1 常用数据特征
  • 3.2.2 参数估计
  • 3.3 矩阵
  • 3.3.1 基本概念
  • 3.3.2 基本运算
  • 3.3.3 特征值与特征向量
  • 3.3.4 矩阵分解
  • 3.3.5 主成分分析
  • 3.3.6 R中矩阵的计算
  • 第4章 数据探索和预处理
  • 4.1 数据类型
  • 4.2 数据探索
  • 4.2.1 常用统计量
  • 4.2.2 使用R实际探索数据
  • 4.3 数据预处理
  • 4.3.1 缺失值的处理
  • 4.3.2 数据的标准化
  • 4.3.3 删除已有变量
  • 4.3.4 数据的变换
  • 4.3.5 构建新的变量:哑变量
  • 4.3.6 离群数据的处理
  • 4.4 数据可视化
  • 4.4.1 直方图
  • 4.4.2 柱状图
  • 4.4.3 茎叶图
  • 4.4.4 箱线图
  • 4.4.5 散点图
  • 第5章 回归分析
  • 5.1 回归分析的基本思想
  • 5.2 线性回归和最小二乘法
  • 5.2.1 最小二乘法的几何解释
  • 5.2.2 线性回归和极大似然估计
  • 5.3 岭回归和Lasso
  • 5.3.1 岭回归
  • 5.3.2 Lasso与稀疏解
  • 5.3.3 Elastic Net
  • 5.4 回归算法的评价和选取
  • 5.4.1 均方差和均方根误差
  • 5.4.2 可决系数
  • 5.4.3 偏差-方差权衡
  • 5.5 案例分析
  • 5.5.1 数据导入和探索
  • 5.5.2 数据预处理
  • 5.5.3 将数据集分成训练集和测试集
  • 5.5.4 建立一个简单的线性回归模型
  • 5.5.5 建立岭回归和Lasso模型
  • 5.5.6 选取合适的模型
  • 5.5.7 构造新的变量
  • 5.6 小结
  • 第6章 分类算法
  • 6.1 分类的基本思想
  • 6.2 决策树
  • 6.2.1 基本原理
  • 6.2.2 决策树学习
  • 6.2.3 过拟合和剪枝
  • 6.2.4 实际使用
  • 6.2.5 讨论
  • 6.3 逻辑回归
  • 6.3.1 sigmoid函数的性质
  • 6.3.2 通过极大似然估计来估计参数
  • 6.3.3 牛顿法
  • 6.3.4 正则化项的引入
  • 6.3.5 实际使用
  • 6.4 支持向量机
  • 6.4.1 基本思想:最大化分类间隔
  • 6.4.2 最大分类间隔的数学表示
  • 6.4.3 如何处理线性不可分的数据
  • 6.4.4 Hinge损失函数
  • 6.4.5 对偶问题
  • 6.4.6 非线性支持向量机和核技巧
  • 6.4.7 实际使用
  • 6.5 损失函数和不同的分类算法
  • 6.5.1 损失函数
  • 6.5.2 正则化项
  • 6.6 交叉检验和caret包
  • 6.6.1 模型选择和交叉检验
  • 6.6.2 在R中实现交叉检验以及caret包
  • 6.7 分类算法的评价和比较
  • 6.7.1 准确率
  • 6.7.2 混淆矩阵
  • 6.7.3 精确率、召回率和F1度量
  • 6.7.4 ROC曲线和AUC
  • 6.7.5 R中评价标准的计算
  • 6.8 不平衡分类问题
  • 6.8.1 使用不同的算法评价标准
  • 6.8.2 样本权值
  • 6.8.3 取样方法
  • 6.8.4 代价敏感学习
  • 第7章 推荐算法
  • 7.1 推荐系统基础
  • 7.1.1 常用符号
  • 7.1.2 推荐算法的评价标准
  • 7.2 基于内容的推荐算法
  • 7.3 基于矩阵分解的算法
  • 7.3.1 无矩阵分解的基准方法
  • 7.3.2 基于奇异值分解的推荐算法
  • 7.3.3 基于SVD推荐算法的变体
  • 7.4 基于邻域的推荐算法
  • 7.4.1 基于用户的邻域推荐算法
  • 7.4.2 基于商品的邻域推荐算法
  • 7.4.3 混合算法
  • 7.4.4 相似度的计算
  • 7.5 R中recommenderlab的实际使用
  • 7.6 推荐算法的评价和选取
  • 第8章 排序学习
  • 8.1 排序学习简介
  • 8.1.1 解决排序问题的基本思路
  • 8.1.2 构造特征
  • 8.1.3 获取相关度分数
  • 8.1.4 数学符号
  • 8.2 排序算法的评价
  • 8.2.1 MAP
  • 8.2.2 DCG
  • 8.2.3 NDCG
  • 8.2.4 讨论
  • 8.3 逐点方法
  • 8.3.1 基于SVM的逐点排序方法
  • 8.3.2 逐点方法讨论
  • 8.4 逐对方法
  • 8.4.1 Ranking SVM算法
  • 8.4.2 IR-SVM算法
  • 8.4.3 RankNet算法
  • 8.4.4 LambdaRank算法
  • 8.4.5 LambdaMART算法
  • 8.5 逐列方法
  • 8.5.1 SVMmap算法
  • 8.5.2 讨论
  • 第9章 集成学习
  • 9.1 集成学习简介
  • 9.2 bagging简介
  • 9.3 随机森林
  • 9.3.1 训练随机森林的基本流程
  • 9.3.2 利用随机森林估计变量的重要性
  • 9.3.3 随机森林的实际使用
  • 9.4 boosting简介
  • 9.4.1 boosting和指数损失函数
  • 9.4.2 AdaBoost算法
  • 9.4.3 AdaBoost的实际使用
  • 9.4.4 讨论
  • 9.5 提升决策树和梯度提升算法
  • 9.5.1 提升决策树和梯度提升算法的基本原理
  • 9.5.2 如何避免过拟合
  • 9.5.3 gbm包的实际使用
  • 9.5.4 讨论
  • 9.6 学习器的聚合及stacking
  • 9.6.1 简单平均
  • 9.6.2 加权平均
  • 9.6.3 stacking的基本思想及应用
  • 9.7 小结
  • 参考文献
  • 欢迎来到异步社区!
  • 异步社区的来历
  • 社区里都有什么?
  • 购买图书
  • 下载资源
  • 与作译者互动
  • 灵活优惠的购书
  • 纸电图书组合购买
  • 社区里还可以做什么?
  • 提交勘误
  • 写作
  • 会议活动早知道
  • 加入异步
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。