展开全部

主编推荐语

大数据分析入门:R语言应用及高级理论和方法

内容简介

本书主要内容包括大数据分析的简单介绍,数据分析生命周期的各个阶段,使用R语言进行基本的数据分析,以及高级的分析理论和方法,主要涉及数据的聚类、关联规则、回归、分类、时间序列分析、文本分析等风阀。此外,本书还涵盖了用来进行高级数据分析所使用的技术和工具,比如MapReduce和Hadoop、数据库内分析等。

目录

  • 版权信息
  • 版权声明
  • 内容提要
  • 主要贡献人
  • 致谢
  • 译者简介
  • 主审人员简介
  • 本书中文版审校人员
  • 前言
  • EMC学院联盟
  • EMC专家认证证书
  • 第1章 大数据分析介绍
  • 1.1 大数据概述
  • 1.1.1 数据结构
  • 1.1.2 数据存储的分析视角
  • 1.2 分析的实践状态
  • 1.2.1 商业智能 VS 数据科学
  • 1.2.2 当前分析架构
  • 1.2.3 大数据的驱动力
  • 1.2.4 新的大数据生态系统和新的分析方法
  • 1.3 新的大数据生态系统中的关键角色
  • 1.4 大数据分析案例
  • 1.5 总结
  • 1.6 练习
  • 参考书目
  • 第2章 数据分析生命周期
  • 2.1 数据分析生命周期概述
  • 2.1.1 一个成功分析项目的关键角色
  • 2.1.2 数据分析生命周期的背景和概述
  • 2.2 第1阶段:发现
  • 2.2.1 学习业务领域
  • 2.2.2 资源
  • 2.2.3 设定问题
  • 2.2.4 确定关键利益相关者
  • 2.2.5 采访分析发起人
  • 2.2.6 形成初始假设
  • 2.2.7 明确潜在数据源
  • 2.3 第2阶段:数据准备
  • 2.3.1 准备分析沙箱
  • 2.3.2 执行ETLT
  • 2.3.3 研究数据
  • 2.3.4 数据治理
  • 2.3.5 调查和可视化
  • 2.3.6 数据准备阶段的常用工具
  • 2.4 第3阶段:模型规划
  • 2.4.1 数据探索和变量选择
  • 2.4.2 模型的选择
  • 2.4.3 模型设计阶段的常用工具
  • 2.5 第4阶段:模型建立
  • 2.5.1 模型构建阶段中的常用工具
  • 2.6 第5阶段:沟通结果
  • 2.7 第6阶段:实施
  • 2.8 案例研究:全球创新网络和分析(GINA)
  • 2.8.1 第1阶段:发现
  • 2.8.2 第2阶段:数据准备
  • 2.8.3 第3阶段:模型规划
  • 2.8.4 第4阶段:模型建立
  • 2.8.5 第5阶段:沟通结果
  • 2.8.6 第6阶段:实施
  • 2.9 总结
  • 2.10 练习
  • 参考书目
  • 第3章 使用R进行基本数据分析
  • 3.1 R简介
  • 3.1.1 R图形用户界面
  • 3.1.2 数据导入和导出
  • 3.1.3 属性和数据类型
  • 3.1.4 描述性统计(descriptive statistics)
  • 3.2 探索性数据分析
  • 3.2.1 在分析之前先可视化
  • 3.2.2 脏数据
  • 3.2.3 可视化单个变量
  • 3.2.4 研究多个变量
  • 3.2.5 对比数据探索和数据演示
  • 3.3 用于评估的统计方法
  • 3.3.1 假设检验
  • 3.3.2 均值差异
  • 3.3.3 Wilcoxon秩和检验
  • 3.3.4 I型和II型错误
  • 3.3.5 功效和抽样大小
  • 3.3.6 ANOVA
  • 3.4 总结
  • 3.5 练习
  • 参考文献
  • 第4章 高级分析理论与方法:聚类
  • 4.1 聚类概述
  • 4.2 k均值聚类
  • 4.2.1 使用案例
  • 4.2.2 方法概述
  • 4.2.3 确定聚类簇的数量
  • 4.2.4 诊断
  • 4.2.5 选择原因及注意事项
  • 4.3 其他算法
  • 4.4 总结
  • 4.5 练习
  • 参考书目
  • 第5章 高级分析理论与方法:关联规则
  • 5.1 概述
  • 5.2 Apriori算法
  • 5.3 评估候选规则
  • 5.4 关联规则的应用
  • 5.5 杂货店交易示例
  • 5.5.1 杂货店数据集
  • 5.5.2 生成频繁数据集
  • 5.5.3 规则的生成和可视化
  • 5.6 验证和测试
  • 5.7 诊断
  • 5.8 总结
  • 5.9 练习
  • 参考书目
  • 第6章 高级分析理论与方法:回归
  • 6.1 线性回归
  • 6.1.1 用例
  • 6.1.2 模型描述
  • 6.1.3 诊断
  • 6.2 逻辑回归
  • 6.2.1 用例
  • 6.2.2 模型描述
  • 6.2.3 诊断
  • 6.3 选择理由和注意事项
  • 6.4 其他回归模型
  • 6.5 总结
  • 6.6 练习
  • 第7章 高级分析理论与方法:分类
  • 7.1 决策树
  • 7.1.1 决策树概览
  • 7.1.2 通用算法
  • 7.1.3 决策树算法
  • 7.1.4 评估决策树
  • 7.1.5 R中的决策树
  • 7.2 朴素贝叶斯
  • 7.2.1 贝叶斯定理
  • 7.2.2 朴素贝叶斯分类器
  • 7.2.3 平滑
  • 7.2.4 诊断
  • 7.2.5 R中的朴素贝叶斯
  • 7.3 分类器诊断
  • 7.4 其他分类方法
  • 7.5 总结
  • 7.6 练习
  • 参考书目
  • 第8章 高级分析理论与方法:时间序列分析
  • 8.1 时间序列分析概述
  • 8.1.1 Box-Jenkins方法
  • 8.2 ARIMA模型
  • 8.2.1 自相关函数(ACF)
  • 8.2.2 自回归模型
  • 8.2.3 移动平均模型
  • 8.2.4 ARMA和ARIMA模型
  • 8.2.5 建立和评估ARIMA模型
  • 8.2.6 选择理由及注意事项
  • 8.3 其他方法
  • 8.4 总结
  • 8.5 练习
  • 第9章 高级分析理论与方法:文本分析
  • 9.1 文本分析步骤
  • 9.2 一个文本分析的示例
  • 9.3 收集原始数据
  • 9.4 表示文本
  • 9.5 词频-逆文档频率(TFIDF)
  • 9.6 通过主题来分类文件
  • 9.7 情感分析
  • 9.8 获得洞察力
  • 9.9 总结
  • 9.10 练习
  • 参考书目
  • 第10章 高级分析技术与工具:MapReduce和Hadoop
  • 10.1 非结构化数据分析
  • 10.1.1 用例
  • 10.1.2 MapReduce
  • 10.1.3 Apache Hadoop
  • 10.2 Hadoop生态系统
  • 10.2.1 Pig
  • 10.2.2 Hive
  • 10.2.3 HBase
  • 10.2.4 Mahout
  • 10.3 NoSQL
  • 10.4 总结
  • 10.5 练习
  • 参考书目
  • 第11章 高级分析技术与工具:数据库内分析
  • 11.1 SQL基本要素
  • 11.1.1 连接
  • 11.1.2 set运算符
  • 11.1.3 grouping扩展
  • 11.2 数据库内的文本分析
  • 11.3 高级SQL技术
  • 11.3.1 窗口函数
  • 11.3.2 用户定义函数与聚合
  • 11.3.3 排序聚合
  • 11.3.4 MABlib
  • 11.4 总结
  • 11.5 练习
  • 参考书目
  • 第12章 结尾
  • 12.1 沟通和实施一个分析项目
  • 12.2 创建最终可交付成果
  • 12.2.1 为多个受众群体创建核心材料
  • 12.2.2 项目目标
  • 12.2.3 主要发现
  • 12.2.4 方法
  • 12.2.5 模型描述
  • 12.2.6 有数据支持的关键论点
  • 12.2.7 模型细节
  • 12.2.8 建议
  • 12.2.9 关于最终演示文档的额外提示
  • 12.2.10 提供技术规范和代码
  • 12.3 数据可视化基础
  • 12.3.1 有数据支持的要点
  • 12.3.2 图的演进
  • 12.3.3 通用表示方法
  • 12.3.4 如何清理图形
  • 12.3.5 额外考虑
  • 12.4 总结
  • 12.5 练习
  • 12.6 参考文献与扩展阅读
  • 参考书目
  • 欢迎来到异步社区!
  • 异步社区的来历
  • 社区里都有什么?
  • 购买图书
  • 下载资源
  • 与作译者互动
  • 灵活优惠的购书
  • 纸电图书组合购买
  • 社区里还可以做什么?
  • 提交勘误
  • 写作
  • 会议活动早知道
  • 加入异步
  • 看完了
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。