计算机
类型
7.3
豆瓣评分
可以朗读
语音朗读
354千字
字数
2016-03-01
发行日期
展开全部
主编推荐语
大数据分析入门:R语言应用及高级理论和方法
内容简介
本书主要内容包括大数据分析的简单介绍,数据分析生命周期的各个阶段,使用R语言进行基本的数据分析,以及高级的分析理论和方法,主要涉及数据的聚类、关联规则、回归、分类、时间序列分析、文本分析等风阀。此外,本书还涵盖了用来进行高级数据分析所使用的技术和工具,比如MapReduce和Hadoop、数据库内分析等。
目录
- 版权信息
- 版权声明
- 内容提要
- 序
- 主要贡献人
- 致谢
- 译者简介
- 主审人员简介
- 本书中文版审校人员
- 前言
- EMC学院联盟
- EMC专家认证证书
- 第1章 大数据分析介绍
- 1.1 大数据概述
- 1.1.1 数据结构
- 1.1.2 数据存储的分析视角
- 1.2 分析的实践状态
- 1.2.1 商业智能 VS 数据科学
- 1.2.2 当前分析架构
- 1.2.3 大数据的驱动力
- 1.2.4 新的大数据生态系统和新的分析方法
- 1.3 新的大数据生态系统中的关键角色
- 1.4 大数据分析案例
- 1.5 总结
- 1.6 练习
- 参考书目
- 第2章 数据分析生命周期
- 2.1 数据分析生命周期概述
- 2.1.1 一个成功分析项目的关键角色
- 2.1.2 数据分析生命周期的背景和概述
- 2.2 第1阶段:发现
- 2.2.1 学习业务领域
- 2.2.2 资源
- 2.2.3 设定问题
- 2.2.4 确定关键利益相关者
- 2.2.5 采访分析发起人
- 2.2.6 形成初始假设
- 2.2.7 明确潜在数据源
- 2.3 第2阶段:数据准备
- 2.3.1 准备分析沙箱
- 2.3.2 执行ETLT
- 2.3.3 研究数据
- 2.3.4 数据治理
- 2.3.5 调查和可视化
- 2.3.6 数据准备阶段的常用工具
- 2.4 第3阶段:模型规划
- 2.4.1 数据探索和变量选择
- 2.4.2 模型的选择
- 2.4.3 模型设计阶段的常用工具
- 2.5 第4阶段:模型建立
- 2.5.1 模型构建阶段中的常用工具
- 2.6 第5阶段:沟通结果
- 2.7 第6阶段:实施
- 2.8 案例研究:全球创新网络和分析(GINA)
- 2.8.1 第1阶段:发现
- 2.8.2 第2阶段:数据准备
- 2.8.3 第3阶段:模型规划
- 2.8.4 第4阶段:模型建立
- 2.8.5 第5阶段:沟通结果
- 2.8.6 第6阶段:实施
- 2.9 总结
- 2.10 练习
- 参考书目
- 第3章 使用R进行基本数据分析
- 3.1 R简介
- 3.1.1 R图形用户界面
- 3.1.2 数据导入和导出
- 3.1.3 属性和数据类型
- 3.1.4 描述性统计(descriptive statistics)
- 3.2 探索性数据分析
- 3.2.1 在分析之前先可视化
- 3.2.2 脏数据
- 3.2.3 可视化单个变量
- 3.2.4 研究多个变量
- 3.2.5 对比数据探索和数据演示
- 3.3 用于评估的统计方法
- 3.3.1 假设检验
- 3.3.2 均值差异
- 3.3.3 Wilcoxon秩和检验
- 3.3.4 I型和II型错误
- 3.3.5 功效和抽样大小
- 3.3.6 ANOVA
- 3.4 总结
- 3.5 练习
- 参考文献
- 第4章 高级分析理论与方法:聚类
- 4.1 聚类概述
- 4.2 k均值聚类
- 4.2.1 使用案例
- 4.2.2 方法概述
- 4.2.3 确定聚类簇的数量
- 4.2.4 诊断
- 4.2.5 选择原因及注意事项
- 4.3 其他算法
- 4.4 总结
- 4.5 练习
- 参考书目
- 第5章 高级分析理论与方法:关联规则
- 5.1 概述
- 5.2 Apriori算法
- 5.3 评估候选规则
- 5.4 关联规则的应用
- 5.5 杂货店交易示例
- 5.5.1 杂货店数据集
- 5.5.2 生成频繁数据集
- 5.5.3 规则的生成和可视化
- 5.6 验证和测试
- 5.7 诊断
- 5.8 总结
- 5.9 练习
- 参考书目
- 第6章 高级分析理论与方法:回归
- 6.1 线性回归
- 6.1.1 用例
- 6.1.2 模型描述
- 6.1.3 诊断
- 6.2 逻辑回归
- 6.2.1 用例
- 6.2.2 模型描述
- 6.2.3 诊断
- 6.3 选择理由和注意事项
- 6.4 其他回归模型
- 6.5 总结
- 6.6 练习
- 第7章 高级分析理论与方法:分类
- 7.1 决策树
- 7.1.1 决策树概览
- 7.1.2 通用算法
- 7.1.3 决策树算法
- 7.1.4 评估决策树
- 7.1.5 R中的决策树
- 7.2 朴素贝叶斯
- 7.2.1 贝叶斯定理
- 7.2.2 朴素贝叶斯分类器
- 7.2.3 平滑
- 7.2.4 诊断
- 7.2.5 R中的朴素贝叶斯
- 7.3 分类器诊断
- 7.4 其他分类方法
- 7.5 总结
- 7.6 练习
- 参考书目
- 第8章 高级分析理论与方法:时间序列分析
- 8.1 时间序列分析概述
- 8.1.1 Box-Jenkins方法
- 8.2 ARIMA模型
- 8.2.1 自相关函数(ACF)
- 8.2.2 自回归模型
- 8.2.3 移动平均模型
- 8.2.4 ARMA和ARIMA模型
- 8.2.5 建立和评估ARIMA模型
- 8.2.6 选择理由及注意事项
- 8.3 其他方法
- 8.4 总结
- 8.5 练习
- 第9章 高级分析理论与方法:文本分析
- 9.1 文本分析步骤
- 9.2 一个文本分析的示例
- 9.3 收集原始数据
- 9.4 表示文本
- 9.5 词频-逆文档频率(TFIDF)
- 9.6 通过主题来分类文件
- 9.7 情感分析
- 9.8 获得洞察力
- 9.9 总结
- 9.10 练习
- 参考书目
- 第10章 高级分析技术与工具:MapReduce和Hadoop
- 10.1 非结构化数据分析
- 10.1.1 用例
- 10.1.2 MapReduce
- 10.1.3 Apache Hadoop
- 10.2 Hadoop生态系统
- 10.2.1 Pig
- 10.2.2 Hive
- 10.2.3 HBase
- 10.2.4 Mahout
- 10.3 NoSQL
- 10.4 总结
- 10.5 练习
- 参考书目
- 第11章 高级分析技术与工具:数据库内分析
- 11.1 SQL基本要素
- 11.1.1 连接
- 11.1.2 set运算符
- 11.1.3 grouping扩展
- 11.2 数据库内的文本分析
- 11.3 高级SQL技术
- 11.3.1 窗口函数
- 11.3.2 用户定义函数与聚合
- 11.3.3 排序聚合
- 11.3.4 MABlib
- 11.4 总结
- 11.5 练习
- 参考书目
- 第12章 结尾
- 12.1 沟通和实施一个分析项目
- 12.2 创建最终可交付成果
- 12.2.1 为多个受众群体创建核心材料
- 12.2.2 项目目标
- 12.2.3 主要发现
- 12.2.4 方法
- 12.2.5 模型描述
- 12.2.6 有数据支持的关键论点
- 12.2.7 模型细节
- 12.2.8 建议
- 12.2.9 关于最终演示文档的额外提示
- 12.2.10 提供技术规范和代码
- 12.3 数据可视化基础
- 12.3.1 有数据支持的要点
- 12.3.2 图的演进
- 12.3.3 通用表示方法
- 12.3.4 如何清理图形
- 12.3.5 额外考虑
- 12.4 总结
- 12.5 练习
- 12.6 参考文献与扩展阅读
- 参考书目
- 欢迎来到异步社区!
- 异步社区的来历
- 社区里都有什么?
- 购买图书
- 下载资源
- 与作译者互动
- 灵活优惠的购书
- 纸电图书组合购买
- 社区里还可以做什么?
- 提交勘误
- 写作
- 会议活动早知道
- 加入异步
- 看完了
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。