计算机
类型
可以朗读
语音朗读
325千字
字数
2019-05-01
发行日期
展开全部
主编推荐语
本书深入浅出讲解大数据基础及R语言应用,实用技巧丰富,理论实例相结合。
内容简介
本书从大数据的基础知识及相关行业标准开始讲解,陆续介绍了R语言处理大数据的相关知识。书中不仅包含R语言的语法结构、开发技巧及R语言的特色等,还包含一系列实用的开发技巧。本书包含丰富的代码示例,以理论和示例相结合的方式帮助读者更好地学习和掌握大数据分析的方方面面。
目录
- 版权信息
- 内容提要
- 作者简介
- 致谢
- 技术审稿人简介
- 前言
- 资源与支持
- 第1章 大数据时代
- 1.1 大数据——重新定义怪物
- 1.2 大数据工具箱 ——为大而生
- 1.2.1 Hadoop——屋中之象
- 1.2.2 数据库
- 1.2.3 Hadoop的Spark化
- 1.3 R语言 ——大数据的无冕之王
- 1.4 小结
- 第2章 R编程语言与统计环境的介绍
- 2.1 学习R
- 2.2 R语言基础回顾
- 2.2.1 准备R和RStudio
- 2.2.2 R语言数据结构
- 2.2.3 导出R数据对象
- 2.3 应用数据科学与R
- 2.3.1 导入不同格式的数据
- 2.3.2 探索性数据分析
- 2.3.3 数据聚合和列联表
- 2.3.4 假设检验和统计推断
- 2.3.5 数据可视化包
- 2.4 小结
- 第3章 由内而外释放R的力量
- 3.1 R的传统局限性
- 3.1.1 内存外的数据
- 3.1.2 处理速度
- 3.2 超越内存限制
- 3.2.1 使用ff和ffbase软件包进行数据转换和聚合
- 3.2.2 使用ff和ffbase包的广义线性模型
- 3.2.3 使用bigmemory包扩展内存
- 3.3 R的并行
- 3.3.1 从bigmemory到更快的计算
- 3.3.2 未来的R并行处理
- 3.4 使用data.table包和其他工具提高R性能
- 3.4.1 使用data.table包快速数据导入和操作
- 3.4.2 编写更好的R代码
- 3.5 小结
- 第4章 R相关的Hadoop和MapReduce框架
- 4.1 Hadoop架构
- 4.1.1 Hadoop分布式文件系统
- 4.1.2 MapReduce框架
- 4.1.3 其他Hadoop原生工具
- 4.1.4 学习Hadoop
- 4.2 云上的单节点Hadoop
- 4.2.1 在Azure上部署Hortonworks Sandbox
- 4.2.2 Java语言的Hadoop单词记数示例
- 4.2.3 R语言的Hadoop单词记数示例
- 4.3 HDInsight ——Azure上的多节点Hadoop集群
- 4.3.1 创建第一个HDInsight集群
- 4.3.2 智能电表数据分析示例——在HDInsight集群上使用R
- 4.4 小结
- 第5章 R与关系型数据库管理系统(RDBMS)
- 5.1 关系型数据库管理系统(RDBMS)
- 5.1.1 常用RDBMS简介
- 5.1.2 结构化查询语言(SQL)
- 5.2 用SQLite连接R
- 5.2.1 准备并导入数据到本地SQLite数据库
- 5.2.2 通过RStudio连接SQLite数据库
- 5.3 在Amazon EC2实例中连接MariaDB和R
- 5.3.1 准备EC2实例和RStudio服务器
- 5.3.2 准备MariaDB和数据
- 5.3.3 连接MariaDB和RStudio
- 5.4 连接Amazon RDS上的PostgreSQL和R
- 5.4.1 启动一个Amazon RDS数据库实例
- 5.4.2 准备并上传数据到Amazon RDS上
- 5.4.3 从RStudio 远程查询 Amazon RDS上的PostgreSQL
- 5.5 小结
- 第6章 R与非关系型数据库
- 6.1 NoSQL数据库简介
- 流行非关系型数据库简介
- 6.2 用R操作MongoDB
- 6.2.1 MongoDB简介
- 6.2.2 在Amazon EC2上安装MongoDB并与R连接
- 6.2.3 使用MongoDB和R处理大数据
- 6.3 Hbase与R
- 6.3.1 Azure HDInsight与HBase和RStudio Server
- 6.3.2 将数据导入HDFS和HBase
- 6.3.3 使用rhbase包读取和查阅 Hbase
- 6.4 小结
- 第7章 比Hadoop更快——使用R编写Spark
- 7.1 为大数据分析服务的Spark
- 7.2 多节点HDInsight集群上使用R的Spark
- 7.2.1 部署使用支持Spark和R/RStudio的HDInsight
- 7.2.2 将数据读入HDFS和Hive
- 7.2.3 使用SparkR分析湾区共享单车数据
- 7.3 小结
- 第8章 R语言大数据机器学习
- 8.1 机器学习是什么
- 8.1.1 机器学习算法
- 8.1.2 监督和无监督机器学习方法
- 8.1.3 分类和聚类算法
- 8.1.4 R机器学习方法
- 8.1.5 大数据机器学习工具
- 8.2 在HDInsight集群中使用Spark和R的GLM示例
- 8.2.1 准备Spark群集并从HDFS读取数据
- 8.2.2 Spark中的R语言逻辑回归
- 8.3 R中基于Hadoop H2O 的朴素贝叶斯
- 8.3.1 在R中运行Hadoop上的H2O实例
- 8.3.2 读取和探索H2O中的数据
- 8.3.3 R中基于H2O的朴素贝叶斯
- 8.4 R中基于Hadoop H2O 的神经网络
- 8.4.1 神经网络的工作原理
- 8.4.2 在H2O上运行神经网络模型
- 8.5 小结
- 第9章 R语言的未来 ——大数据、快数据、智能数据
- 9.1 R大数据分析的现状
- 9.1.1 超过单机内存的数据
- 9.1.2 更快的R数据处理
- 9.1.3 Hadoop与R
- 9.1.4 Spark与R
- 9.1.5 R与数据库
- 9.1.6 机器学习与R
- 9.2 R的未来
- 9.2.1 大数据
- 9.2.2 快数据
- 9.2.3 智能数据
- 9.3 如何提升
- 9.4 小结
- 版权声明
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。