计算机
类型
可以朗读
语音朗读
127千字
字数
2017-02-01
发行日期
展开全部
主编推荐语
大数据技术全面分析:采集、存储、计算模式及典型工具讲解。
内容简介
本书在介绍大数据发展背景、特点及主要技术层面的基础上,对大数据的数据采集、数据存储、常见计算模式和典型系统工具进行分析介绍。对各种典型系统工具进行系统讲解,包括大数据查询分析计算及典型工具(HBase、Hive)、批处理计算及典型工具(MapReduce、Spark)、流式计算及典型工具(Storm、Apex、Flink)、事件流及典型工具(Druid)等。
目录
- 封面
- 扉页
- 版权信息
- 目录
- 内容提要
- 前言
- 第1章 大数据概述
- 1.1 大数据的发展
- 1.2 大数据的概念及特征
- 1.2.1 大数据的概念
- 1.2.2 大数据的特征
- 1.3 大数据的产生及数据类型
- 1.3.1 大数据的产生
- 1.3.2 数据类型
- 1.4 大数据计算模式和系统
- 1.5 大数据的主要技术层面和技术内容
- 1.6 大数据的典型应用
- 1.7 本章小结
- 第2章 数据获取
- 2.1 Scrapy环境搭建
- 2.2 爬虫项目创建
- 2.3 采集目标数据项定义
- 2.4 爬虫核心实现
- 2.5 数据存储
- 2.6 爬虫运行
- 2.7 本章小结
- 第3章 Hadoop基础
- 3.1 Hadoop概述
- 3.2 Hadoop原理
- 3.2.1 Hadoop HDFS原理
- 3.2.2 Hadoop MapReduce原理
- 3.2.3 Hadoop YARN原理
- 3.3 Hadoop的安装与配置
- 3.4 Hadoop生态系统简介
- 3.5 本章小结
- 第4章HDFS基本应用
- 4.1 实战命令行接口
- 4.2 实战Java接口
- 4.3 数据流
- 4.3.1 数据流简介
- 4.3.2 数据流读取
- 4.3.3 数据流写入
- 4.4 本章小结
- 第5章 MapReduce应用开发
- 5.1 配置Hadoop MapReduce开发环境
- 5.1.1 系统环境及所需文件
- 5.1.2 安装Eclipse
- 5.1.3 向Eclipse中添加插件
- 5.2 编写和运行第一个MapReduce程序前的准备
- 5.2.1 系统环境及所需要的文件
- 5.2.2 建立运行MapReduce程序的依赖环境
- 5.2.3 建立编写MapReduce程序的依赖包
- 5.3 MapReduce应用案例
- 5.3.1 单词计数
- 5.3.2 数据去重
- 5.3.3 排序
- 5.3.4 单表关联
- 5.3.5 多表关联
- 5.4 本章小结
- 第6章 分布式数据库HBase
- 6.1 HBase简介
- 6.2 HBase接口
- 6.3 安装HBase集群
- 6.3.1 系统环境
- 6.3.2 安装ZooKeeper
- 6.3.3 安装HBase
- 6.4 HBase Shell
- 6.5 HBase API
- 6.6 HBase综合实例
- 6.7 本章小结
- 第7章 数据仓库工具Hive
- 7.1 Hive简介
- 7.2 Hive接口实战
- 7.3 Hive复杂语句实战
- 7.4 Hive综合实例
- 7.4.1 准备数据
- 7.4.2 在Hive上创建数据库和表
- 7.4.3 导入数据
- 7.4.4 算法分析与执行HQL语句
- 7.4.5 运行结果分析
- 7.5 本章小结
- 第8章 开源集群计算环境Spark
- 8.1 Spark简介
- 8.2 Spark接口实战
- 8.2.1 环境要求
- 8.2.2 IDEA使用和打包
- 8.3 Spark编程的RDD
- 8.3.1 RDD
- 8.3.2 创建RDD
- 8.3.3 RDD中与Map和Reduce相关的API
- 8.4 Spark实战案例——统计1000万人口的平均年龄
- 8.4.1 案例描述
- 8.4.2 案例分析
- 8.4.3 编程实现
- 8.4.4 提交到集群运行
- 8.4.5 监控执行状态
- 8.5 Spark MLlib实战——聚类实战
- 8.5.1 算法说明
- 8.5.2 实例介绍
- 8.5.3 测试数据说明
- 8.5.4 程序源码
- 8.5.5 运行脚本
- 8.6 本章小结
- 第9章 流实时处理系统Storm
- 9.1 Storm概述
- 9.1.1 Storm简介
- 9.1.2 Storm主要特点
- 9.2 Storm安装与配置
- 9.3 本章小结
- 第10章 企业级、大数据流处理Apex
- 10.1 Apache Apex简介
- 10.2 Apache Apex开发环境配置
- 10.2.1 部署开发工具
- 10.2.2 安装Apex组件
- 10.2.3 创建Top N Words应用
- 10.3 运行TopN Words应用
- 10.3.1 开启Apex客户端
- 10.3.2 执行
- 10.4 本章小结
- 第11章 事件流OLAP之Druid
- 11.1 Druid简介
- 11.2 Druid应用场所
- 11.3 Druid集群
- 11.4 Druid单机环境
- 11.4.1 安装Druid
- 11.4.2 安装ZooKeeper
- 11.4.3 启动Druid服务
- 11.4.4 批量加载数据
- 11.4.5 加载流数据
- 11.4.6 数据查询
- 11.5 本章小结
- 第12章 事件数据流引擎Flink
- 12.1 Flink概述
- 12.2 Flink基本架构
- 12.3 单机安装Flink
- 12.4 Flink运行第一个例子
- 12.5 Flink集群部署
- 12.5.1 环境准备
- 12.5.2 安装和配置
- 12.5.3 启动Flink集群
- 12.5.4 集群中添加JobManager/TaskManager
- 12.6 本章小结
- 第13章 分布式文件搜索Elasticsearch
- 13.1 Elasticsearch简介
- 13.2 Elasticsearch单节点安装
- 13.3 插件Elasticsearch-head安装
- 13.4 Elasticsearch的基本操作
- 13.5 综合实战
- 13.6 本章小结
- 第14章 实例电商数据分析
- 14.1 背景与挖掘目标
- 14.2 分析方法与过程
- 14.2.1 数据收集
- 14.2.2 数据预处理
- 14.2.3 导入数据到Hadoop
- 14.2.4 数据取样分析
- 14.3 本章小结
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。