主编推荐语
本书通过30个小案例和4个项目案例及20小时教学视频手把手带领小白入门Hadoop大数据分析的核心技术。
内容简介
本书全面介绍了Hadoop大数据分析的基础知识、14个核心组件模块及4个项目实战案例。为了帮助读者高效、直观地学习,作者特意为本书录制了20小时同步配套教学视频。
本书共19章,分为3篇。第1篇Hadoop基础知识,涵盖大数据概述、Hadoop的安装与配置、Hadoop分布式文件系统及基于Hadoop 3的HDFS高可用等相关内容;第2篇Hadoop核心技术,涵盖的内容有Hadoop的分布式协调服务:ZooKeeper;分布式离线计算框架:MapReduce;Hadoop的集群资源管理系统:YARN;Hadoop的数据仓库框架:Hive;大数据快速读写:HBase;海量日志采集工具:Flume;Hadoop和关系型数据库间的数据传输工具:Sqoop;分布式消息队列:Kafka;开源内存数据库:Redis;Ambari和CDH;快速且通用的集群计算系统:Spark。第3篇Hadoop项目案例实战,主要介绍了基于电商产品的大数据业务分析系统、用户画像分析、基于个性化的视频推荐系统及电信离网用户挽留4个项目实战案例,以提高读者的大数据项目开发水平。
本书内容全面,实用性强,适合作为Hadoop大数据分析与挖掘的入门读物,也可作为Java程序员的进阶读物。另外,本书还特别适合想要提高大数据项目开发水平的人员阅读。对于专业的培训机构和相关院校而言,本书也是一本不可多得的教学用书。
目录
- 版权信息
- 前言
- 第1篇 Hadoop基础知识
- 第1章 初识Hadoop
- 1.1 大数据初探
- 1.2 Hadoop简介
- 1.3 小结
- 第2章 Hadoop的安装与配置
- 2.1 虚拟机的创建
- 2.2 安装Linux系统
- 2.3 配置网络信息
- 2.4 克隆服务器
- 2.5 SSH免密码登录
- 2.6 安装和配置JDK
- 2.7 Hadoop环境变量配置
- 2.8 Hadoop分布式安装
- 2.9 小结
- 第3章 Hadoop分布式文件系统
- 3.1 DFS介绍
- 3.2 HDFS介绍
- 3.3 Hadoop中HDFS的常用命令
- 3.4 HDFS的应用
- 3.5 小结
- 第4章 基于Hadoop 3的HDFS高可用
- 4.1 Hadoop 3.x的发展
- 4.2 Hadoop 3 HDFS完全分布式搭建
- 4.3 什么是HDFS高可用
- 4.4 搭建HDFS高可用
- 4.5 小结
- 第2篇 Hadoop核心技术
- 第5章 Hadoop的分布式协调服务——ZooKeeper
- 5.1 ZooKeeper的核心概念
- 5.2 ZooKeeper的安装与运行
- 5.3 ZooKeeper服务器端的常用命令
- 5.4 客户端连接ZooKeeper的相关操作
- 5.5 使用Java API访问ZooKeeper
- 5.6 小结
- 第6章 分布式离线计算框架——MapReduce
- 6.1 MapReduce概述
- 6.2 MapReduce执行过程
- 6.3 MapReduce实例
- 6.4 温度排序实例
- 6.5 小结
- 第7章 Hadoop的集群资源管理系统——YARN
- 7.1 为什么要使用YARN
- 7.2 YARN的基本架构
- 7.3 YARN工作流程
- 7.4 YARN搭建
- 7.5 小结
- 第8章 Hadoop的数据仓库框架——Hive
- 8.1 Hive的理论基础
- 8.2 Hive的配置与安装
- 8.3 Hive表的操作
- 8.4 表的分区与分桶
- 8.5 内部表与外部表
- 8.6 内置函数与自定义函数
- 8.7 通过Java访问Hive
- 8.8 Hive优化
- 8.9 小结
- 第9章 大数据快速读写——HBase
- 9.1 关于NoSQL
- 9.2 HBase基础
- 9.3 HBase安装
- 9.4 HBase的Shell操作
- 9.5 Java API访问HBase实例
- 9.6 小结
- 第10章 海量日志采集工具——Flume
- 10.1 什么是Flume
- 10.2 Flume的特点
- 10.3 Flume架构
- 10.4 Flume的主要组件
- 10.5 Flume安装
- 10.6 Flume应用典型实例
- 10.7 通过exec命令实现数据收集
- 10.8 小结
- 第11章 Hadoop和关系型数据库间的数据传输工具——Sqoop
- 11.1 什么是Sqoop
- 11.2 Sqoop工作机制
- 11.3 Sqoop的安装与配置
- 11.4 Sqoop数据导入实例
- 11.5 Sqoop数据导出实例
- 11.6 小结
- 第12章 分布式消息队列——Kafka
- 12.1 什么是Kafka
- 12.2 Kafka的架构和主要组件
- 12.3 Kafka的下载与集群安装
- 12.4 Kafka应用实例
- 12.5 小结
- 第13章 开源的内存数据库——Redis
- 13.1 Redis简介
- 13.2 Redis安装与配置
- 13.3 客户端登录
- 13.4 Redis的数据类型
- 13.5 小结
- 第14章 Ambari和CDH
- 14.1 Ambari的安装与集群管理
- 14.2 CDH的安装与集群管理
- 14.3 小结
- 第15章 快速且通用的集群计算系统——Spark
- 15.1 Spark基础知识
- 15.2 弹性分布式数据集RDD
- 15.3 Spark作业运行机制
- 15.4 运行在YARN上的Spark
- 15.5 Spark集群安装
- 15.6 Spark实例详解
- 15.7 小结
- 第3篇 Hadoop项目案例实战
- 第16章 基于电商产品的大数据业务分析系统实战
- 16.1 项目背景、实现目标和项目需求
- 16.2 功能与流程
- 16.3 数据收集
- 16.4 数据预处理
- 16.5 数据分析——创建外部表
- 16.6 建立模型
- 16.7 数据可视化
- 16.8 小结
- 第17章 用户画像分析实战
- 17.1 项目背景
- 17.2 项目目标与项目开发过程
- 17.3 核心代码解读
- 17.4 项目部署
- 17.5 小结
- 第18章 基于个性化的视频推荐系统实战
- 18.1 项目背景
- 18.2 项目目标与推荐系统简介
- 18.3 推荐系统项目架构
- 18.4 推荐系统模型构建
- 18.5 核心代码
- 18.6 小结
- 第19章 电信离网用户挽留实战
- 19.1 商业理解
- 19.2 数据理解
- 19.3 数据整理
- 19.4 数据清洗
- 19.5 数据转换
- 19.6 建模
- 19.7 评估
- 19.8 部署
- 19.9 用户离网案例代码详解
- 19.10 小结
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。