计算机
类型
可以朗读
语音朗读
155千字
字数
2019-05-01
发行日期
展开全部
主编推荐语
Hadoop:大数据分布式处理框架,10章深入浅出解读。
内容简介
Hadoop作为对大量数据进行分布式处理的软件框架,能够可靠、高效、可伸缩的方式进行数据处理,是谷歌实现云计算的重要基石。本书分10个章节,深入浅出地介绍了Hadoop的安装与配置、HDFSHA及解决方案、HDFS元数据解析、元数据备份方案、Backup Node方案、MapReduce设计理念与基本架、MapReduce编程模型、YARN设计理念与基本架构、YARN基础库。
目录
- 封面
- 书名页
- 内容简介
- 版权页
- 前言
- 目录
- 第1章 Hadoop简介
- 1.1 Hadoop相关介绍
- 1.1.1 Hadoop概述
- 1.1.2 Hadoop的历史
- 1.1.3 Hadoop的功能与作用
- 1.1.4 Hadoop的优势
- 1.1.5 Hadoop的应用现状与趋势
- 1.2 Hadoop的项目
- 1.3 Hadoop的体系结构
- 1.4 Hadoop与分布式开发
- 1.5 Hadoop计算模型
- 1.6 Hadoop的数据管理
- 1.6.1 HDFS的数据管理
- 1.6.2 HBase的数据管理
- 1.6.3 Hive的数据管理
- 1.7 Hadoop集群安全策略
- 思考练习
- 第2章 Hadoop的安装与配置
- 2.1 在Linux上安装与配置Hadoop
- 2.1.1 安装JDK1.6
- 2.1.2 配置SSH免密码登录
- 2.1.3 安装并运行Hadoop
- 2.2 在Mac OSX上安装与配置Hadoop
- 2.2.1 安装Homebrew
- 2.2.2 使用Homebrew安装Hadoop
- 2.2.3 配置SSH和使用Hadoop
- 2.3 在Windows上安装与配置Hadoop
- 2.3.1 安装JDK1.6或更高版本
- 2.3.2 安装Cygwin
- 2.3.3 配置环境变量
- 2.3.4 安装sshd服务
- 2.3.5 启动sshd服务
- 2.3.6 配置SSH免密码登录
- 2.3.7 安装并运行Hadoop
- 2.4 安装与配置Hadoop集群
- 2.4.1 网络拓扑
- 2.4.2 定义集群拓扑
- 2.4.3 建立和安装Cluster
- 2.5 日志分析及几个小技巧
- 思考练习
- 第3章 HDFS HA及解决方案
- 3.1 HDFS系统架构
- 3.2 HA定义
- 3.3 HDFS HA原因分析及应对措施
- 3.3.1 可靠性
- 3.3.2 可维护性
- 3.4 Hadoop的HA解决方案
- 3.4.1 Hadoop的元数据备份方案
- 3.4.2 Hadoop的SecondaryNameNode方案
- 3.4.3 Hadoop的CheckpointNode方案
- 3.4.4 Hadoop的BackupNode方案
- 3.4.5 DRDB方案
- 3.4.6 Facebook的AvatarNode方案
- 3.5 方案的优点与缺点比较
- 思考练习
- 第4章 HDFS元数据解析
- 4.1 概 述
- 4.2 内存元数据结构
- 4.2.1 INode
- 4.2.2 Block
- 4.2.3 BlockInfo和DatanodeDescriptor
- 4.2.4 小结
- 4.2.5 代码分析—元数据结构
- 4.3 磁盘元数据文件
- 4.4 format情景分析
- 4.5 元数据应用场景分析
- 思考练习
- 第5章 Hadoop的元数据备份方案
- 5.1 运行机制分析
- 5.1.1 NameNode启动加载元数据情景分析
- 5.1.2 元数据更新及日志写入情景分析
- 5.1.3 Checkpoint 过程情景分析
- 5.1.4 元数据可靠性机制
- 5.2 使用说明
- 思考练习
- 第6章 Hadoop的BackupNode方案
- 6.1 BackupNode概述
- 6.1.1 系统架构
- 6.1.2 使用原则
- 6.2 运行机制分析
- 6.2.1 运行机制
- 6.2.2 元数据操作情景分析
- 6.2.3 日志池机制
- 6.2.4 故障切换机制
- 6.3 实验方案说明
- 6.4 构建实验环境
- 6.4.1 网络拓扑
- 6.4.2 系统安装及配置
- 6.4.3 安装JDK
- 6.4.4 虚拟机集群架设
- 6.4.5 NameNode安装及配置
- 6.4.6 BackupNode安装及配置
- 6.4.7 DataNode安装及配置
- 6.4.8 Clients安装及配置
- 6.5 异常解决方案
- 6.5.1 异常情况分析
- 6.5.2 NameNode配置
- 6.5.3 BackupNode配置
- 6.5.4 DataNode配置
- 6.5.5 NameNode宕机切换实验
- 6.5.6 NameNode宕机读/写测试
- 思考练习
- 第7章 MapReduce设计理念与基本架构
- 7.1 Hadoop MapReduce设计目标
- 7.2 MapReduce编程模型概述
- 7.2.1 MapReduce编程模型简介
- 7.2.2 MapReduce编程实例
- 7.3 Hadoop基本架构
- 7.3.1 HDFS架构
- 7.3.2 Hadoop MapReduce架构
- 7.4 Hadoop MapReduce作业的生命周期
- 思考练习
- 第8章 MapReduce编程模型
- 8.1 MapReduce编程模型概述
- 8.1.1 MapReduce编程接口体系结构
- 8.1.2 新版与旧版MapReduce API比较
- 8.2 MapReduce API基本概念
- 8.2.1 序列化
- 8.2.2 Reporter参数
- 8.2.3 回调机制
- 8.3 Java API解析
- 8.3.1 作业配置与提交
- 8.3.2 InputFormat接口的设计与实现
- 8.3.3 OutputFormat接口的设计与实现
- 8.3.4 Mapper与Reducer解析
- 8.3.5 Partitioner接口的设计与实现
- 8.4 非Java API解析
- 8.4.1 Hadoop Streaming的实现原理
- 8.4.2 Hadoop Pipes的实现原理
- 8.5 Hadoop工作流
- 8.5.1 JobControl的实现原理
- 8.5.2 ChainMapper/ChainReducer的实现原理
- 8.5.3 Hadoop工作流引擎
- 思考练习
- 第9章 YARN设计理念与基本架构
- 9.1 YARN产生背景
- 9.1.1 MRv1的局限性
- 9.1.2 轻量级弹性计算平台
- 9.2 Hadoop基础知识
- 9.2.1 术语解释
- 9.2.2 Hadoop的版本变迁
- 9.3 YARN基本设计思想
- 9.3.1 基本框架对比
- 9.3.2 编程模型对比
- 9.4 YARN基本架构
- 9.4.1 YARN基本组成结构
- 9.4.2 YARN通信协议
- 9.5 YARN工作流程
- 9.6 多角度理解YARN
- 9.6.1 并行编程
- 9.6.2 资源管理系统
- 9.6.3 云计算
- 思考练习
- 第10章 YARN基础库
- 10.1 YARN基础库概述
- 10.2 第三方开源库
- 10.2.1 Protocol Buffers
- 10.2.2 Apache Avro
- 10.3 底层通信库
- 10.3.1 RPC通信模型
- 10.3.2 Hadoop RPC的特点概述
- 10.3.3 RPC总体架构
- 10.3.4 Hadoop RPC使用方法
- 10.3.5 Hadoop RPC类详解
- 10.3.6 Hadoop RPC参数调优
- 10.3.7 YARN RPC实现
- 10.3.8 YARN RPC应用实例
- 10.4 服务库与事件库
- 10.4.1 服务库
- 10.4.2 事件库
- 10.4.3 YARN服务库和事件库的使用方法
- 10.4.4 事件驱动带来的变化
- 10.5 状态机库
- 10.5.1 YARN状态转换方式
- 10.5.2 状态机类
- 10.5.3 状态机的使用方法
- 10.5.4 状态机可视化
- 10.6 源代码阅读引导
- 思考练习
- 参考文献
- 反侵权盗版声明
- 封底
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。