展开全部

主编推荐语

Hadoop:大数据分布式处理框架,10章深入浅出解读。

内容简介

Hadoop作为对大量数据进行分布式处理的软件框架,能够可靠、高效、可伸缩的方式进行数据处理,是谷歌实现云计算的重要基石。本书分10个章节,深入浅出地介绍了Hadoop的安装与配置、HDFSHA及解决方案、HDFS元数据解析、元数据备份方案、Backup Node方案、MapReduce设计理念与基本架、MapReduce编程模型、YARN设计理念与基本架构、YARN基础库。

目录

  • 封面
  • 书名页
  • 内容简介
  • 版权页
  • 前言
  • 目录
  • 第1章 Hadoop简介
  • 1.1 Hadoop相关介绍
  • 1.1.1 Hadoop概述
  • 1.1.2 Hadoop的历史
  • 1.1.3 Hadoop的功能与作用
  • 1.1.4 Hadoop的优势
  • 1.1.5 Hadoop的应用现状与趋势
  • 1.2 Hadoop的项目
  • 1.3 Hadoop的体系结构
  • 1.4 Hadoop与分布式开发
  • 1.5 Hadoop计算模型
  • 1.6 Hadoop的数据管理
  • 1.6.1 HDFS的数据管理
  • 1.6.2 HBase的数据管理
  • 1.6.3 Hive的数据管理
  • 1.7 Hadoop集群安全策略
  • 思考练习
  • 第2章 Hadoop的安装与配置
  • 2.1 在Linux上安装与配置Hadoop
  • 2.1.1 安装JDK1.6
  • 2.1.2 配置SSH免密码登录
  • 2.1.3 安装并运行Hadoop
  • 2.2 在Mac OSX上安装与配置Hadoop
  • 2.2.1 安装Homebrew
  • 2.2.2 使用Homebrew安装Hadoop
  • 2.2.3 配置SSH和使用Hadoop
  • 2.3 在Windows上安装与配置Hadoop
  • 2.3.1 安装JDK1.6或更高版本
  • 2.3.2 安装Cygwin
  • 2.3.3 配置环境变量
  • 2.3.4 安装sshd服务
  • 2.3.5 启动sshd服务
  • 2.3.6 配置SSH免密码登录
  • 2.3.7 安装并运行Hadoop
  • 2.4 安装与配置Hadoop集群
  • 2.4.1 网络拓扑
  • 2.4.2 定义集群拓扑
  • 2.4.3 建立和安装Cluster
  • 2.5 日志分析及几个小技巧
  • 思考练习
  • 第3章 HDFS HA及解决方案
  • 3.1 HDFS系统架构
  • 3.2 HA定义
  • 3.3 HDFS HA原因分析及应对措施
  • 3.3.1 可靠性
  • 3.3.2 可维护性
  • 3.4 Hadoop的HA解决方案
  • 3.4.1 Hadoop的元数据备份方案
  • 3.4.2 Hadoop的SecondaryNameNode方案
  • 3.4.3 Hadoop的CheckpointNode方案
  • 3.4.4 Hadoop的BackupNode方案
  • 3.4.5 DRDB方案
  • 3.4.6 Facebook的AvatarNode方案
  • 3.5 方案的优点与缺点比较
  • 思考练习
  • 第4章 HDFS元数据解析
  • 4.1 概  述
  • 4.2 内存元数据结构
  • 4.2.1 INode
  • 4.2.2 Block
  • 4.2.3 BlockInfo和DatanodeDescriptor
  • 4.2.4 小结
  • 4.2.5 代码分析—元数据结构
  • 4.3 磁盘元数据文件
  • 4.4 format情景分析
  • 4.5 元数据应用场景分析
  • 思考练习
  • 第5章 Hadoop的元数据备份方案
  • 5.1 运行机制分析
  • 5.1.1 NameNode启动加载元数据情景分析
  • 5.1.2 元数据更新及日志写入情景分析
  • 5.1.3 Checkpoint 过程情景分析
  • 5.1.4 元数据可靠性机制
  • 5.2 使用说明
  • 思考练习
  • 第6章 Hadoop的BackupNode方案
  • 6.1 BackupNode概述
  • 6.1.1 系统架构
  • 6.1.2 使用原则
  • 6.2 运行机制分析
  • 6.2.1 运行机制
  • 6.2.2 元数据操作情景分析
  • 6.2.3 日志池机制
  • 6.2.4 故障切换机制
  • 6.3 实验方案说明
  • 6.4 构建实验环境
  • 6.4.1 网络拓扑
  • 6.4.2 系统安装及配置
  • 6.4.3 安装JDK
  • 6.4.4 虚拟机集群架设
  • 6.4.5 NameNode安装及配置
  • 6.4.6 BackupNode安装及配置
  • 6.4.7 DataNode安装及配置
  • 6.4.8 Clients安装及配置
  • 6.5 异常解决方案
  • 6.5.1 异常情况分析
  • 6.5.2 NameNode配置
  • 6.5.3 BackupNode配置
  • 6.5.4 DataNode配置
  • 6.5.5 NameNode宕机切换实验
  • 6.5.6 NameNode宕机读/写测试
  • 思考练习
  • 第7章 MapReduce设计理念与基本架构
  • 7.1 Hadoop MapReduce设计目标
  • 7.2 MapReduce编程模型概述
  • 7.2.1 MapReduce编程模型简介
  • 7.2.2 MapReduce编程实例
  • 7.3 Hadoop基本架构
  • 7.3.1 HDFS架构
  • 7.3.2 Hadoop MapReduce架构
  • 7.4 Hadoop MapReduce作业的生命周期
  • 思考练习
  • 第8章 MapReduce编程模型
  • 8.1 MapReduce编程模型概述
  • 8.1.1 MapReduce编程接口体系结构
  • 8.1.2 新版与旧版MapReduce API比较
  • 8.2 MapReduce API基本概念
  • 8.2.1 序列化
  • 8.2.2 Reporter参数
  • 8.2.3 回调机制
  • 8.3 Java API解析
  • 8.3.1 作业配置与提交
  • 8.3.2 InputFormat接口的设计与实现
  • 8.3.3 OutputFormat接口的设计与实现
  • 8.3.4 Mapper与Reducer解析
  • 8.3.5 Partitioner接口的设计与实现
  • 8.4 非Java API解析
  • 8.4.1 Hadoop Streaming的实现原理
  • 8.4.2 Hadoop Pipes的实现原理
  • 8.5 Hadoop工作流
  • 8.5.1 JobControl的实现原理
  • 8.5.2 ChainMapper/ChainReducer的实现原理
  • 8.5.3 Hadoop工作流引擎
  • 思考练习
  • 第9章 YARN设计理念与基本架构
  • 9.1 YARN产生背景
  • 9.1.1 MRv1的局限性
  • 9.1.2 轻量级弹性计算平台
  • 9.2 Hadoop基础知识
  • 9.2.1 术语解释
  • 9.2.2 Hadoop的版本变迁
  • 9.3 YARN基本设计思想
  • 9.3.1 基本框架对比
  • 9.3.2 编程模型对比
  • 9.4 YARN基本架构
  • 9.4.1 YARN基本组成结构
  • 9.4.2 YARN通信协议
  • 9.5 YARN工作流程
  • 9.6 多角度理解YARN
  • 9.6.1 并行编程
  • 9.6.2 资源管理系统
  • 9.6.3 云计算
  • 思考练习
  • 第10章 YARN基础库
  • 10.1 YARN基础库概述
  • 10.2 第三方开源库
  • 10.2.1 Protocol Buffers
  • 10.2.2 Apache Avro
  • 10.3 底层通信库
  • 10.3.1 RPC通信模型
  • 10.3.2 Hadoop RPC的特点概述
  • 10.3.3 RPC总体架构
  • 10.3.4 Hadoop RPC使用方法
  • 10.3.5 Hadoop RPC类详解
  • 10.3.6 Hadoop RPC参数调优
  • 10.3.7 YARN RPC实现
  • 10.3.8 YARN RPC应用实例
  • 10.4 服务库与事件库
  • 10.4.1 服务库
  • 10.4.2 事件库
  • 10.4.3 YARN服务库和事件库的使用方法
  • 10.4.4 事件驱动带来的变化
  • 10.5 状态机库
  • 10.5.1 YARN状态转换方式
  • 10.5.2 状态机类
  • 10.5.3 状态机的使用方法
  • 10.5.4 状态机可视化
  • 10.6 源代码阅读引导
  • 思考练习
  • 参考文献
  • 反侵权盗版声明
  • 封底
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。