展开全部

主编推荐语

互联网大厂技术专家倾力之作,大数据学习者及从业者推荐读物。

内容简介

本书以HadoopHDFS为载体,介绍了构建一款分布式系统(尤其是存储方向)所需的核心技术,所有内容均基于当前较新的3.3.x/3.4.x版本,分别从理论和实践两个维度逐一阐述。

本书主要包括两篇:核心原理篇介绍了HDFS的诞生历史、元数据及Block管理、节点间通信机制、读写数据流程和高可用实现原理等;拓展与实践篇从实际出发,充分考虑了用户在应用过程中会遇到的痛点,详细介绍了集群拓展方法、数据分层存储、集群维护与多租户实施等实践经验。

本书各章节都配有必要的流程图和原理分析图,便于读者阅读理解,并精选了非常有用的实际案例及拓展知识。

目录

  • 版权信息
  • 前言
  • 第1篇 核心原理篇
  • 第1章 HDFS历史延展
  • 1.1 分布式与文件系统
  • 1.1.1 分布式文件系统部署架构
  • 1.1.2 系统性能的影响因素
  • 1.2 HDFS设计及实现思想
  • 1.2.1 HDFS发展历史
  • 1.2.2 HDFS特性
  • 1.2.3 HDFS服务视图
  • 1.2.4 HDFS架构
  • 1.3 小结
  • 第2章 元数据架构
  • 2.1 内存Tree设计
  • 2.1.1 Namenode介绍
  • 2.1.2 Namenode启动
  • 2.1.3 meta视图
  • 2.1.4 FsDirectory和INodeMap
  • 2.1.5 文件维护
  • 2.2 FsImage和Edit Log
  • 2.2.1 FsImage分析
  • 2.2.2 Edit Log分析
  • 2.3 meta更新
  • 2.3.1 内存结构Update
  • 2.3.2 拓展:锁优化
  • 2.4 小结
  • 第3章 数据管理
  • 3.1 Namespace
  • 3.1.1 Namespace概况
  • 3.1.2 Namenode与Namespace
  • 3.1.3 DataNode与Namespace
  • 3.2 Slave节点
  • 3.2.1 Heartbeat机制
  • 3.2.2 FsDataset和DataStorage
  • 3.2.3 DataNode检查器
  • 3.2.4 存储类型
  • 3.2.5 拓展:NVDIMM
  • 3.3 Topology(Rack)Awareness
  • 3.3.1 Topology Awareness在分布式存储中的意义
  • 3.3.2 Topology Awareness在HDFS中实现
  • 3.3.3 Topology改进
  • 3.4 小结
  • 第4章 Block与副本
  • 4.1 理解Block
  • 4.1.1 Block构成解析
  • 4.1.2 副本存储解析
  • 4.2 Block状态管理
  • 4.2.1 UnderConstruction
  • 4.2.2 Committed
  • 4.2.3 Complete
  • 4.2.4 UnderRecovery
  • 4.2.5 Block状态小结
  • 4.3 副本状态管理
  • 4.3.1 RBW
  • 4.3.2 finalized
  • 4.3.3 RWR
  • 4.3.4 RUR
  • 4.3.5 Temporary
  • 4.3.6 副本状态小结
  • 4.4 Block管理
  • 4.4.1 无效Block
  • 4.4.2 损坏Block
  • 4.4.3 缺失与冗余Block
  • 4.4.4 Block Recovery
  • 4.5 副本策略
  • 4.5.1 位置策略
  • 4.5.2 选盘(Volume)策略
  • 4.5.3 选盘策略改进
  • 4.6 小结
  • 第5章 通信与访问
  • 5.1 HDFS RPC
  • 5.1.1 Protocol Buffers介绍
  • 5.1.2 RPC架构
  • 5.1.3 非幂等访问
  • 5.2 文件写入
  • 5.2.1 数据包(packet)与Pipeline
  • 5.2.2 数据写入
  • 5.2.3 Lease管理与pipeline Recovery
  • 5.3 数据访问
  • 5.3.1 文件读剖析
  • 5.3.2 short-circuit
  • 5.3.3 读写策略改进
  • 5.4 小结
  • 第6章 HA和QJM
  • 6.1 HA发展路径
  • 6.2 Quorum Journal Manager
  • 6.2.1 分布式一致性原理
  • 6.2.2 Edit共享存储系统
  • 6.2.3 QJM架构设计
  • 6.2.4 Edit Recovery
  • 6.3 HA原理
  • 6.3.1 ZKFC解析
  • 6.3.2 HA隔离机制
  • 6.3.3 Multi-Standby特性
  • 6.3.4 HA优化及改进
  • 6.4 小结
  • 第7章 缓存
  • 7.1 分布式系统缓存设计
  • 7.1.1 本地缓存
  • 7.1.2 分布式缓存
  • 7.2 集中式缓存管理
  • 7.2.1 原理介绍
  • 7.2.2 缓存调度
  • 7.2.3 DataNode缓存原理
  • 7.2.4 Cache&Uncache场景
  • 7.3 缓存实践场景及改进
  • 7.3.1 实践场景介绍
  • 7.3.2 集中式缓存V2
  • 7.4 小结
  • 第2篇 拓展与实践篇
  • 第8章 集群拓展
  • 8.1 水平拓展
  • 8.1.1 水平拓展策略及实践
  • 8.1.2 Router-Based Federation
  • 8.2 垂直伸缩
  • 8.2.1 垂直伸缩策略及实践
  • 8.2.2 HDFS Quotas
  • 8.3 多Namespace业务规划
  • 8.4 小结
  • 第9章 数据分层
  • 9.1 存储分层的意义
  • 9.2 HDFS存储分层
  • 9.2.1 冷热集群分层管理
  • 9.2.2 异构分层存储
  • 9.2.3 动态感知数据类型
  • 9.3 纠删码(Erasure Coding)
  • 9.3.1 EC使用介绍
  • 9.3.2 常见EC算法介绍
  • 9.3.3 EC读写解析
  • 9.4 数据迁移
  • 9.4.1 DistCp迁移
  • 9.4.2 FastCopy迁移
  • 9.5 小结
  • 第10章 监控、多租户和数据湖
  • 10.1 大数据监控
  • 10.1.1 基础设施监控采集
  • 10.1.2 故障自愈
  • 10.2 多租户与认证
  • 10.2.1 多租户存储规划
  • 10.2.2 基于Kerberos的认证
  • 10.2.3 基于Delegation Token的认证
  • 10.3 HDFS与Data Lakes
  • 10.4 小结
展开全部

评分及书评

评分不足
1个评分

出版方

机械工业出版社

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。