互联网
类型
可以朗读
语音朗读
173千字
字数
2021-01-01
发行日期
展开全部
主编推荐语
存储专家详解数据删除前沿技术,帮你高效提升大数据性能。
内容简介
本书是一本专门介绍重复数据删除技术的专业书籍。
全书共分为8章,以大数据存储为背景,介绍重复数据删除的关键技术及其应用场景。通过学习本书,读者能够了解信息存储技术基础、大数据管理主流技术和高效能存储管理基本知识,并可以深入理解重复数据删除技术的概念、分类、存储原理及关键技术,还可掌握前沿的应用,如感知源端重删机制和高可扩展集群重删技术,了解主流厂商重删存储相关产品及其应用案例。
本书面向从事大数据存储系统设计及相关技术研究和开发工作的读者。既可以作为存储系统架构师、软件开发工程师、产品或项目经理、数据中心运维人员等的实用工具书,还可以作为普通高等院校计算机和大数据科学相关专业的教学或科研人员、研究生、高年级本科生及相关培训机构学员的学习参考书。
目录
- 版权信息
- 内容简介
- 序言 大数据时代数据量暴涨带来的问题
- 前言
- 第1章 概述
- 1.1 大数据简介
- 1.1.1 大数据定义和维度
- 1.1.2 大数据管理挑战
- 1.2 高效能存储管理
- 1.2.1 存储虚拟化
- 1.2.2 自动分层存储
- 1.2.3 自动精简配置
- 1.2.4 数据缩减技术
- 1.3 本章小结
- 参考文献
- 第2章 存储技术基础
- 2.1 存储介质
- 2.1.1 磁存储介质
- 2.1.2 光存储介质
- 2.1.3 电子存储介质
- 2.2 存储接口
- 2.2.1 IDE接口
- 2.2.2 SATA接口
- 2.2.3 SCSI接口
- 2.2.4 SAS接口
- 2.2.5 PCIE接口
- 2.2.6 FC接口
- 2.3 存储系统架构
- 2.3.1 存储器分层结构
- 2.3.2 RAID技术
- 2.4 网络存储系统
- 2.4.1 直接连接存储
- 2.4.2 网络附加存储
- 2.4.3 存储区域网络
- 2.4.4 基于对象存储
- 2.4.5 几种存储结构的比较
- 2.5 本章小结
- 参考文献
- 第3章 大数据管理技术
- 3.1 分布式计算框架
- 3.2 分布式文件系统
- 3.2.1 HDFS
- 3.2.2 Ceph
- 3.2.3 Lustre
- 3.3 NoSQL数据库
- 3.3.1 HBase
- 3.3.2 MongoDB
- 3.4 大数据仓库
- 3.4.1 Hive
- 3.4.2 Pig
- 3.4.3 Phoenix
- 3.5 本章小结
- 参考文献
- 第4章 重复数据删除存储系统
- 4.1 重复数据删除的概念及分类
- 4.1.1 基本概念
- 4.1.2 技术分类
- 4.2 重复数据删除存储原理
- 4.2.1 系统架构
- 4.2.2 主要步骤
- 4.2.3 衡量指标
- 4.3 重复数据删除技术应用场景
- 4.3.1 数据备份
- 4.3.2 归档存储
- 4.3.3 远程容灾
- 4.3.4 虚拟化环境
- 4.3.5 主存储系统
- 4.3.6 新型存储介质
- 4.4 相关产品及开源项目
- 4.4.1 企业产品
- 4.4.2 开源项目
- 4.5 本章小结
- 参考文献
- 第5章 重复数据删除关键技术
- 5.1 数据划分方法
- 5.1.1 全文件分块
- 5.1.2 静态分块
- 5.1.3 基于内容分块
- 5.1.4 基于应用分块
- 5.1.5 Delta编码
- 5.2 块索引查询优化技术
- 5.2.1 基于块局部性的优化策略
- 5.2.2 基于分层消重的优化策略
- 5.2.3 基于固态存储的优化策略
- 5.3 可扩展数据路由技术
- 5.3.1 基于分布式哈希表的块级数据路由技术
- 5.3.2 基于状态信息的超块级数据路由技术
- 5.3.3 基于相似性的文件级数据路由技术
- 5.4 块指纹计算加速方法
- 5.4.1 多核CPU加速方法
- 5.4.2 GPGPU加速方法
- 5.5 数据还原方法
- 5.5.1 主存储还原方法
- 5.5.2 备份存储还原方法
- 5.5.3 云存储还原方法
- 5.6 垃圾回收技术
- 5.6.1 引用计数法
- 5.6.2 标记清理法
- 5.7 高可靠数据配置策略
- 5.7.1 纠错编码技术
- 5.7.2 副本策略
- 5.8 数据安全技术
- 5.8.1 加密冲突
- 5.8.2 旁路攻击
- 5.8.3 所有权证明
- 5.9 本章小结
- 参考文献
- 第6章 应用感知源端重复数据删除机制
- 6.1 研究背景
- 6.2 相关研究工作
- 6.2.1 应用感知存储研究
- 6.2.2 基于源端重复数据删除的云备份研究
- 6.3 基本形式化模型
- 6.3.1 符号与基本定义
- 6.3.2 模型抽象与问题定义
- 6.4 研究动机
- 6.5 高效应用感知源端重复数据删除的设计与实现
- 6.5.1 ALG-Dedupe体系结构简介
- 6.5.2 文件大小过滤器
- 6.5.3 智能数据分块策略
- 6.5.4 应用感知的消重器
- 6.5.5 应用感知索引结构
- 6.5.6 段和容器管理
- 6.6 实验评估
- 6.6.1 实验平台和数据集
- 6.6.2 重复数据删除效果
- 6.6.3 重复数据删除效率
- 6.6.4 云备份窗口
- 6.6.5 能耗利用率
- 6.6.6 云存储代价
- 6.6.7 系统开销
- 6.7 本章小结
- 参考文献
- 第7章 高可扩展集群重复数据删除技术
- 7.1 研究背景
- 7.2 相关研究工作
- 7.3 基本模型与算法
- 7.3.1 超块相似性分析
- 7.3.2 基于手纹的数据路由算法
- 7.4 系统设计与实现
- 7.4.1 Σ-Dedupe系统架构
- 7.4.2 数据路由消息通信
- 7.4.3 相似索引查询优化
- 7.5 性能评估
- 7.5.1 实验平台和工作负载
- 7.5.2 验证度量
- 7.5.3 单节点并行重复数据删除效率
- 7.5.4 集群重复数据删除效率
- 7.6 本章小结
- 参考文献
- 第8章 重复数据删除存储案例分析
- 8.1 重复数据删除缩减率评估
- 8.2 主流厂商相关产品应用案例
- 8.2.1 Dell EMC公司产品案例
- 8.2.2 IBM公司产品案例
- 8.2.3 飞康软件公司产品案例
- 8.2.4 富士通公司产品案例
- 8.2.5 NetApp公司产品案例
- 8.2.6 Quantum公司产品案例
- 8.3 本章小结
- 参考文献
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。