互联网
类型
可以朗读
语音朗读
150千字
字数
2025-07-01
发行日期
展开全部
主编推荐语
破解数据仓库与数据湖痛点的实战指南。
内容简介
本书首先介绍数据架构及其在构建数据平台中的作用,剖析湖仓架构的概念、特征和优势。接着对比传统架构(数据湖与数据仓库)和现代数据平台,明确湖仓架构在未来数据平台的重要地位。然后讲解行存储与列存储等概念,以及云对象存储、文件格式和表格式等组件,还给出设计存储时的考量因素。
接着阐述数据目录、计算引擎在湖仓架构中的功能、类型选择和设计要点。在数据治理与安全方面,强调在湖仓架构中的统一治理和安全流程。之后提供了湖仓平台从前期准备到具体设计和实施的详细指南。最后探讨湖仓架构的未来发展趋势,如数据网格、混合事务与分析处理等。
通过学习本书,读者可系统掌握湖仓架构知识,为相关实践提供有力支持。
目录
- 版权信息
- O'Reilly Media, Inc. 介绍
- 前言
- 第1章 湖仓架构简介
- 1.1 理解数据架构
- 1.1.1 什么是数据架构
- 1.1.2 数据架构如何帮助构建数据平台
- 1.1.3 数据平台的核心组件
- 1.2 为什么需要一个新的数据架构
- 1.3 湖仓架构:一种新的模式
- 1.3.1 湖仓:博采众长
- 1.3.2 理解湖仓架构
- 1.3.3 湖仓架构的特征
- 1.3.4 湖仓架构的优势
- 1.4 关键要点
- 1.5 参考
- 第2章 传统架构与现代数据平台
- 2.1 传统架构:数据仓库与数据湖
- 2.1.1 数据仓库基础
- 2.1.2 数据湖基础
- 2.2 现代数据平台
- 2.2.1 在云端寻找答案
- 2.2.2 独立方式
- 2.2.3 组合方式
- 2.2.4 现代数据平台的期望
- 2.3 比较:数据仓库、数据湖、湖仓
- 2.3.1 能力与局限性
- 2.3.2 实施活动
- 2.3.3 管理与运营
- 2.3.4 业务成果
- 2.4 湖仓架构:是未来数据平台的默认选择吗
- 2.5 关键要点
- 2.6 参考
- 第3章 存储:湖仓架构的核心
- 3.1 湖仓存储:关键概念
- 3.1.1 行式存储与列式存储
- 3.1.2 基于存储的性能优化
- 3.2 湖仓存储组件
- 3.2.1 云对象存储
- 3.2.2 文件格式
- 3.2.3 表格式
- 3.3 关键设计考虑因素
- 3.3.1 生态系统支持
- 3.3.2 社区支持
- 3.3.3 支持的文件格式
- 3.3.4 支持的计算引擎
- 3.3.5 支持的特性
- 3.3.6 商业产品支持
- 3.3.7 当前版本和未来版本
- 3.3.8 性能基准测试
- 3.3.9 比较
- 3.3.10 共享特征
- 3.4 关键要点
- 3.5 参考
- 第4章 数据目录
- 4.1 理解元数据
- 4.1.1 技术元数据
- 4.1.2 业务元数据
- 4.2 元存储与数据目录的协同工作方式
- 4.3 数据目录的特性
- 4.3.1 搜索、探索与发现数据
- 4.3.2 数据分类
- 4.3.3 数据治理与安全
- 4.3.4 数据血缘
- 4.4 统一数据目录
- 4.4.1 竖井式元数据管理的挑战
- 4.4.2 什么是统一数据目录
- 4.4.3 统一数据目录的优势
- 4.5 实施数据目录:关键设计考虑因素与选项
- 4.5.1 使用HMS
- 4.5.2 使用AWS服务
- 4.5.3 使用Azure服务
- 4.5.4 使用GCP服务
- 4.5.5 使用Databricks
- 4.6 关键要点
- 4.7 参考
- 第5章 湖仓架构的计算引擎
- 5.1 湖仓架构的数据计算优势
- 5.1.1 独立扩展
- 5.1.2 跨区域、跨账户访问
- 5.1.3 统一的批处理和实时处理
- 5.1.4 增强的BI性能
- 5.1.5 选择不同引擎类型的自由
- 5.1.6 跨区域分析
- 5.2 湖仓平台的计算引擎选项
- 5.2.1 开源工具
- 5.2.2 云服务
- 5.2.3 第三方平台
- 5.3 关键设计考虑因素
- 5.3.1 开放表格式支持
- 5.3.2 支持的版本和特性
- 5.3.3 生态系统支持
- 5.3.4 基于人物角色的偏好
- 5.3.5 托管开源、云原生与第三方产品
- 5.3.6 数据消费类工作负载
- 5.4 关键要点
- 5.5 参考
- 第6章 湖仓架构中的数据(与AI)治理和安全
- 6.1 什么是数据治理和数据安全
- 6.2 数据治理和数据安全的优势
- 6.3 湖仓架构中的统一治理和安全
- 6.4 湖仓架构中的治理和安全流程
- 6.4.1 元数据管理
- 6.4.2 合规和法规
- 6.4.3 数据与机器学习模型质量
- 6.4.4 贯穿数据资产和AI资产的血缘
- 6.4.5 数据资产与AI资产共享
- 6.4.6 数据所有权
- 6.4.7 审计和监控
- 6.4.8 访问管理
- 6.4.9 数据保护
- 6.4.10 处理敏感数据
- 6.5 你的角色是什么
- 6.6 关键要点
- 6.7 参考
- 第7章 全景视图:设计与实施湖仓平台
- 7.1 设计前的活动
- 7.1.1 理解平台需求
- 7.1.2 研究现有系统
- 7.1.3 理解组织的愿景与数据战略
- 7.1.4 组织研讨会和访谈
- 7.2 选择合适的架构
- 7.3 建立指导原则
- 7.3.1 数据生态系统
- 7.3.2 可扩展性和性能
- 7.3.3 成本控制和优化
- 7.3.4 平台运营
- 7.3.5 治理和安全
- 7.4 设计考虑因素与实施最佳实践
- 7.4.1 架构蓝图
- 7.4.2 数据摄取
- 7.4.3 数据存储
- 7.4.4 数据处理
- 7.4.5 数据消费和交付
- 7.4.6 通用服务
- 7.5 设计参考
- 7.5.1 分步设计指南
- 7.5.2 设计问卷
- 7.6 关键要点
- 7.7 参考
- 第8章 现实世界中的湖仓
- 8.1 交付一个现实世界的湖仓
- 8.2 估算与规划阶段
- 8.2.1 估算
- 8.2.2 规划
- 8.3 分析与设计阶段
- 8.3.1 分析现有系统
- 8.3.2 数据建模
- 8.3.3 确定技术栈
- 8.4 实施与测试阶段
- 8.4.1 历史数据迁移
- 8.4.2 数据核对与测试
- 8.4.3 逆向工程
- 8.4.4 数据质量和敏感数据处理
- 8.5 支持与维护阶段
- 8.5.1 审计与跟踪
- 8.5.2 灾难恢复策略
- 8.5.3 旧系统下线
- 8.6 交付参考
- 8.6.1 项目交付成果
- 8.6.2 参考架构
- 8.7 关键要点
- 8.8 参考
- 第9章 未来的湖仓
- 9.1 从仓库到湖仓:接下来是什么
- 9.1.1 数据网格
- 9.1.2 HTAP
- 9.1.3 零ETL
- 9.2 互操作性与新格式
- 9.2.1 UniForm
- 9.2.2 Apache XTable
- 9.2.3 即将推出的文件格式和表格式
- 9.3 公有云和私有云的托管平台
- 9.3.1 Microsoft Fabric和其他平台
- 9.3.2 私有云平台的托管湖仓架构
- 9.4 湖仓中的AI
- 9.5 关键要点
- 9.6 本书总结
- 9.7 参考
- 关于作者
- 关于封面
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。
