展开全部

主编推荐语

全面介绍数据仓库搭建过程,适合对大数据感兴趣的读者阅读。

内容简介

本书按照需求规划、需求实现、需求可视化的流程进行编排,遵循项目开发的实际流程,全面介绍了数据仓库的搭建过程。在整个数据仓库的搭建过程中,本书介绍了主要组件的安装部署过程、需求实现的具体思路、部分问题的解决方案等,并在其中穿插了许多与大数据和数据仓库相关的理论知识,包括大数据概论、数据仓库概论、电商业务概述、数据仓库理论准备、数据仓库建模等。本书从逻辑上可以分为三部分:第一部分是大数据与数据仓库概论及项目需求描述,主要介绍了数据仓库的概念、应用场景和搭建需求;第二部分是项目部署的环境准备,介绍了如何从零开始搭建一个完整的数据仓库环境;第三部分是需求模块实现,针对不同需求分模块进行实现,是本书的重点部分。本书适合具有一定的编程基础并对大数据感兴趣的读者阅读。通过阅读本书,读者可以快速了解数据仓库,全面掌握数据仓库的相关技术。

目录

  • 封面
  • 版权信息
  • 内容简介
  • 前言
  • 关于我们
  • 第1章 大数据与数据仓库概论
  • 1.1 大数据概论
  • 1.1.1 什么是大数据
  • 1.1.2 大数据生态圈简介
  • 1.1.3 大数据应用场景
  • 1.2 数据仓库概论
  • 1.2.1 什么是数据仓库
  • 1.2.2 数据仓库能干什么
  • 1.2.3 数据仓库的特点
  • 1.3 学前导读
  • 1.3.1 学习的基础要求
  • 1.3.2 你将学到什么
  • 1.4 本章总结
  • 第2章 项目需求描述
  • 2.1 任务概述
  • 2.1.1 产品描述
  • 2.1.2 系统目标
  • 2.1.3 系统功能结构
  • 2.1.4 系统流程图
  • 2.2 业务描述
  • 2.2.1 采集模块业务描述
  • 2.2.2 数据仓库需求业务描述
  • 2.2.3 数据可视化业务描述
  • 2.3 系统运行环境
  • 2.3.1 硬件环境
  • 2.3.2 软件环境
  • 2.4 本章总结
  • 第3章 项目部署的环境准备
  • 3.1 Linux环境准备
  • 3.1.1 VMware安装
  • 3.1.2 CentOS安装
  • 3.1.3 远程终端安装
  • 3.2 Linux环境配置
  • 3.2.1 网络配置
  • 3.2.2 网络IP地址配置
  • 3.2.3 主机名配置
  • 3.2.4 防火墙配置
  • 3.2.5 一般用户设置
  • 3.3 Hadoop环境搭建
  • 3.3.1 虚拟机环境准备
  • 3.3.2 JDK安装
  • 3.3.3 Hadoop安装
  • 3.3.4 Hadoop分布式集群部署
  • 3.3.5 配置Hadoop支持LZO压缩
  • 3.3.6 配置Hadoop支持Snappy压缩
  • 3.4 本章总结
  • 第4章 用户行为数据采集模块
  • 4.1 日志生成
  • 4.2 采集日志的Flume
  • 4.2.1 Flume组件
  • 4.2.2 Flume安装
  • 4.2.3 采集日志Flume配置
  • 4.2.4 Flume的ETL拦截器和日志类型区分拦截器
  • 4.2.5 采集日志Flume启动、停止脚本
  • 4.3 消息队列Kafka
  • 4.3.1 Zookeeper安装
  • 4.3.2 Zookeeper集群启动、停止脚本
  • 4.3.3 Kafka安装
  • 4.3.4 Kafka集群启动、停止脚本
  • 4.3.5 Kafka Topic相关操作
  • 4.4 消费Kafka日志的Flume
  • 4.4.1 消费日志Flume配置
  • 4.4.2 消费日志Flume启动、停止脚本
  • 4.5 采集通道启动、停止脚本
  • 4.6 本章总结
  • 第5章 业务数据采集模块
  • 5.1 电商业务概述
  • 5.1.1 电商业务流程
  • 5.1.2 电商常识
  • 5.1.3 电商表结构
  • 5.1.4 数据同步策略
  • 5.2 业务数据采集
  • 5.2.1 MySQL安装
  • 5.2.2 业务数据生成
  • 5.2.3 业务数据建模
  • 5.2.4 Sqoop安装
  • 5.2.5 业务数据导入数据仓库
  • 5.3 本章总结
  • 第6章 数据仓库搭建模块
  • 6.1 数据仓库理论准备
  • 6.1.1 范式理论
  • 6.1.2 关系模型与维度模型
  • 6.1.3 星形模型、雪花模型与星座模型
  • 6.1.4 表的分类
  • 6.1.5 为什么要分层
  • 6.1.6 数据仓库建模
  • 6.1.7 业务术语
  • 6.2 数据仓库搭建环境准备
  • 6.2.1 MySQL HA
  • 6.2.2 Hive安装
  • 6.2.3 Tez引擎安装
  • 6.3 数据仓库搭建——ODS层
  • 6.3.1 创建数据库
  • 6.3.2 用户行为数据
  • 6.3.3 ODS层用户行为数据导入脚本
  • 6.3.4 业务数据
  • 6.3.5 ODS层业务数据导入脚本
  • 6.4 数据仓库搭建——DWD层
  • 6.4.1 用户行为启动日志表解析
  • 6.4.2 用户行为事件表拆分
  • 6.4.3 用户行为事件表解析
  • 6.4.4 业务数据维度表解析
  • 6.4.5 业务数据事实表解析
  • 6.4.6 拉链表构建之用户维度表
  • 6.4.7 DWD层数据导入脚本
  • 6.5 数据仓库搭建——DWS层
  • 6.5.1 系统函数
  • 6.5.2 用户行为数据聚合
  • 6.5.3 业务数据聚合
  • 6.5.4 DWS层数据导入脚本
  • 6.6 数据仓库搭建——DWT层
  • 6.6.1 设备主题宽表
  • 6.6.2 会员主题宽表
  • 6.6.3 商品主题宽表
  • 6.6.4 优惠券主题宽表
  • 6.6.5 活动主题宽表
  • 6.6.6 DWT层数据导入脚本
  • 6.7 数据仓库搭建——ADS层
  • 6.7.1 设备主题
  • 6.7.2 会员主题
  • 6.7.3 商品主题
  • 6.7.4 营销主题
  • 6.7.5 ADS层数据导入脚本
  • 6.8 结果数据导出脚本
  • 6.9 会员主题指标获取的全调度流程
  • 6.9.1 Azkaban安装
  • 6.9.2 创建可视化的MySQL数据库和表
  • 6.9.3 编写指标获取调度流程
  • 6.10 本章总结
  • 第7章 数据可视化模块
  • 7.1 模拟可视化数据
  • 7.1.1 会员主题
  • 7.1.2 地区主题
  • 7.2 Superset部署
  • 7.2.1 环境准备
  • 7.2.2 Superset安装
  • 7.3 Superset使用
  • 7.3.1 对接MySQL数据源
  • 7.3.2 制作仪表盘
  • 7.4 本章总结
  • 第8章 即席查询模块
  • 8.1 Presto
  • 8.1.1 Presto特点
  • 8.1.2 Presto安装
  • 8.1.3 Presto优化之数据存储
  • 8.1.4 Presto优化之查询SQL
  • 8.1.5 Presto注意事项
  • 8.2 Druid
  • 8.2.1 Druid简介
  • 8.2.2 Druid框架原理
  • 8.2.3 Druid数据结构
  • 8.2.4 Druid安装(单机版)
  • 8.3 Kylin
  • 8.3.1 Kylin简介
  • 8.3.2 HBase安装
  • 8.3.3 Kylin安装
  • 8.3.4 Kylin使用
  • 8.3.5 Kylin Cube构建原理
  • 8.3.6 Kylin Cube构建优化
  • 8.3.7 Kylin BI工具集成
  • 8.4 即席查询框架对比
  • 8.5 本章总结
  • 第9章 元数据管理模块
  • 9.1 Atlas入门
  • 9.1.1 Atlas概述
  • 9.1.2 Atlas架构原理
  • 9.2 Atlas安装及使用
  • 9.2.1 安装前环境准备
  • 9.2.2 集成外部框架
  • 9.2.3 集群启动
  • 9.2.4 导入Hive元数据到Atlas
  • 9.3 Atlas界面查看及使用
  • 9.3.1 查看基本信息
  • 9.3.2 查看血缘依赖关系
  • 9.4 本章总结
  • 封底
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。