计算机
类型
可以朗读
语音朗读
254千字
字数
2018-01-01
发行日期
展开全部
主编推荐语
HAWQ技术解析、实战演练与数据挖掘
内容简介
本书内容分技术解析、实战演练与数据挖掘三个部分。技术解析说明HAWQ的基础架构与功能特性。实战演练部分用一个完整的示例,说明如何使用HAWQ取代传统数据仓库,包括ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示等。数据挖掘部分用实例说明HAWQ与开源数据挖掘库Madlib整合,实现降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘方法。
目录
- 封面页
- 书名页
- 版权页
- 作者简介
- 内容简介
- 推荐序
- 前言
- 目录
- 第一部分 HAWQ技术解析
- 第1章 ◄HAWQ概述►
- 1.1 SQL-on-Hadoop
- 1.1.1 对SQL-on-Hadoop的期待
- 1.1.2 SQL-on-Hadoop的实现方式
- 1.2 HAWQ简介
- 1.2.1 历史与现状
- 1.2.2 功能特性
- 1.3 HAWQ系统架构
- 1.3.1 系统架构
- 1.3.2 内部架构
- 1.4 为什么选择HAWQ
- 1.4.1 常用SQL-on-Hadoop产品的不足
- 1.4.2 HAWQ的可行性
- 1.4.3 适合DBA的解决方案
- 1.5 小结
- 第2章 ◄HAWQ安装部署►
- 2.1 安装规划
- 2.1.1 选择安装介质
- 2.1.2 选择HAWQ版本
- 2.1.3 确认Ambari与HDP的版本兼容性
- 2.2 安装前准备
- 2.2.1 确认最小系统需求
- 2.2.2 准备系统安装环境
- 2.2.3 建立本地Repository
- 2.3 安装Ambari
- 2.4 安装HDP集群
- 2.5 安装HAWQ
- 2.6 启动与停止HAWQ
- 2.6.1 基本概念
- 2.6.2 操作环境
- 2.6.3 基本操作
- 2.7 小结
- 第3章 ◄连接管理►
- 3.1 配置客户端身份认证
- 3.2 管理角色与权限
- 3.2.1 HAWQ中的角色与权限
- 3.2.2 管理角色及其成员
- 3.2.3 管理对象权限
- 3.2.4 口令加密
- 3.3 psql连接HAWQ
- 3.4 Kettle连接HAWQ
- 3.5 连接常见问题
- 3.6 小结
- 第4章 ◄数据库对象管理►
- 4.1 创建和管理数据库
- 4.2 创建和管理表空间
- 4.3 创建和管理模式
- 4.4 创建和管理表
- 4.4.1 创建表
- 4.4.2 删除表
- 4.4.3 查看表对应的HDFS文件
- 4.5 创建和管理视图
- 4.6 管理其他对象
- 4.7 小结
- 第5章 ◄分区表►
- 5.1 HAWQ中的分区表
- 5.2 确定分区策略
- 5.3 创建分区表
- 5.3.1 范围分区与列表分区
- 5.3.2 多级分区
- 5.3.3 对已存在的非分区表进行分区
- 5.4 分区消除
- 5.5 分区表维护
- 5.6 小结
- 第6章 ◄存储管理►
- 6.1 数据存储选项
- 6.2 数据分布策略
- 6.2.1 数据分布策略概述
- 6.2.2 选择数据分布策略
- 6.2.3 数据分布用法
- 6.3 从已有的表创建新表
- 6.4 小结
- 第7章 ◄资源管理►
- 7.1 HAWQ资源管理概述
- 7.1.1 全局资源管理
- 7.1.2 HAWQ资源队列
- 7.1.3 资源管理器配置原则
- 7.2 配置独立资源管理器
- 7.3 整合YARN
- 7.4 管理资源队列
- 7.5 查询资源管理器状态
- 7.6 小结
- 第8章 ◄数据管理►
- 8.1 基本数据操作
- 8.2 数据装载与卸载
- 8.2.1 gpfdist协议及其外部表
- 8.2.2 基于Web的外部表
- 8.2.3 使用外部表装载数据
- 8.2.4 外部表错误处理
- 8.2.5 使用hawq load装载数据
- 8.2.6 使用COPY复制数据
- 8.2.7 卸载数据
- 8.2.8 hawq register
- 8.2.9 格式化数据文件
- 8.3 数据库统计
- 8.3.1 系统统计
- 8.3.2 统计配置
- 8.4 PXF
- 8.4.1 安装配置PXF
- 8.4.2 PXF profile
- 8.4.3 访问HDFS文件
- 8.4.4 访问Hive数据
- 8.4.5 访问JSON数据
- 8.4.6 向HDFS中写入数据
- 8.5 小结
- 第9章 ◄过程语言►
- 9.1 HAWQ内建SQL语言
- 9.2 PL/pgSQL函数
- 9.3 给HAWQ内部函数起别名
- 9.4 表函数
- 9.5 参数个数可变的函数
- 9.6 多态类型
- 9.7 UDF管理
- 9.8 UDF实例——递归树形遍历
- 9.9 小结
- 第10章 ◄查询优化►
- 10.1 HAWQ的查询处理流程
- 10.2 GPORCA查询优化器
- 10.2.1 GPORCA的改进
- 10.2.2 启用GPORCA
- 10.2.3 使用GPORCA需要考虑的问题
- 10.2.4 GPORCA的限制
- 10.3 性能优化
- 10.4 查询剖析
- 10.5 小结
- 第11章 ◄高可用性►
- 11.1 备份与恢复
- 11.1.1 备份方法
- 11.1.2 备份与恢复示例
- 11.2 高可用性
- 11.2.1 HAWQ高可用简介
- 11.2.2 Master节点镜像
- 11.2.3 HAWQ文件空间与HDFS高可用
- 11.2.4 HAWQ容错服务
- 11.3 小结
- 第二部分 HAWQ实战演练
- 第12章 ◄建立数据仓库示例模型►
- 12.1 业务场景
- 12.2 数据仓库架构
- 12.3 实验环境
- 12.4 HAWQ相关配置
- 12.5 创建示例数据库
- 12.5.1 在hdp4上的MySQL中创建源库对象并生成测试数据
- 12.5.2 创建目标库对象
- 12.5.3 装载日期维度数据
- 12.6 小结
- 第13章 ◄初始ETL►
- 13.1 用Sqoop初始数据抽取
- 13.1.1 覆盖导入
- 13.1.2 增量导入
- 13.1.3 建立初始抽取脚本
- 13.2 向HAWQ初始装载数据
- 13.2.1 数据源映射
- 13.2.2 确定SCD处理方法
- 13.2.3 实现代理键
- 13.2.4 建立初始装载脚本
- 13.3 建立初始ETL脚本
- 13.4 小结
- 第14章 ◄定期ETL►
- 14.1 变化数据捕获
- 14.2 创建维度表版本视图
- 14.3 创建时间戳表
- 14.4 用Sqoop定期数据抽取
- 14.5 建立定期装载HAWQ函数
- 14.6 建立定期ETL脚本
- 14.7 测试
- 14.7.1 准备测试数据
- 14.7.2 执行定期ETL脚本
- 14.7.3 确认ETL过程正确执行
- 14.8 动态分区滚动
- 14.9 准实时数据抽取
- 14.10 小结
- 第15章 ◄自动调度执行ETL作业►
- 15.1 Oozie简介
- 15.2 建立工作流前的准备
- 15.3 用Oozie建立定期ETL工作流
- 15.4 Falcon简介
- 15.5 用Falcon process调度Oozie工作流
- 15.6 小结
- 第16章 ◄维度表技术►
- 16.1 增加列
- 16.2 维度子集
- 16.3 角色扮演维度
- 16.4 层次维度
- 16.4.1 固定深度的层次
- 16.4.2 多路径层次
- 16.4.3 参差不齐的层次
- 16.5 退化维度
- 16.6 杂项维度
- 16.7 维度合并
- 16.8 分段维度
- 16.9 小结
- 第17章 ◄事实表技术►
- 17.1 周期快照
- 17.2 累积快照
- 17.3 无事实的事实表
- 17.4 迟到的事实
- 17.5 累积度量
- 17.6 小结
- 第18章 ◄联机分析处理►
- 18.1 联机分析处理简介
- 18.1.1 概念
- 18.1.2 分类
- 18.1.3 性能
- 18.2 联机分析处理实例
- 18.2.1 销售订单
- 18.2.2 行列转置
- 18.3 交互查询与图形化显示
- 18.3.1 Zeppelin简介
- 18.3.2 使用Zeppelin执行HAWQ查询
- 18.4 小结
- 第三部分 HAWQ数据挖掘
- 第19章 ◄整合HAWQ与MADlib►
- 19.1 MADlib简介
- 19.2 安装与卸载MADlib
- 19.3 MADlib基础
- 19.3.1 向量
- 19.3.2 矩阵
- 19.4 小结
- 第20章 ◄奇异值分解►
- 20.1 奇异值分解简介
- 20.2 MADlib奇异值分解函数
- 20.3 奇异值分解实现推荐算法
- 20.4 小结
- 第21章 ◄主成分分析►
- 21.1 主成分分析简介
- 21.2 MADlib的PCA相关函数
- 21.3 PCA应用示例
- 21.4 小结
- 第22章 ◄关联规则方法►
- 22.1 关联规则简介
- 22.2 Apriori算法
- 22.2.1 Apriori算法基本思想
- 22.2.2 Apriori算法步骤
- 22.3 MADlib的Apriori算法函数
- 22.4 Apriori应用示例
- 22.5 小结
- 第23章 ◄聚类方法►
- 23.1 聚类方法简介
- 23.2 k-means方法
- 23.2.1 基本思想
- 23.2.2 原理与步骤
- 23.2.3 k-means算法
- 23.3 MADlib的k-means相关函数
- 23.4 k-means应用示例
- 23.5 小结
- 第24章 ◄回归方法►
- 24.1 回归方法简介
- 24.2 Logistic回归
- 24.3 MADlib的Logistic回归相关函数
- 24.4 Logistic回归示例
- 24.5 小结
- 第25章 ◄分类方法►
- 25.1 分类方法简介
- 25.2 决策树
- 25.2.1 决策树的基本概念
- 25.2.2 决策树的构建步骤
- 25.3 MADlib的决策树相关函数
- 25.4 决策树示例
- 25.5 小结
- 第26章 ◄图算法►
- 26.1 图算法简介
- 26.2 单源最短路径
- 26.3 MADlib的单源最短路径相关函数
- 26.4 单源最短路径示例
- 26.5 小结
- 第27章 ◄模型验证►
- 27.1 交叉验证简介
- 27.2 MADlib的交叉验证相关函数
- 27.3 交叉验证示例
- 27.4 小结
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。