互联网
                       类型
                        可以朗读
                       语音朗读
                        148千字
                       字数
                        2024-05-01
                       发行日期
                    展开全部
                    
主编推荐语
Hive常用知识点及新版本、新特性一网打尽。
内容简介
Hive是大数据领域的一个重要开发工具。本书基于Hive3.1.3版本进行编写,首先,简单介绍了Hive的起源和发展,以及Hive的安装和部署;其次,分别介绍了Hive的数据定义语言、数据操作语言、查询语言,以及各种函数,其中穿插安排了大量的综合案例练习;再次,讲解了分区表和分桶表,以及文件的压缩;最后,重点讲解了Hive在使用不同执行引擎时的企业级性能调优手段。
目录
- 版权信息
 - 内容简介
 - 前言
 - 第1章 Hive入门
 - 1.1 什么是Hadoop
 - 1.2 什么是Hive
 - 1.3 Hive的架构
 - 1.4 学前导读
 - 1.4.1 学习的基本要求
 - 1.4.2 环境准备
 - 1.5 本章总结
 - 第2章 Hive的安装部署
 - 2.1 Hive的安装
 - 2.1.1 Hive初体验
 - 2.1.2 MySQL的安装和元数据配置
 - 2.1.3 Hive的服务部署
 - 2.2 Hive的使用技巧
 - 2.2.1 常用交互命令
 - 2.2.2 参数配置方式
 - 2.2.3 常见属性配置
 - 2.3 本章总结
 - 第3章 数据定义语言
 - 3.1 数据库的定义
 - 3.2 表的定义
 - 3.2.1 创建表
 - 3.2.2 表的其他定义语言
 - 3.3 本章总结
 - 第4章 数据操作语言
 - 4.1 数据加载
 - 4.2 数据插入
 - 4.2.1 将查询结果插入表中
 - 4.2.2 将给定values插入表中
 - 4.2.3 将查询结果写入目标路径
 - 4.3 数据的导出和导入
 - 4.4 本章总结
 - 第5章 查询
 - 5.1 数据准备
 - 5.2 基本查询
 - 5.2.1 select子句——全表和特定列查询
 - 5.2.2 列别名
 - 5.2.3 limit子句
 - 5.2.4 order by子句
 - 5.2.5 where子句
 - 5.2.6 关系运算符
 - 5.2.7 逻辑运算符
 - 5.2.8 算术运算符
 - 5.3 分组聚合
 - 5.3.1 聚合函数
 - 5.3.2 group by子句
 - 5.3.3 having子句
 - 5.4 join连接
 - 5.4.1 join连接语法的简介与表别名
 - 5.4.2 数据准备
 - 5.4.3 连接分类
 - 5.4.4 多表连接
 - 5.4.5 笛卡儿积连接
 - 5.4.6 join连接与MapReduce程序
 - 5.4.7 联合(union&union all)
 - 5.5 本章总结
 - 第6章 综合案例练习之基础查询
 - 6.1 环境准备
 - 6.2 简单查询练习
 - 6.3 汇总与分组练习
 - 6.3.1 汇总练习
 - 6.3.2 分组练习
 - 6.3.3 对分组结果进行条件查询
 - 6.3.4 查询结果排序和分组指定条件
 - 6.4 复杂查询练习
 - 6.5 多表查询练习
 - 6.5.1 表连接
 - 6.5.2 多表连接
 - 6.6 本章总结
 - 第7章 初级函数
 - 7.1 函数简介
 - 7.2 单行函数
 - 7.2.1 数值函数
 - 7.2.2 字符串函数
 - 7.2.3 日期函数
 - 7.2.4 流程控制函数
 - 7.2.5 集合函数
 - 7.2.6 案例演示
 - 7.3 高级聚合函数
 - 7.4 本章总结
 - 第8章 综合案例练习之初级函数
 - 8.1 环境准备
 - 8.1.1 用户信息表
 - 8.1.2 商品信息表
 - 8.1.3 商品品类信息表
 - 8.1.4 订单信息表
 - 8.1.5 订单明细表
 - 8.1.6 用户登录明细表
 - 8.1.7 商品价格变更明细表
 - 8.1.8 配送信息表
 - 8.1.9 好友关系表
 - 8.1.10 收藏信息表
 - 8.2 初级函数练习
 - 8.2.1 筛选2021年总销量低于100件的商品
 - 8.2.2 查询每日新增用户数
 - 8.2.3 用户注册、登录、下单综合统计
 - 8.2.4 向用户推荐好友收藏的商品
 - 8.2.5 男性和女性用户每日订单总金额统计
 - 8.2.6 购买过商品1和商品2但没有购买过商品3的用户统计
 - 8.2.7 每日商品1和商品2的销量差值统计
 - 8.2.8 根据商品销售情况进行商品分类
 - 8.2.9 查询有新增用户的日期的新增用户数和新增用户1日留存率
 - 8.2.10 登录次数及交易次数统计
 - 8.2.11 统计每个商品各年度销售总金额
 - 8.2.12 某周内每个商品的每日销售情况
 - 8.2.13 形成同期商品售卖分析表
 - 8.2.14 国庆节期间每个商品的总收藏量和总购买量统计
 - 8.2.15 国庆节期间各品类商品的7日动销率和滞销率
 - 8.3 本章总结
 - 第9章 高级函数
 - 9.1 表生成函数
 - 9.1.1 常用的UDTF
 - 9.1.2 案例演示
 - 9.2 窗口函数
 - 9.2.1 语法讲解
 - 9.2.2 常用窗口函数
 - 9.2.3 案例演示
 - 9.3 用户自定义函数
 - 9.3.1 概述
 - 9.3.2 自定义UDF函数案例
 - 9.4 本章总结
 - 第10章 综合案例练习之高级函数
 - 10.1 高级函数练习题
 - 10.1.1 查询各品类销售商品的种类数及销量最高的商品
 - 10.1.2 查询首次下单后第二日连续下单的用户比率
 - 10.1.3 每件商品销售首年的年份、销售数量和销售总金额
 - 10.1.4 查询所有用户连续登录2日及以上的日期区间
 - 10.1.5 订单金额趋势分析
 - 10.1.6 查询每名用户登录日期的最大空档期
 - 10.1.7 查询同一时间多地登录的用户
 - 10.1.8 销售总金额完成任务指标的商品
 - 10.1.9 各品类中商品价格的中位数
 - 10.1.10 求商品连续售卖的时间区间
 - 10.1.11 根据活跃间隔对用户进行分级的结果统计
 - 10.2 面试真题
 - 10.2.1 同时在线人数问题
 - 10.2.2 会话划分问题
 - 10.2.3 间断连续登录用户问题
 - 10.2.4 日期交叉问题
 - 10.3 本章总结
 - 第11章 分区表和分桶表
 - 11.1 分区表
 - 11.1.1 分区表基本语法
 - 11.1.2 二级分区表
 - 11.1.3 动态分区
 - 11.2 分桶表
 - 11.2.1 分桶表基本语法
 - 11.2.2 分桶排序表
 - 11.3 本章总结
 - 第12章 文件格式和压缩
 - 12.1 文件格式
 - 12.1.1 Text Flile
 - 12.1.2 ORC
 - 12.1.3 Parquet
 - 12.2 压缩
 - 12.2.1 压缩算法概述
 - 12.2.2 Hive表数据进行压缩
 - 12.2.3 计算过程中使用压缩
 - 12.3 本章总结
 - 第13章 MapReduce引擎下的企业级性能调优
 - 13.1 测试数据准备
 - 13.1.1 订单表(2000万条数据)
 - 13.1.2 支付表(600万条数据)
 - 13.1.3 商品信息表(100万条数据)
 - 13.1.4 省(区、市)信息表(34条数据)
 - 13.2 计算资源配置调优
 - 13.2.1 YARN资源配置调优
 - 13.2.2 MapReduce资源配置调优
 - 13.3 使用explain命令查看执行计划
 - 13.3.1 基本语法
 - 13.3.2 案例实操
 - 13.3.3 执行计划分析
 - 13.4 分组聚合
 - 13.4.1 优化说明
 - 13.4.2 优化案例
 - 13.5 Join优化
 - 13.5.1 Join算法概述
 - 13.5.2 Map Join
 - 13.5.3 Bucket Map Join
 - 13.5.4 Sort Merge Bucket Map Join
 - 13.6 数据倾斜
 - 13.6.1 数据倾斜概述
 - 13.6.2 分组聚合导致的数据倾斜
 - 13.6.3 join连接导致的数据倾斜
 - 13.7 任务并行度
 - 13.7.1 优化说明
 - 13.7.2 优化案例
 - 13.8 小文件合并
 - 13.8.1 优化说明
 - 13.8.2 优化案例
 - 13.9 其他性能优化手段
 - 13.9.1 CBO优化
 - 13.9.2 谓词下推
 - 13.9.3 矢量化查询
 - 13.9.4 Fetch抓取
 - 13.9.5 本地模式
 - 13.9.6 并行执行
 - 13.9.7 严格模式
 - 13.10 本章总结
 - 第14章 Hive On Tez的企业级性能调优
 - 14.1 初识Hive On Tez
 - 14.1.1 Tez概述
 - 14.1.2 Hive On Tez部署
 - 14.2 计算资源配置
 - 14.3 执行计划与统计信息
 - 14.3.1 执行计划
 - 14.3.2 统计信息
 - 14.4 任务并行度
 - 14.4.1 优化说明
 - 14.4.2 Reducer并行度优化案例
 - 14.5 分组聚合
 - 14.6 Join
 - 14.6.1 Join算法
 - 14.6.2 Hive On Tez中Join算法的实现
 - 14.6.3 Hive On Tez中Join算法的选择策略
 - 14.6.4 优化案例
 - 14.7 小文件合并
 - 14.7.1 优化说明
 - 14.7.2 优化案例
 - 14.8 数据倾斜
 - 14.9 本章总结
 - 第15章 Hive On Spark的企业级性能调优
 - 15.1 Hive On Spark概述
 - 15.1.1 什么是Spark
 - 15.1.2 Spark的基本架构
 - 15.1.3 Hive On Spark的安装部署
 - 15.2 Spark资源配置
 - 15.2.1 Excutor配置说明
 - 15.2.2 Driver配置说明
 - 15.2.3 Spark配置实操
 - 15.3 使用explain命令查看执行计划
 - 15.4 分组聚合优化
 - 15.5 Join优化
 - 15.6 数据倾斜优化
 - 15.7 计算引擎总结
 - 15.8 本章总结
 
                        展开全部
                        
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。
