互联网
类型
可以朗读
语音朗读
144千字
字数
2024-03-01
发行日期
展开全部
主编推荐语
系统介绍数据仓库Hive存储和初步处理方法的相关知识。
内容简介
本书条理清楚、重点突出,内容循序渐进、由浅入深。本书共8章,包括广电大数据用户画像需求分析、部署开发环境、广电用户数据存储、广电用户基本数据简单查询、广电用户账单与订单数据查询进阶、广电用户收视行为数据查询优化、广电用户数据清洗及数据导出,以及广电用户数据存储与处理的程序开发。
本书大部分章包含实训和课后习题,通过练习和操作实践,帮助读者巩固所学的内容。
目录
- 版权信息
- 内容提要
- 大数据技术精品系列教材专家委员会
- 序
- 前言
- 第1章 广电大数据用户画像需求分析
- 任务1.1 需求分析与架构
- 1.1.1 业务需求分析
- 1.1.2 大数据存储技术架构
- 任务1.2 认识Hive
- 1.2.1 Hive简介
- 1.2.2 Hive的架构
- 1.2.3 Hive设计特性
- 小结
- 课后习题
- 第2章 部署开发环境
- 任务2.1 安装部署Hadoop集群
- 2.1.1 VMware虚拟机安装和网络设置
- 2.1.2 部署CentOS
- 2.1.3 Hadoop集群部署前准备
- 2.1.4 Hadoop集群部署
- 任务2.2 安装部署Hive
- 2.2.1 安装配置MySQL
- 2.2.2 安装配置Hive
- 任务2.3 使用Hive CLI
- 2.3.1 启动Hive CLI
- 2.3.2 在Hive中执行Bash Shell和Hadoop dfs命令
- 2.3.3 在Shell中执行Hive查询
- 小结
- 课后习题
- 第3章 广电用户数据存储
- 任务3.1 创建业务数据表
- 3.1.1 操作Hive数据库
- 3.1.2 了解Hive数据类型
- 3.1.3 创建与管理Hive表
- 3.1.4 任务实现
- 任务3.2 将数据导入Hive表中
- 3.2.1 装载数据至Hive表中
- 3.2.2 任务实现
- 小结
- 实训 创建轮船乘客表并导入数据至表中
- 课后习题
- 第4章 广电用户基本数据简单查询
- 任务4.1 查询广电用户的用户编号及开户时间
- 4.1.1 SELECT语句
- 4.1.2 任务实现
- 任务4.2 查询指定用户状态的用户基本数据
- 4.2.1 使用WHERE关键字添加查询条件
- 4.2.2 使用WHERE关键字添加常见查询条件
- 4.2.3 任务实现
- 任务4.3 统计用户基本数据表中品牌名称的种类数
- 4.3.1 使用DISTINCT关键字去重查询
- 4.3.2 使用聚合函数
- 4.3.3 任务实现
- 任务4.4 统计不同用户等级名称的记录数
- 4.4.1 设置列别名
- 4.4.2 任务实现
- 任务4.5 统计不同用户状态的记录数
- 4.5.1 使用GROUP BY关键字分组查询
- 4.5.2 任务实现
- 任务4.6 统计指定用户数量范围的用户等级
- 4.6.1 使用HAVING关键字对分组结果进行筛选
- 4.6.2 任务实现
- 任务4.7 统计用户数最多的3种用户状态
- 4.7.1 使用LIMIT关键字设置查询结果展示
- 4.7.2 使用排序关键字对查询结果排序
- 4.7.3 任务实现
- 任务4.8 查询用户发生状态变更的时间及开户时间
- 4.8.1 使用正则表达式查询数据
- 4.8.2 任务实现
- 小结
- 实训 查询电商货品订单数据
- 课后习题
- 第5章 广电用户账单与订单数据查询进阶
- 任务5.1 统计订单的消费类型
- 5.1.1 介绍Hive内置函数
- 5.1.2 使用条件函数
- 5.1.3 使用类型转换函数
- 5.1.4 任务实现
- 任务5.2 统计用户每年消费应付总额
- 5.2.1 使用字符函数
- 5.2.2 任务实现
- 任务5.3 统计用户每月消费应付总额
- 5.3.1 使用日期函数
- 5.3.2 任务实现
- 任务5.4 统计用户每月实际账单金额
- 5.4.1 使用数学函数
- 5.4.2 任务实现
- 任务5.5 查询用户宽带订单的地址数据
- 5.5.1 使用JOIN语句
- 5.5.2 介绍UNION ALL关键字
- 5.5.3 任务实现
- 任务5.6 抽样统计用户订购产品情况
- 5.6.1 使用桶表抽样查询
- 5.6.2 任务实现
- 小结
- 实训
- 实训1 查询员工数据
- 实训2 查询学生数据
- 课后习题
- 第6章 广电用户收视行为数据查询优化
- 任务6.1 使用视图统计不同节目的用户观看人数
- 6.1.1 创建视图
- 6.1.2 查看与删除视图
- 6.1.3 任务实现
- 任务6.2 优化统计直播频道数
- 6.2.1 配置Fetch抓取
- 6.2.2 合理设置map和reduce任务数
- 6.2.3 配置并行执行
- 6.2.4 任务实现
- 任务6.3 使用子查询统计节目类型为直播的频道Top10
- 6.3.1 使用子查询优化查询语句
- 6.3.2 优化配置GROUP BY语句
- 6.3.3 使用GROUP BY代替COUNT(DISTINCT)去重统计
- 6.3.4 优化配置LIMIT语句
- 6.3.5 任务实现
- 小结
- 实训
- 实训1 统计某城市各线路公交车的刷卡次数
- 实训2 统计某百货商场会员总消费金额Top10
- 课后习题
- 第7章 广电用户数据清洗及数据导出
- 任务7.1 清洗无效用户数据
- 7.1.1 探索无效用户数据
- 7.1.2 删除无效用户数据
- 任务7.2 清洗无效收视行为数据
- 7.2.1 探索无效收视行为数据
- 7.2.2 删除无效收视行为数据
- 任务7.3 清洗无效账单和订单数据
- 7.3.1 探索无效账单数据
- 7.3.2 探索无效订单数据
- 7.3.3 删除无效账单和无效订单数据
- 任务7.4 导出处理结果至Linux本地和HDFS
- 7.4.1 使用INSERT OVERWRITE语句将数据导出至文件系统
- 7.4.2 保存处理结果至Linux本地和HDFS
- 小结
- 实训
- 实训1 删除无效房价数据
- 实训2 删除恶意好评手机数据并保存结果至Linux本地
- 课后习题
- 第8章 广电用户数据存储与处理的程序开发
- 任务8.1 配置Hive远程服务
- 任务8.2 搭建Hive远程连接环境
- 8.2.1 创建IDEA开发项目
- 8.2.2 添加依赖
- 8.2.3 手动加载MySQL驱动
- 8.2.4 JDBC及其主要接口
- 8.2.5 创建连接测试程序
- 任务8.3 编写程序实现广电数据的存储
- 8.3.1 创建开发项目
- 8.3.2 创建HiveHelper类和连接Hive
- 8.3.3 创建测试类
- 8.3.4 创建Hive数据库
- 8.3.5 创建Hive表
- 8.3.6 装载数据
- 8.3.7 程序运行与调试
- 任务8.4 编写程序实现广电数据的查询与处理
- 8.4.1 查询数据
- 8.4.2 删除无效用户数据
- 8.4.3 删除无效收视行为数据
- 8.4.4 删除无效账单和无效订单数据
- 小结
- 实训
- 实训1 对Hadoop日志进行统计分析
- 实训2 通过程序实现对某技术论坛日志的分析
- 课后习题
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。