展开全部

主编推荐语

系统介绍数据仓库Hive存储和初步处理方法的相关知识。

内容简介

本书条理清楚、重点突出,内容循序渐进、由浅入深。本书共8章,包括广电大数据用户画像需求分析、部署开发环境、广电用户数据存储、广电用户基本数据简单查询、广电用户账单与订单数据查询进阶、广电用户收视行为数据查询优化、广电用户数据清洗及数据导出,以及广电用户数据存储与处理的程序开发。

本书大部分章包含实训和课后习题,通过练习和操作实践,帮助读者巩固所学的内容。

目录

  • 版权信息
  • 内容提要
  • 大数据技术精品系列教材专家委员会
  • 前言
  • 第1章 广电大数据用户画像需求分析
  • 任务1.1 需求分析与架构
  • 1.1.1 业务需求分析
  • 1.1.2 大数据存储技术架构
  • 任务1.2 认识Hive
  • 1.2.1 Hive简介
  • 1.2.2 Hive的架构
  • 1.2.3 Hive设计特性
  • 小结
  • 课后习题
  • 第2章 部署开发环境
  • 任务2.1 安装部署Hadoop集群
  • 2.1.1 VMware虚拟机安装和网络设置
  • 2.1.2 部署CentOS
  • 2.1.3 Hadoop集群部署前准备
  • 2.1.4 Hadoop集群部署
  • 任务2.2 安装部署Hive
  • 2.2.1 安装配置MySQL
  • 2.2.2 安装配置Hive
  • 任务2.3 使用Hive CLI
  • 2.3.1 启动Hive CLI
  • 2.3.2 在Hive中执行Bash Shell和Hadoop dfs命令
  • 2.3.3 在Shell中执行Hive查询
  • 小结
  • 课后习题
  • 第3章 广电用户数据存储
  • 任务3.1 创建业务数据表
  • 3.1.1 操作Hive数据库
  • 3.1.2 了解Hive数据类型
  • 3.1.3 创建与管理Hive表
  • 3.1.4 任务实现
  • 任务3.2 将数据导入Hive表中
  • 3.2.1 装载数据至Hive表中
  • 3.2.2 任务实现
  • 小结
  • 实训 创建轮船乘客表并导入数据至表中
  • 课后习题
  • 第4章 广电用户基本数据简单查询
  • 任务4.1 查询广电用户的用户编号及开户时间
  • 4.1.1 SELECT语句
  • 4.1.2 任务实现
  • 任务4.2 查询指定用户状态的用户基本数据
  • 4.2.1 使用WHERE关键字添加查询条件
  • 4.2.2 使用WHERE关键字添加常见查询条件
  • 4.2.3 任务实现
  • 任务4.3 统计用户基本数据表中品牌名称的种类数
  • 4.3.1 使用DISTINCT关键字去重查询
  • 4.3.2 使用聚合函数
  • 4.3.3 任务实现
  • 任务4.4 统计不同用户等级名称的记录数
  • 4.4.1 设置列别名
  • 4.4.2 任务实现
  • 任务4.5 统计不同用户状态的记录数
  • 4.5.1 使用GROUP BY关键字分组查询
  • 4.5.2 任务实现
  • 任务4.6 统计指定用户数量范围的用户等级
  • 4.6.1 使用HAVING关键字对分组结果进行筛选
  • 4.6.2 任务实现
  • 任务4.7 统计用户数最多的3种用户状态
  • 4.7.1 使用LIMIT关键字设置查询结果展示
  • 4.7.2 使用排序关键字对查询结果排序
  • 4.7.3 任务实现
  • 任务4.8 查询用户发生状态变更的时间及开户时间
  • 4.8.1 使用正则表达式查询数据
  • 4.8.2 任务实现
  • 小结
  • 实训 查询电商货品订单数据
  • 课后习题
  • 第5章 广电用户账单与订单数据查询进阶
  • 任务5.1 统计订单的消费类型
  • 5.1.1 介绍Hive内置函数
  • 5.1.2 使用条件函数
  • 5.1.3 使用类型转换函数
  • 5.1.4 任务实现
  • 任务5.2 统计用户每年消费应付总额
  • 5.2.1 使用字符函数
  • 5.2.2 任务实现
  • 任务5.3 统计用户每月消费应付总额
  • 5.3.1 使用日期函数
  • 5.3.2 任务实现
  • 任务5.4 统计用户每月实际账单金额
  • 5.4.1 使用数学函数
  • 5.4.2 任务实现
  • 任务5.5 查询用户宽带订单的地址数据
  • 5.5.1 使用JOIN语句
  • 5.5.2 介绍UNION ALL关键字
  • 5.5.3 任务实现
  • 任务5.6 抽样统计用户订购产品情况
  • 5.6.1 使用桶表抽样查询
  • 5.6.2 任务实现
  • 小结
  • 实训
  • 实训1 查询员工数据
  • 实训2 查询学生数据
  • 课后习题
  • 第6章 广电用户收视行为数据查询优化
  • 任务6.1 使用视图统计不同节目的用户观看人数
  • 6.1.1 创建视图
  • 6.1.2 查看与删除视图
  • 6.1.3 任务实现
  • 任务6.2 优化统计直播频道数
  • 6.2.1 配置Fetch抓取
  • 6.2.2 合理设置map和reduce任务数
  • 6.2.3 配置并行执行
  • 6.2.4 任务实现
  • 任务6.3 使用子查询统计节目类型为直播的频道Top10
  • 6.3.1 使用子查询优化查询语句
  • 6.3.2 优化配置GROUP BY语句
  • 6.3.3 使用GROUP BY代替COUNT(DISTINCT)去重统计
  • 6.3.4 优化配置LIMIT语句
  • 6.3.5 任务实现
  • 小结
  • 实训
  • 实训1 统计某城市各线路公交车的刷卡次数
  • 实训2 统计某百货商场会员总消费金额Top10
  • 课后习题
  • 第7章 广电用户数据清洗及数据导出
  • 任务7.1 清洗无效用户数据
  • 7.1.1 探索无效用户数据
  • 7.1.2 删除无效用户数据
  • 任务7.2 清洗无效收视行为数据
  • 7.2.1 探索无效收视行为数据
  • 7.2.2 删除无效收视行为数据
  • 任务7.3 清洗无效账单和订单数据
  • 7.3.1 探索无效账单数据
  • 7.3.2 探索无效订单数据
  • 7.3.3 删除无效账单和无效订单数据
  • 任务7.4 导出处理结果至Linux本地和HDFS
  • 7.4.1 使用INSERT OVERWRITE语句将数据导出至文件系统
  • 7.4.2 保存处理结果至Linux本地和HDFS
  • 小结
  • 实训
  • 实训1 删除无效房价数据
  • 实训2 删除恶意好评手机数据并保存结果至Linux本地
  • 课后习题
  • 第8章 广电用户数据存储与处理的程序开发
  • 任务8.1 配置Hive远程服务
  • 任务8.2 搭建Hive远程连接环境
  • 8.2.1 创建IDEA开发项目
  • 8.2.2 添加依赖
  • 8.2.3 手动加载MySQL驱动
  • 8.2.4 JDBC及其主要接口
  • 8.2.5 创建连接测试程序
  • 任务8.3 编写程序实现广电数据的存储
  • 8.3.1 创建开发项目
  • 8.3.2 创建HiveHelper类和连接Hive
  • 8.3.3 创建测试类
  • 8.3.4 创建Hive数据库
  • 8.3.5 创建Hive表
  • 8.3.6 装载数据
  • 8.3.7 程序运行与调试
  • 任务8.4 编写程序实现广电数据的查询与处理
  • 8.4.1 查询数据
  • 8.4.2 删除无效用户数据
  • 8.4.3 删除无效收视行为数据
  • 8.4.4 删除无效账单和无效订单数据
  • 小结
  • 实训
  • 实训1 对Hadoop日志进行统计分析
  • 实训2 通过程序实现对某技术论坛日志的分析
  • 课后习题
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。