计算机
类型
可以朗读
语音朗读
167千字
字数
2018-01-01
发行日期
展开全部
主编推荐语
全面介绍Hadoop大数据技术,包含实训与课后习题。
内容简介
本书以任务为导向,较为全面地介绍了Hadoop大数据技术的相关知识。全书共6章,具体内容包括Hadoop介绍、Hadoop集群的搭建及配置、Hadoop基础操作、MapReduce入门编程、MapReduce高级编程、项目案例:电影网站用户性别预测。本书的每个章节都包含了实训与课后习题,通过练习和操作实践,帮助读者巩固所学的内容。
目录
- 封面
- 扉页
- 版权信息
- 目录
- 内容提要
- 大数据专业系列图书编写委员会
- 序
- 前言
- 第1章 Hadoop介绍
- 1.1 Hadoop概述
- 1.1.1 Hadoop简介
- 1.1.2 Hadoop的发展历史
- 1.1.3 Hadoop的特点
- 1.2 Hadoop核心
- 1.2.1 分布式文件系统——HDFS
- 1.2.2 分布式计算框架——MapReduce
- 1.2.3 集群资源管理器——YARN
- 1.3 Hadoop生态系统
- 1.4 Hadoop应用场景
- 小结
- 第2章 Hadoop集群的搭建及配置
- 任务2.1 安装及配置虚拟机
- 2.1.1 创建Linux虚拟机
- 2.1.2 设置固定IP
- 2.1.3 远程连接虚拟机
- 2.1.4 虚拟机在线安装软件
- 2.1.5 任务实现
- 任务2.2 安装Java
- 2.2.1 在Windows下安装Java
- 2.2.2 在Linux下安装Java
- 2.2.3 任务实现
- 任务2.3 搭建Hadoop完全分布式集群
- 2.3.1 修改配置文件
- 2.3.2 克隆虚拟机
- 2.3.3 配置SSH免密码登录
- 2.3.4 配置时间同步服务
- 2.3.5 启动关闭集群
- 2.3.6 监控集群
- 小结
- 实训
- 实训1 为Hadoop集群增加一个节点
- 实训2 编写Shell脚本同步集群时间
- 课后练习
- 第3章 Hadoop基础操作
- 任务3.1 查看Hadoop集群的基本信息
- 3.1.1 查询集群的存储系统信息
- 3.1.2 查询集群的计算资源信息
- 任务3.2 上传文件到HDFS目录
- 3.2.1 了解HDFS文件系统
- 3.2.2 掌握HDFS的基本操作
- 3.2.3 任务实现
- 任务3.3 运行首个MapReduce任务
- 3.3.1 了解Hadoop官方的示例程序包
- 3.3.2 提交MapReduce任务给集群运行
- 任务3.4 管理多个MapReduce任务
- 3.4.1 查询MapReduce任务
- 3.4.2 中断MapReduce任务
- 小结
- 实训
- 实训1 统计文件中所有单词的平均长度
- 实训2 查询与中断MapReduce任务
- 课后练习
- 第4章 MapReduce编程入门
- 任务4.1 使用Eclipse创建MapReduce工程
- 4.1.1 下载与安装Eclipse
- 4.1.2 配置MapReduce环境
- 4.1.3 新建MapReduce工程
- 任务4.2 通过源码初识MapReduce编程
- 4.2.1 通俗理解MapReduce原理
- 4.2.2 了解MR实现词频统计的执行流程
- 4.2.3 读懂官方提供的WordCount源码
- 任务4.3 编程实现按日期统计访问次数
- 4.3.1 分析思路与处理逻辑
- 4.3.2 编写核心模块代码
- 4.3.3 任务实现
- 任务4.4 编程实现按访问次数排序
- 4.4.1 分析思路与处理逻辑
- 4.4.2 编写核心模块代码
- 4.4.3 任务实现
- 小结
- 实训
- 实训1 获取成绩表的最高分记录
- 实训2 对两个文件中的数据进行合并与去重
- 课后练习
- 第5章 MapReduce进阶编程
- 任务5.1 筛选日志文件并生成序列化文件
- 5.1.1 MapReduce输入格式
- 5.1.2 MapReduce输出格式
- 5.1.3 任务实现
- 任务5.2 Hadoop Java API读取序列化日志文件
- 5.2.1 FileSystem API管理文件夹
- 5.2.2 FileSystem API操作文件
- 5.2.3 FileSystem API读写数据
- 5.2.4 任务实现
- 任务5.3 优化日志文件统计程序
- 5.3.1 自定义键值类型
- 5.3.2 初步探索Combiner
- 5.3.3 浅析Partitioner
- 5.3.4 自定义计数器
- 5.3.5 任务实现
- 任务5.4 Eclipse提交日志文件统计程序
- 5.4.1 传递参数
- 5.4.2 Hadoop辅助类ToolRunner
- 5.4.3 Eclipse自动打包并提交任务
- 小结
- 实训
- 实训1 统计全球每年的最高气温和最低气温
- 实训2 筛选气温在15~25℃之间的数据
- 课后练习
- 第6章 项目案例:电影网站用户性别预测
- 任务6.1 认识KNN算法
- 6.1.1 KNN算法简介
- 6.1.2 KNN算法原理及流程
- 任务6.2 数据预处理
- 6.2.1 获取数据
- 6.2.2 数据变换
- 6.2.3 数据清洗
- 6.2.4 划分数据集
- 任务6.3 实现用户性别分类
- 6.3.1 实现思路
- 6.3.2 代码实现
- 任务6.4 评价分类结果的准确性
- 6.4.1 评价思路
- 6.4.2 实现分类评价
- 6.4.3 寻找最优K值
- 小结
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。