展开全部

主编推荐语

全面介绍Hadoop大数据技术,包含实训与课后习题。

内容简介

本书以任务为导向,较为全面地介绍了Hadoop大数据技术的相关知识。全书共6章,具体内容包括Hadoop介绍、Hadoop集群的搭建及配置、Hadoop基础操作、MapReduce入门编程、MapReduce高级编程、项目案例:电影网站用户性别预测。本书的每个章节都包含了实训与课后习题,通过练习和操作实践,帮助读者巩固所学的内容。

目录

  • 封面
  • 扉页
  • 版权信息
  • 目录
  • 内容提要
  • 大数据专业系列图书编写委员会
  • 前言
  • 第1章 Hadoop介绍
  • 1.1 Hadoop概述
  • 1.1.1 Hadoop简介
  • 1.1.2 Hadoop的发展历史
  • 1.1.3 Hadoop的特点
  • 1.2 Hadoop核心
  • 1.2.1 分布式文件系统——HDFS
  • 1.2.2 分布式计算框架——MapReduce
  • 1.2.3 集群资源管理器——YARN
  • 1.3 Hadoop生态系统
  • 1.4 Hadoop应用场景
  • 小结
  • 第2章 Hadoop集群的搭建及配置
  • 任务2.1 安装及配置虚拟机
  • 2.1.1 创建Linux虚拟机
  • 2.1.2 设置固定IP
  • 2.1.3 远程连接虚拟机
  • 2.1.4 虚拟机在线安装软件
  • 2.1.5 任务实现
  • 任务2.2 安装Java
  • 2.2.1 在Windows下安装Java
  • 2.2.2 在Linux下安装Java
  • 2.2.3 任务实现
  • 任务2.3 搭建Hadoop完全分布式集群
  • 2.3.1 修改配置文件
  • 2.3.2 克隆虚拟机
  • 2.3.3 配置SSH免密码登录
  • 2.3.4 配置时间同步服务
  • 2.3.5 启动关闭集群
  • 2.3.6 监控集群
  • 小结
  • 实训
  • 实训1 为Hadoop集群增加一个节点
  • 实训2 编写Shell脚本同步集群时间
  • 课后练习
  • 第3章 Hadoop基础操作
  • 任务3.1 查看Hadoop集群的基本信息
  • 3.1.1 查询集群的存储系统信息
  • 3.1.2 查询集群的计算资源信息
  • 任务3.2 上传文件到HDFS目录
  • 3.2.1 了解HDFS文件系统
  • 3.2.2 掌握HDFS的基本操作
  • 3.2.3 任务实现
  • 任务3.3 运行首个MapReduce任务
  • 3.3.1 了解Hadoop官方的示例程序包
  • 3.3.2 提交MapReduce任务给集群运行
  • 任务3.4 管理多个MapReduce任务
  • 3.4.1 查询MapReduce任务
  • 3.4.2 中断MapReduce任务
  • 小结
  • 实训
  • 实训1 统计文件中所有单词的平均长度
  • 实训2 查询与中断MapReduce任务
  • 课后练习
  • 第4章 MapReduce编程入门
  • 任务4.1 使用Eclipse创建MapReduce工程
  • 4.1.1 下载与安装Eclipse
  • 4.1.2 配置MapReduce环境
  • 4.1.3 新建MapReduce工程
  • 任务4.2 通过源码初识MapReduce编程
  • 4.2.1 通俗理解MapReduce原理
  • 4.2.2 了解MR实现词频统计的执行流程
  • 4.2.3 读懂官方提供的WordCount源码
  • 任务4.3 编程实现按日期统计访问次数
  • 4.3.1 分析思路与处理逻辑
  • 4.3.2 编写核心模块代码
  • 4.3.3 任务实现
  • 任务4.4 编程实现按访问次数排序
  • 4.4.1 分析思路与处理逻辑
  • 4.4.2 编写核心模块代码
  • 4.4.3 任务实现
  • 小结
  • 实训
  • 实训1 获取成绩表的最高分记录
  • 实训2 对两个文件中的数据进行合并与去重
  • 课后练习
  • 第5章 MapReduce进阶编程
  • 任务5.1 筛选日志文件并生成序列化文件
  • 5.1.1 MapReduce输入格式
  • 5.1.2 MapReduce输出格式
  • 5.1.3 任务实现
  • 任务5.2 Hadoop Java API读取序列化日志文件
  • 5.2.1 FileSystem API管理文件夹
  • 5.2.2 FileSystem API操作文件
  • 5.2.3 FileSystem API读写数据
  • 5.2.4 任务实现
  • 任务5.3 优化日志文件统计程序
  • 5.3.1 自定义键值类型
  • 5.3.2 初步探索Combiner
  • 5.3.3 浅析Partitioner
  • 5.3.4 自定义计数器
  • 5.3.5 任务实现
  • 任务5.4 Eclipse提交日志文件统计程序
  • 5.4.1 传递参数
  • 5.4.2 Hadoop辅助类ToolRunner
  • 5.4.3 Eclipse自动打包并提交任务
  • 小结
  • 实训
  • 实训1 统计全球每年的最高气温和最低气温
  • 实训2 筛选气温在15~25℃之间的数据
  • 课后练习
  • 第6章 项目案例:电影网站用户性别预测
  • 任务6.1 认识KNN算法
  • 6.1.1 KNN算法简介
  • 6.1.2 KNN算法原理及流程
  • 任务6.2 数据预处理
  • 6.2.1 获取数据
  • 6.2.2 数据变换
  • 6.2.3 数据清洗
  • 6.2.4 划分数据集
  • 任务6.3 实现用户性别分类
  • 6.3.1 实现思路
  • 6.3.2 代码实现
  • 任务6.4 评价分类结果的准确性
  • 6.4.1 评价思路
  • 6.4.2 实现分类评价
  • 6.4.3 寻找最优K值
  • 小结
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。