展开全部

主编推荐语

权威教材《云计算》和《大数据》的实践动手篇。

内容简介

本书涵盖大数据专业经典的40个实验,每一个实验给出具体的目的、要求、原理,并给出详细的实验步骤和试验程序。具体包括HDFS实验、YARN实验、MapReduce实验、Hive实验、Spark实验、ZooKeeper实验、HBase实验、Storm实验等等。

目录

  • 版权信息
  • 内容简介
  • 编写组
  • 总序
  • 前言
  • 实验一 大数据实验一体机基础操作
  • 1.1 实验目的
  • 1.2 实验要求
  • 1.3 实验原理
  • 1.3.1 大数据实验一体机
  • 1.3.2 Linux基本命令
  • 1.3.3 vi编辑器
  • 1.3.4 SSH免密认证
  • 1.3.5 Java基本命令
  • 1.3.6 Eclipse集成开发环境
  • 1.4 实验步骤
  • 1.4.1 搭建集群服务器
  • 1.4.2 使用SSH工具登录每台服务器
  • 1.4.3 添加域名映射
  • 1.4.4 配置SSH免密登录
  • 1.4.5 在client服务器开发Java Helloworld程序
  • 1.4.6 使用Eclipse开发Java Helloworld程序
  • 实验二 HDFS实验:部署HDFS
  • 2.1 实验目的
  • 2.2 实验要求
  • 2.3 实验原理
  • 2.3.1 分布式文件系统
  • 2.3.2 HDFS
  • 2.3.3 HDFS基本命令
  • 2.3.4 HDFS适用场景
  • 2.4 实验步骤
  • 2.4.1 在master服务器上确定存在Hadoop安装目录
  • 2.4.2 确认集群服务器之间可SSH免密登录
  • 2.4.3 修改HDFS配置文件
  • 2.4.4 启动HDFS
  • 2.4.5 通过查看进程的方式验证HDFS启动成功
  • 2.4.6 使用client上传文件
  • 实验三 HDFS实验:读写HDFS文件
  • 3.1 实验目的
  • 3.2 实验要求
  • 3.3 实验原理
  • 3.3.1 Java Classpath
  • 3.3.2 Eclipse Hadoop插件
  • 3.4 实验步骤
  • 3.4.1 配置client服务器classpath
  • 3.4.2 在client服务器编写HDFS写程序
  • 3.4.3 编译并打包HDFS写程序
  • 3.4.4 执行HDFS写程序
  • 3.4.5 在client服务器编写HDFS读程序
  • 3.4.6 编译并打包HDFS读程序
  • 3.4.7 执行HDFS读程序
  • 3.4.8 安装与配置Eclipse Hadoop插件
  • 3.4.9 使用Eclipse开发并打包HDFS写文件程序
  • 3.4.10 上传HDFS写文件程序jar包并执行
  • 3.4.11 使用Eclipse开发并打包HDFS读文件程序
  • 3.4.12 上传HDFS读文件程序jar包并执行
  • 实验四 YARN实验:部署YARN集群
  • 4.1 实验目的
  • 4.2 实验要求
  • 4.3 实验原理
  • 4.3.1 YARN概述
  • 4.3.2 YARN运行流程
  • 4.4 实验步骤
  • 4.4.1 在master机上配置YARN
  • 4.4.2 统一启动YARN
  • 4.4.3 验证YARN启动成功
  • 4.4.4 在client机上提交DistributedShell任务
  • 4.4.5 在client机上提交MapReduce型任务
  • 4.5 实验结果
  • 实验五 MapReduce实验:单词计数
  • 5.1 实验目的
  • 5.2 实验要求
  • 5.3 实验原理
  • 5.3.1 MapReduce编程
  • 5.3.2 Java API解析
  • 5.4 实验步骤
  • 5.4.1 启动Hadoop
  • 5.4.2 验证HDFS上没有WordCount的文件夹
  • 5.4.3 上传数据文件到HDFS
  • 5.4.4 编写MapReduce程序
  • 5.4.5 使用Eclipse开发工具将该代码打包
  • 5.5 实验结果
  • 5.5.1 程序运行成功控制台上的显示内容
  • 5.5.2 在HDFS上查看结果
  • 实验六 MapReduce实验:二次排序
  • 6.1 实验目的
  • 6.2 实验要求
  • 6.3 实验原理
  • 6.4 实验步骤
  • 6.4.1 编写程序
  • 6.4.2 打包提交
  • 6.5 实验结果
  • 6.5.1 输入数据
  • 6.5.2 执行结果
  • 实验七 MapReduce实验:计数器
  • 7.1 实验目的
  • 7.2 实验要求
  • 7.3 实验背景
  • 7.3.1 MapReduce计数器是什么?
  • 7.3.2 MapReduce计数器能做什么?
  • 7.3.3 内置计数器
  • 7.3.4 计数器使用
  • 7.3.5 自定义计数器
  • 7.4 实验步骤
  • 7.4.1 实验分析设计
  • 7.4.2 编写程序
  • 7.4.3 打包并提交
  • 7.5 实验结果
  • 7.5.1 输入数据
  • 7.5.2 输出显示
  • 实验八 MapReduce实验:Join操作
  • 8.1 实验目的
  • 8.2 实验要求
  • 8.3 实验背景
  • 8.3.1 概述
  • 8.3.2 原理
  • 8.4 实验步骤
  • 8.4.1 准备阶段
  • 8.4.2 编写程序
  • 8.4.3 打包并提交
  • 8.5 实验结果
  • 8.5.1 输入数据
  • 8.5.2 输出显示
  • 实验九 MapReduce实验:分布式缓存
  • 9.1 实验目的
  • 9.2 实验要求
  • 9.3 实验步骤
  • 9.3.1 准备数据
  • 9.3.2 上传数据
  • 9.3.3 编写代码
  • 9.3.4 执行代码
  • 9.3.5 查看结果
  • 9.4 实验结果
  • 实验十 Hive实验:部署Hive
  • 10.1 实验目的
  • 10.2 实验要求
  • 10.3 实验原理
  • 10.4 实验步骤
  • 10.4.1 安装部署
  • 10.4.2 配置HDFS
  • 10.4.3 启动Hive
  • 10.5 实验结果
  • 10.5.1 启动结果
  • 10.5.2 Hive基本命令
  • 实验十一 Hive实验:新建Hive表
  • 11.1 实验目的
  • 11.2 实验要求
  • 11.3 实验原理
  • 11.4 实验步骤
  • 11.4.1 启动Hive
  • 11.4.2 创建表
  • 11.4.3 显示表
  • 11.4.4 显示表列
  • 11.4.5 更改表
  • 11.4.6 删除表(或列)
  • 11.5 实验结果
  • 实验十二 Hive实验:Hive分区
  • 12.1 实验目的
  • 12.2 实验要求
  • 12.3 实验原理
  • 12.4 实验步骤
  • 12.4.1 启动Hadoop集群
  • 12.4.2 用命令进入Hive客户端
  • 12.4.3 通过HQL语句进行实验
  • 12.5 实验结果
  • 实验十三 Spark实验:部署Spark集群
  • 13.1 实验目的
  • 13.2 实验要求
  • 13.3 实验原理
  • 13.3.1 Spark简介
  • 13.3.2 Spark适用场景
  • 13.4 实验步骤
  • 13.4.1 配置Spark集群
  • 13.4.2 配置HDFS
  • 13.4.3 提交Spark任务
  • 13.5 实验结果
  • 13.5.1 进程查看
  • 13.5.2 验证WebUI
  • 13.5.3 SparkWordcount程序执行
  • 实验十四 Spark实验:SparkWordCount
  • 14.1 实验目的
  • 14.2 实验要求
  • 14.3 实验原理
  • 14.3.1 Scala是兼容的
  • 14.3.2 Scala是简洁的
  • 14.3.3 Scala是高级的
  • 14.3.4 Scala是静态类型的
  • 14.4 实验步骤
  • 14.5 实验结果
  • 实验十五 Spark实验:RDD综合实验
  • 15.1 实验目的
  • 15.2 实验要求
  • 15.3 实验原理
  • 15.4 实验步骤
  • 15.4.1 distinct 去除RDD内的重复数据
  • 15.4.2 foreach 遍历RDD内的数据
  • 15.4.3 first取得RDD中的第一个数据
  • 15.4.4 max 取得RDD中的最大的数据
  • 15.4.5 intersection 返回两个RDD重叠的数据
  • 15.5 实验结果
  • 实验十六 Spark实验:Spark综例
  • 16.1 实验目的
  • 16.2 实验要求
  • 16.3 实验原理
  • 16.3.1 Scala
  • 16.3.2 Spark-shell
  • 16.4 实验步骤
  • 16.4.1 启动Spark-shell
  • 16.4.2 编写并执行Scala代码
  • 16.4.3 退出Spark-shell
  • 16.4.4 查看执行结果
  • 实验十七 Spark实验:Spark SQL
  • 17.1 实验目的
  • 17.2 实验要求
  • 17.3 实验原理
  • 17.4 实验步骤
  • 17.5 实验结果
  • 实验十八 Spark实验:Spark Streaming
  • 18.1 实验目的
  • 18.2 实验要求
  • 18.3 实验原理
  • 18.3.1 Spark Streaming架构
  • 18.3.2 Spark Streaming编程模型
  • 18.3.3 Spark Streaming典型案例
  • 18.4 实验步骤
  • 18.5 实验结果
  • 实验十九 Spark实验:GraphX
  • 19.1 实验目的
  • 19.2 实验要求
  • 19.3 实验原理
  • 19.4 实验步骤
  • 19.4.1 在Intellij IDEA 中安装Scala的插件
  • 19.4.2 新建Scala Module
  • 19.4.3 添加maven依赖
  • 19.4.4 新建Scala程序
  • 19.4.5 程序运行
  • 19.5 实验结果
  • 实验二十 部署ZooKeeper
  • 20.1 实验目的
  • 20.2 实验要求
  • 20.3 实验原理
  • 20.4 实验步骤
  • 20.4.1 安装JDK
  • 20.4.2 修改ZooKeeper配置文件
  • 20.4.3 启动ZooKeeper集群
  • 20.5 实验结果
  • 实验二十一 ZooKeeper进程协作
  • 21.1 实验目的
  • 21.2 实验要求
  • 21.3 实验原理
  • 21.4 实验步骤
  • 21.4.1 启动ZooKeeper集群
  • 21.4.2 导入jar包
  • 21.4.3 编写Java代码
  • 21.4.4 做成jar包
  • 21.5 实验结果
  • 实验二十二 部署HBase
  • 22.1 实验目的
  • 22.2 实验要求
  • 22.3 实验原理
  • 22.4 实验步骤
  • 22.5 实验结果
  • 实验二十三 新建HBase表
  • 23.1 实验目的
  • 23.2 实验要求
  • 23.3 实验原理
  • 23.4 实验步骤
  • 23.5 实验结果
  • 实验二十四 部署Storm
  • 24.1 实验目的
  • 24.2 实验要求
  • 24.3 实验原理
  • 24.4 实验步骤
  • 24.5 实验结果
  • 实验二十五 实时WordCountTopology
  • 25.1 实验目的
  • 25.2 实验要求
  • 25.3 实验原理
  • 25.3.1 Topologies
  • 25.3.2 Spouts
  • 25.3.3 Bolts
  • 25.4 实验步骤
  • 25.5 实验结果
  • 实验二十六 文件数据Flume至HDFS
  • 26.1 实验目的
  • 26.2 实验要求
  • 26.3 实验原理
  • 26.3.1 Flume的特点
  • 26.3.2 Flume的可靠性
  • 26.4 实验步骤
  • 26.5 实验结果
  • 实验二十七 Kafka订阅推送示例
  • 27.1 实验目的
  • 27.2 实验要求
  • 27.3 实验原理
  • 27.3.1 Kafka简介
  • 27.3.2 Kafka使用场景
  • 27.4 实验步骤
  • 27.4.1 安装ZooKeeper集群
  • 27.4.2 安装Kafka集群
  • 27.4.3 验证消息推送
  • 27.5 实验结果
  • 实验二十八 Pig版WordCount
  • 28.1 实验目的
  • 28.2 实验要求
  • 28.3 实验原理
  • 28.4 实验步骤
  • 28.5 实验结果
  • 实验二十九 Redis部署与简单使用
  • 29.1 实验目的
  • 29.2 实验要求
  • 29.3 实验原理
  • 29.3.1 CentOS 简介
  • 29.3.2 CentOS与RHEL关系
  • 29.3.3 make简介
  • 29.3.4 Redis简介
  • 29.4 实验步骤
  • 29.4.1 安装配置启动
  • 29.4.2 使用Redis
  • 29.5 实验结果
  • 实验三十 MapReduce与Spark读写Redis
  • 30.1 实验目的
  • 30.2 实验要求
  • 30.3 实验原理
  • 30.4 实验步骤
  • 30.4.1 MapReduce读取Redis
  • 30.4.2 Spark读取Redis
  • 30.5 实验结果
  • 30.5.1 MapReduce读取Redis实验
  • 30.5.2 Spark读取Redis实验
  • 实验三十一 MongoDB实验:读写MongoDB
  • 31.1 实验目的
  • 31.2 实验要求
  • 31.3 实验原理
  • 31.4 实验步骤
  • 31.4.1 启动MongoDB
  • 31.4.2 连接使用MongoDB
  • 31.4.3 连接启动MongoDB的Shell,执行一些简单命令
  • 31.5 实验结果
  • 实验三十二 LevelDB实验:读写LevelDB
  • 32.1 实验目的
  • 32.2 实验要求
  • 32.3 实验原理
  • 32.4 实验步骤
  • 32.4.1 使用C++代码建立数据库连接
  • 32.4.2 写入数据
  • 32.4.3 读取数据
  • 32.4.4 删除数据
  • 32.4.5 关闭连接
  • 32.4.6 完整的代码
  • 32.5 实验结果
  • 实验三十三 Mahout实验:K-Means
  • 33.1 实验目的
  • 33.2 实验要求
  • 33.3 实验原理
  • 33.3.1 Mahout简介
  • 33.3.2 Mahout发展
  • 33.3.3 Mahout特性
  • 33.3.4 K-Means算法概要
  • 33.3.5 K-Means算法存在的问题
  • 33.3.6 K-Means算法优点
  • 33.3.7 K-Means算法缺点
  • 33.3.8 K-Means算法应用
  • 33.4 实验步骤
  • 33.4.1 添加临时JAVA_HOME环境变量
  • 33.4.2 建立HDFS目录
  • 33.4.3 实验数据准备
  • 33.4.4 提交Mahout的K-Means程序
  • 33.5 实验结果
  • 实验三十四 使用Spark实现K-Means
  • 34.1 实验目的
  • 34.2 实验要求
  • 34.3 实验原理
  • 34.4 实验步骤
  • 34.4.1 添加临时JAVA_HOME环境变量
  • 34.4.2 上传训练数据集
  • 34.4.3 训练SVM模型
  • 34.5 实验结果
  • 实验三十五 使用Spark实现SVM
  • 35.1 实验目的
  • 35.2 实验要求
  • 35.3 实验原理
  • 35.3.1 SVM算法介绍
  • 35.3.2 SVM算法原理
  • 35.4 实验步骤
  • 35.4.1 添加临时JAVA_HOME环境变量
  • 35.4.2 上传训练数据集
  • 35.4.3 训练SVM模型
  • 35.5 实验结果
  • 实验三十六 使用Spark实现FP-Growth
  • 36.1 实验目的
  • 36.2 实验要求
  • 36.3 实验原理
  • 36.3.1 FP-Growth算法简介
  • 36.3.2 FP-Growth算法流程
  • 36.4 实验步骤
  • 36.4.1 添加临时JAVA_HOME环境变量
  • 36.4.2 上传训练数据集
  • 36.4.3 训练SVM模型
  • 36.5 实验结果
  • 实验三十七 综合实战:车牌识别
  • 37.1 实验目的
  • 37.2 实验要求
  • 37.3 实验步骤
  • 37.3.1 编写程序
  • 37.3.2 环境准备
  • 37.3.3 打包提交
  • 37.4 实验结果
  • 37.4.1 输入数据
  • 37.4.2 执行结果
  • 实验三十八 综合实战:搜索引擎
  • 38.1 实验目的
  • 38.2 实验要求
  • 38.3 实验步骤
  • 38.3.1 新建Java项目
  • 38.3.2 新建JavaWeb项目
  • 38.3.3 网页扒取
  • 38.3.4 建立关键词索引
  • 38.3.5 关键词搜索
  • 38.4 实验结果
  • 实验三十九 综合实战:推荐系统
  • 39.1 实验目的
  • 39.2 实验要求
  • 39.3 实验步骤
  • 39.3.1 试验原理概述
  • 39.3.2 数据集准备
  • 39.3.3 代码实现
  • 39.4 实验结果
  • 实验四十 综合实战:环境大数据
  • 40.1 实验目的
  • 40.2 实验要求
  • 40.3 实验原理
  • 40.4 实验步骤
  • 40.4.1 分析数据文件
  • 40.4.2 将数据文件上传至HDFS
  • 40.4.3 编写月平均气温统计程序
  • 40.4.4 查看月平均气温统计结果
  • 40.4.5 编写每日空气质量统计程序
  • 40.4.6 查看每日空气质量统计结果
  • 40.4.7 将每日空气质量统计文件进行整合
  • 40.4.8 编写各空气质量天数统计程序
  • 40.4.9 查看各空气质量天数统计结果
  • 实验四十一 综合实战:智能硬件大数据托管
  • 41.1 实验目的
  • 41.2 实验要求
  • 41.3 实验原理
  • 41.4 实验步骤
  • 41.4.1 万物云平台相关注册
  • 41.4.2 建表——用于存储智能硬件的数据
  • 41.4.3 智能硬件接入平台
  • 41.4.4 数据上传
  • 41.4.5 数据查询
  • 41.4.6 简单的数据分析
  • 41.5 实验结果
  • 实验四十二 综合实战:贷款风险评估
  • 42.1 实验目的
  • 42.2 实验要求
  • 42.3 实验原理
  • 42.3.1 分类过程及评估指标
  • 42.3.2 spark-submit使用详解
  • 42.4 实验相关
  • 42.4.1 实验环境
  • 42.4.2 实验数据
  • 42.4.3 实验步骤
  • 42.5 实验结果
展开全部

评分及书评

评分不足
2个评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。