展开全部

主编推荐语

全面掌握大数据技术及实践

内容简介

本书系统、全面地介绍了大数据技术的基础知识,期望学生通过对本书的学习和实践了解大数据技术的概貌,掌握Hadoop生态圈大数据技术中最为基础和关键的知识。主要内容包括大数据概述、大数据软件技术基础、大数据存储技术、MapReduce分布式编程、数据采集与预处理、数据仓库与联机分析技术、数据挖掘与分析技术、Spark分布式内存计算框架、数据可视化技术、大数据安全。

目录

  • 封面
  • 扉页
  • 版权信息
  • 目录
  • 内容提要
  • 编委会
  • 丛书序一
  • 丛书序二
  • 前言
  • 第1章 大数据概述
  • 1.1 大数据的相关概念
  • 1.2 大数据处理的基础技术
  • 1.2.1 大数据处理流程
  • 1.2.2 分布式计算
  • 1.2.3 分布式文件系统
  • 1.2.4 分布式数据库
  • 1.2.5 数据库与数据仓库
  • 1.2.6 云计算与虚拟化技术
  • 1.2.7 虚拟化产品介绍
  • 1.3 流行的大数据技术
  • 1.4 大数据解决方案
  • 1.5 大数据发展现状和趋势
  • 1.5.1 大数据现状分析
  • 1.5.2 大数据发展趋势
  • 1.6 教学建议及教辅资料
  • 习题
  • 第2章 大数据软件基础
  • 2.1 Linux基础
  • 2.1.1 Linux简介
  • 2.1.2 Linux基本操作
  • 2.1.3 网络配置管理
  • 2.1.4 其他常用网络命令
  • 2.2 Java基础
  • 2.2.1 面向对象与泛型
  • 2.2.2 集合类
  • 2.2.3 内部类与匿名类
  • 2.2.4 反射
  • 2.3 SQL语言基础
  • 2.4 在VirtualBox上安装Linux集群
  • 2.4.1 master节点的安装
  • 2.4.2 配置Virtualbox网络及虚拟机网卡
  • 2.4.3 slave节点的安装与配置
  • 2.4.4 Java环境的安装
  • 2.4.5 MySQL服务
  • 2.4.6 SSH免密钥登录
  • 2.4.7 配置时钟同步
  • 习题
  • 第3章 大数据存储技术
  • 3.1 理解HDFS分布式文件系统
  • 3.1.1 HDFS简介
  • 3.1.2 HDFS的体系结构
  • 3.1.3 HDFS中的数据流
  • 3.2 NoSQL数据库
  • 3.2.1 键值数据库Redis
  • 3.2.2 列存储数据库HBase
  • 3.2.3 文档数据库MongoDB
  • 3.2.4 图数据库Neo4j
  • 3.3 Hadoop的安装与配置
  • 3.3.1 Hadoop的配置部署
  • 3.3.2 启动Hadoop集群
  • 3.4 HDFS文件管理
  • 3.4.1 命令行访问HDFS
  • 3.4.2 使用Java API访问HDFS
  • 3.5 HBase的安装与配置
  • 3.5.1 解压并安装HBase
  • 3.5.2 配置HBase
  • 3.6 HBase的使用
  • 3.6.1 HBase-shell
  • 3.6.2 Java API
  • 习题
  • 第4章 MapReduce分布式编程
  • 4.1 MapReduce编程概述
  • 4.2 MapReduce编程示例
  • 4.2.1 词频统计程序示例
  • 4.2.2 MapReduce编译与运行
  • 4.3 深入理解MapReduce程序的运行过程
  • 4.4 MapReduce任务调度框架
  • 4.4.1 经典MapReduce任务调度模型
  • 4.4.2 YARN框架原理及运行机制
  • 4.5 MapReduce的数据类型与输入/输出格式
  • 4.5.1 MapReduce的数据类型
  • 4.5.2 MapReduce的文件输入/输出格式
  • 4.6 MapReduce编程实例
  • 4.6.1 视频类型统计
  • 4.6.2 查询TOP10用户上传的视频列表
  • 习题
  • 第5章 数据采集与预处理
  • 5.1 流数据采集工具Flume
  • 5.1.1 Flume的安装
  • 5.1.2 Flume的配置与运行
  • 5.1.3 Flume源
  • 5.1.4 Flume槽
  • 5.1.5 通道、拦截器与处理器
  • 5.2 数据传输工具Sqoop
  • 5.2.1 Sqoop的安装
  • 5.2.2 Sqoop的配置与运行
  • 5.2.3 Sqoop实例
  • 5.2.4 Sqoop导入过程
  • 5.2.5 Sqoop导出过程
  • 5.3 数据接入工具Kafka
  • 5.3.1 Kafka的安装与配置
  • 5.3.2 Kafka消息生产者
  • 5.3.3 Kafka消息消费者
  • 5.3.4 Kafka核心特性
  • 习题
  • 第6章 数据仓库与联机分析处理
  • 6.1 数据仓库
  • 6.1.1 数据仓库的概念
  • 6.1.2 数据仓库与操作性数据库的区别
  • 6.1.3 数据仓库的体系结构
  • 6.2 多维数据模型
  • 6.2.1 数据立方体
  • 6.2.2 数据模型
  • 6.2.3 多维数据模型中的OLAP操作
  • 6.3 Hive
  • 6.3.1 Hive简介
  • 6.3.2 Hive的安装与配置
  • 6.3.3 Hive使用
  • 6.3.4 Hive导入数据实例
  • 6.4 Kylin
  • 6.4.1 Kylin简介
  • 6.4.2 Kylin的安装与配置
  • 6.4.3 Kylin的使用
  • 6.5 Superset
  • 6.5.1 Superset简介
  • 6.5.2 Superset的安装与配置
  • 6.5.3 Superset的使用
  • 习题
  • 第7章 大数据分析与挖掘技术
  • 7.1 概述
  • 7.1.1 数据挖掘简介
  • 7.1.2 Mahout的安装与配置
  • 7.2 推荐
  • 7.2.1 推荐的定义与评估
  • 7.2.2 Mahout中的常见推荐算法
  • 7.2.3 对GroupLens数据集进行推荐与评价
  • 7.3 聚类
  • 7.3.1 聚类的基本概念
  • 7.3.2 常见的Mahout数据结构
  • 7.3.3 几种聚类算法
  • 7.3.4 聚类应用实例
  • 7.4 分类
  • 7.4.1 分类的基本概念
  • 7.4.2 Mahout中一些常见的训练分类器算法
  • 7.4.3 应用实例:使用SGD训练分类器对新闻分类
  • 习题
  • 第8章 Spark分布式内存计算框架
  • 8.1 Spark简介
  • 8.2 Spark的编程模型
  • 8.2.1 核心数据结构RDD
  • 8.2.2 RDD上的操作
  • 8.2.3 RDD的持久化
  • 8.2.4 RDD计算工作流
  • 8.3 Spark的调度机制
  • 8.3.1 Spark分布式架构
  • 8.3.2 Spark应用执行流程
  • 8.3.3 Spark调度与任务分配
  • 8.4 Spark应用案例
  • 8.4.1 Spark Shell
  • 8.4.2 单词计数
  • 8.4.3 统计用户的视频上传数
  • 8.4.4 查询Top100用户的上传视频列表
  • 8.5 Spark生态圈其他技术
  • 8.5.1 Spark SQL
  • 8.5.2 Spark Streaming
  • 8.5.3 MLlib
  • 8.5.4 GraphX
  • 8.6 Zeppelin:交互式分析Spark数据
  • 8.6.1 Zeppelin简介
  • 8.6.2 安装和启动
  • 8.6.3 在Zeppelin中处理YouTube数据
  • 习题
  • 第9章 数据可视化技术
  • 9.1 数据可视化概述
  • 9.2 数据可视化工具
  • 9.2.1 桌面可视化技术
  • 9.2.2 OLAP可视化工具
  • 9.2.3 Web可视化技术
  • 9.3 可视化组件与ECharts示例
  • 9.3.1 ECharts使用准备
  • 9.3.2 ECharts示例
  • 9.4 与大数据平台集成
  • 9.4.1 获取对Hive数据库的连接
  • 9.4.2 通过Java调用Hive提供的API操作数据
  • 9.4.3 将数据提交到Web页面进行数据可视化
  • 习题
  • 第10章 大数据安全
  • 10.1 大数据安全的挑战与对策
  • 10.1.1 大数据安全与隐私的挑战
  • 10.1.2 数据加密技术
  • 10.1.3 大数据安全保障体系
  • 10.1.4 华为大数据安全解决方案
  • 10.2 基础设施安全
  • 10.2.1 认证技术
  • 10.2.2 访问控制
  • 10.2.3 公钥基础设施
  • 10.2.4 华为大数据平台
  • 10.3 数据管理安全
  • 10.3.1 数据溯源
  • 10.3.2 数字水印
  • 10.3.3 策略管理
  • 10.3.4 完整性保护
  • 10.3.5 数据脱敏
  • 10.4 安全分析
  • 10.4.1 大数据安全分析架构
  • 10.4.2 大数据防DDoS攻击
  • 10.4.3 攻击可视化与安全业务定制
  • 10.5 隐私保护
  • 10.5.1 隐私保护面临的挑战
  • 10.5.2 内容关联密钥
  • 10.5.3 华为大数据隐私保护方案
  • 习题
  • 附录 《大数据技术基础》配套实验课程方案简介
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。