计算机
类型
可以朗读
语音朗读
144千字
字数
2018-01-01
发行日期
展开全部
主编推荐语
华为ICT学院教材:深入浅出大数据概念与应用。
内容简介
华为ICT学院教材类书籍,以理实一体的方式向广大学生呈现,由浅入深介绍大数据的概念及应用,通过实验教材作为辅助,介绍大数据系统的安装和使用。循序渐进地帮助华为ICT学院大数据方向的学生掌握大数据技术的基本原理与应用场景,能够在面对真实的业务场景时,独立完成大数据平台的搭建、维护及故障的处理。
目录
- 封面
- 扉页
- 版权信息
- 目录
- 内容提要
- 序
- 前言
- 本书主要内容
- 配套资源
- 关于本书读者
- 本书作者
- 第1章 大数据概述
- 1.1 大数据的概念与价值
- 1.1.1 什么是大数据
- 1.1.2 大数据的来源
- 1.1.3 大数据有什么价值
- 1.1.4 如何挖掘企业大数据的价值
- 1.2 大数据的关键技术
- 1.2.1 大数据采集、预处理与存储管理
- 1.2.2 大数据分析与挖掘
- 1.2.3 数据可视化
- 1.3 大数据产业
- 1.3.1 数据提供
- 1.3.2 技术提供
- 1.3.3 服务提供
- 1.4 大数据应用场景
- 1.5 本章总结
- 第2章 Hadoop大数据处理平台
- 2.1 Hadoop平台概述
- 2.1.1 Hadoop简介
- 2.1.2 Hadoop的特性
- 2.1.3 Hadoop应用现状
- 2.1.4 Hadoop版本及相关平台
- 2.2 Hadoop生态系统
- 2.2.1 Hadoop存储系统(HDFS&HBase)
- 2.2.2 Hadoop计算框架(MapReduce&YARN)
- 2.2.3 Hadoop数据仓库(Hive)
- 2.2.4 Hadoop数据转换与日志处理(Sqoop&Flume)
- 2.2.5 Hadoop应用协调与工作流(ZooKeeper&Oozie)
- 2.2.6 大数据安全技术(Kerberos&LDAP)
- 2.2.7 大数据即时查询与搜索(Impala&Solr)
- 2.2.8 大数据消息订阅(Kafka)
- 2.3 Hadoop安装部署
- 2.3.1 Hadoop规划部署
- 2.3.2 Hadoop的安装方式
- 2.4 华为FusionInsight HD安装部署
- 2.4.1 FusionInsight HD简介
- 2.4.2 FusionInsight HD集成设计
- 2.4.3 FusionInsight HD安装部署
- 2.4.4 FusionInsight HD重要参数配置
- 2.5 本章总结
- 第3章 大数据存储技术(HDFS)
- 3.1 概述
- 3.1.1 分布式文件系统的概念与作用
- 3.1.2 HDFS概述
- 3.2 HDFS的相关概念
- 3.2.1 块
- 3.2.2 NameNode
- 3.2.3 Secondary NameNode
- 3.2.4 DataNode
- 3.3 HDFS体系架构与原理
- 3.3.1 HDFS体系架构
- 3.3.2 HDFS的高可用机制
- 3.3.3 HDFS的目录结构
- 3.3.4 HDFS的数据读写过程
- 3.4 HDFS接口及其在FusionInsight HD编程中的实践
- 3.4.1 HDFS常用Shell命令
- 3.4.2 HDFS的Web界面
- 3.4.3 HDFS的Java接口及应用实例
- 3.5 本章总结
- 第4章 大数据离线计算框架(MapReduce&YARN)
- 4.1 MapReduce技术原理
- 4.1.1 MapReduce概述
- 4.1.2 Map函数与Reduce函数
- 4.2 YARN技术原理
- 4.2.1 YARN的概述与应用
- 4.2.2 YARN的架构
- 4.2.3 MapReduce的计算过程
- 4.2.4 YARN的资源调度
- 4.3 FusionInsight HD中MapReduce的应用
- 4.3.1 WordCount实例分析
- 4.3.2 MapReduce编程实践
- 4.4 本章总结
- 第5章 大数据数据库(HBase)
- 5.1 HBase概述
- 5.1.1 HBase简介
- 5.1.2 HBase与关系型数据库的区别
- 5.1.3 HBase的应用场景
- 5.2 HBase的架构原理
- 5.2.1 HBase的数据模型
- 5.2.2 表和Region
- 5.2.3 HBase的系统架构与功能组件
- 5.2.4 HBase的读写流程
- 5.2.5 HBase的Compaction过程
- 5.3 FusionInsight HD中HBase的编程实践
- 5.3.1 FusionInsight HD中HBase的常用参数配置
- 5.3.2 HBase的常用Shell命令
- 5.3.3 HBase常用的Java API及应用实例
- 5.4 本章总结
- 第6章 大数据数据仓库(Hive)
- 6.1 Hive概述
- 6.1.1 Hive简介和应用
- 6.1.2 Hive的特性
- 6.1.3 Hive与传统数据仓库的区别
- 6.2 Hive的架构和数据存储
- 6.2.1 Hive的架构原理
- 6.2.2 Hive的数据存储模型
- 6.2.3 HiveQL编程
- 6.3 FusionInsight HD中Hive应用实践
- 6.3.1 FusionInsight HD中Hive的常用参数配置
- 6.3.2 加载数据到Hive
- 6.3.3 使用HiveQL进行数据分析
- 6.4 本章总结
- 第7章 大数据数据转换(Sqoop与Loader)
- 7.1 Sqoop概述
- 7.1.1 Sqoop简介与应用
- 7.1.2 Sqoop的功能与特性
- 7.1.3 Sqoop与传统ETL的区别
- 7.2 FusionInsight HD中Loader的应用实践
- 7.2.1 FusionInsight HD中Loader与Sqoop的对比
- 7.2.2 FusionInsight HD中Loader的参数配置
- 7.2.3 使用Loader进行数据转换
- 7.2.4 Loader的常用Shell命令
- 7.2.5 Loader应用实践
- 7.3 本章总结
- 第8章 大数据日志处理(Flume)
- 8.1 Flume概述
- 8.1.1 Flume简介与应用
- 8.1.2 Flume的功能与特性
- 8.1.3 Flume与其他主流开源日志收集系统的区别
- 8.2 FusionInsight HD中Flume的应用实践
- 8.2.1 FusionInsight HD中Flume的常用参数配置
- 8.2.2 Flume常用的Shell命令
- 8.2.3 Flume与Kafka结合进行日志处理
- 8.3 本章总结
- 第9章 大数据实时计算框架(Spark)
- 9.1 Spark概述
- 9.1.1 Spark的概述与应用
- 9.1.2 Scala语言介绍
- 9.1.3 Spark生态系统组件
- 9.1.4 Spark与Hadoop的对比
- 9.2 Spark技术架构
- 9.2.1 Spark的运行原理
- 9.2.2 RDD概念与原理
- 9.2.3 Spark的三种部署方式
- 9.2.4 使用开发工具测试Spark
- 9.3 FusionInsight HD中Spark应用实践
- 9.3.1 运行Spark Shell
- 9.3.2 进行Spark RDD操作
- 9.3.3 使用Spark客户端工具运行Spark程序
- 9.4 Spark Streaming
- 9.4.1 Spark Streaming的设计思想
- 9.4.2 Spark Streaming的应用实例
- 9.5 Spark SQL
- 9.5.1 Spark SQL的功能
- 9.5.2 FusionInsight HD中Spark SQL的应用实例
- 9.6 Spark MLlib
- 9.6.1 机器学习简介
- 9.6.2 Spark MLlib的功能
- 9.7 Spark GraphX
- 9.7.1 图计算简介
- 9.7.2 Spark GraphX功能简介
- 9.8 本章总结
- 第10章 大数据流计算
- 10.1 流计算概述
- 10.1.1 静态数据和流数据
- 10.1.2 流计算的概念
- 10.1.3 MapReduce和流计算
- 10.1.4 流计算框架
- 10.2 流计算的处理流程
- 10.2.1 数据实时采集
- 10.2.2 数据实时计算
- 10.2.3 数据实时查询
- 10.3 Streaming流计算
- 10.3.1 Streaming简介
- 10.3.2 Streaming的特点
- 10.3.3 Streaming在FusionInsight HD上的应用实践
- 10.3.4 Spark Streaming与Streaming的差异
- 10.4 本章总结
- 第11章 数据可视化
- 11.1 可视化概述
- 11.1.1 数据可视化简介
- 11.1.2 数据可视化的重要性
- 11.1.3 可视化的发展历程
- 11.1.4 数据可视化的过程
- 11.2 可视化工具
- 11.2.1 入门级工具(Excel)
- 11.2.2 普通工具(R语言)
- 11.2.3 高级工具(Tableau和QlikView)
- 11.3 可视化的典型应用
- 11.3.1 可视化在医学上的应用
- 11.3.2 可视化在工程中的应用
- 11.3.3 可视化在互联网的应用
- 11.4 本章总结
- 第12章 大数据行业应用
- 12.1 大数据在金融行业的应用
- 12.2 大数据在电信行业的应用
- 12.3 大数据在公安系统的应用
- 12.4 大数据在互联网行业的应用
- 12.5 本章总结
- 术语表
- 第1章 大数据概述
- 第2章 Hadoop大数据处理平台
- 第3章 大数据存储技术(HDFS)
- 第4章 大数据离线计算框架(MapReduce&YARN)
- 第5章 大数据数据库(HBase)
- 第6章 大数据数据仓库(Hive)
- 第7章 大数据数据转换(Sqoop与Loader)
- 第8章 大数据日志处理(Flume)
- 第9章 大数据实时计算框架(Spark)
- 第10章 大数据流计算
- 第11章 数据可视化
- 第12章 大数据行业应用
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。