展开全部

主编推荐语

华为ICT学院教材:深入浅出大数据概念与应用。

内容简介

华为ICT学院教材类书籍,以理实一体的方式向广大学生呈现,由浅入深介绍大数据的概念及应用,通过实验教材作为辅助,介绍大数据系统的安装和使用。循序渐进地帮助华为ICT学院大数据方向的学生掌握大数据技术的基本原理与应用场景,能够在面对真实的业务场景时,独立完成大数据平台的搭建、维护及故障的处理。

目录

  • 封面
  • 扉页
  • 版权信息
  • 目录
  • 内容提要
  • 前言
  • 本书主要内容
  • 配套资源
  • 关于本书读者
  • 本书作者
  • 第1章 大数据概述
  • 1.1 大数据的概念与价值
  • 1.1.1 什么是大数据
  • 1.1.2 大数据的来源
  • 1.1.3 大数据有什么价值
  • 1.1.4 如何挖掘企业大数据的价值
  • 1.2 大数据的关键技术
  • 1.2.1 大数据采集、预处理与存储管理
  • 1.2.2 大数据分析与挖掘
  • 1.2.3 数据可视化
  • 1.3 大数据产业
  • 1.3.1 数据提供
  • 1.3.2 技术提供
  • 1.3.3 服务提供
  • 1.4 大数据应用场景
  • 1.5 本章总结
  • 第2章 Hadoop大数据处理平台
  • 2.1 Hadoop平台概述
  • 2.1.1 Hadoop简介
  • 2.1.2 Hadoop的特性
  • 2.1.3 Hadoop应用现状
  • 2.1.4 Hadoop版本及相关平台
  • 2.2 Hadoop生态系统
  • 2.2.1 Hadoop存储系统(HDFS&HBase)
  • 2.2.2 Hadoop计算框架(MapReduce&YARN)
  • 2.2.3 Hadoop数据仓库(Hive)
  • 2.2.4 Hadoop数据转换与日志处理(Sqoop&Flume)
  • 2.2.5 Hadoop应用协调与工作流(ZooKeeper&Oozie)
  • 2.2.6 大数据安全技术(Kerberos&LDAP)
  • 2.2.7 大数据即时查询与搜索(Impala&Solr)
  • 2.2.8 大数据消息订阅(Kafka)
  • 2.3 Hadoop安装部署
  • 2.3.1 Hadoop规划部署
  • 2.3.2 Hadoop的安装方式
  • 2.4 华为FusionInsight HD安装部署
  • 2.4.1 FusionInsight HD简介
  • 2.4.2 FusionInsight HD集成设计
  • 2.4.3 FusionInsight HD安装部署
  • 2.4.4 FusionInsight HD重要参数配置
  • 2.5 本章总结
  • 第3章 大数据存储技术(HDFS)
  • 3.1 概述
  • 3.1.1 分布式文件系统的概念与作用
  • 3.1.2 HDFS概述
  • 3.2 HDFS的相关概念
  • 3.2.1 块
  • 3.2.2 NameNode
  • 3.2.3 Secondary NameNode
  • 3.2.4 DataNode
  • 3.3 HDFS体系架构与原理
  • 3.3.1 HDFS体系架构
  • 3.3.2 HDFS的高可用机制
  • 3.3.3 HDFS的目录结构
  • 3.3.4 HDFS的数据读写过程
  • 3.4 HDFS接口及其在FusionInsight HD编程中的实践
  • 3.4.1 HDFS常用Shell命令
  • 3.4.2 HDFS的Web界面
  • 3.4.3 HDFS的Java接口及应用实例
  • 3.5 本章总结
  • 第4章 大数据离线计算框架(MapReduce&YARN)
  • 4.1 MapReduce技术原理
  • 4.1.1 MapReduce概述
  • 4.1.2 Map函数与Reduce函数
  • 4.2 YARN技术原理
  • 4.2.1 YARN的概述与应用
  • 4.2.2 YARN的架构
  • 4.2.3 MapReduce的计算过程
  • 4.2.4 YARN的资源调度
  • 4.3 FusionInsight HD中MapReduce的应用
  • 4.3.1 WordCount实例分析
  • 4.3.2 MapReduce编程实践
  • 4.4 本章总结
  • 第5章 大数据数据库(HBase)
  • 5.1 HBase概述
  • 5.1.1 HBase简介
  • 5.1.2 HBase与关系型数据库的区别
  • 5.1.3 HBase的应用场景
  • 5.2 HBase的架构原理
  • 5.2.1 HBase的数据模型
  • 5.2.2 表和Region
  • 5.2.3 HBase的系统架构与功能组件
  • 5.2.4 HBase的读写流程
  • 5.2.5 HBase的Compaction过程
  • 5.3 FusionInsight HD中HBase的编程实践
  • 5.3.1 FusionInsight HD中HBase的常用参数配置
  • 5.3.2 HBase的常用Shell命令
  • 5.3.3 HBase常用的Java API及应用实例
  • 5.4 本章总结
  • 第6章 大数据数据仓库(Hive)
  • 6.1 Hive概述
  • 6.1.1 Hive简介和应用
  • 6.1.2 Hive的特性
  • 6.1.3 Hive与传统数据仓库的区别
  • 6.2 Hive的架构和数据存储
  • 6.2.1 Hive的架构原理
  • 6.2.2 Hive的数据存储模型
  • 6.2.3 HiveQL编程
  • 6.3 FusionInsight HD中Hive应用实践
  • 6.3.1 FusionInsight HD中Hive的常用参数配置
  • 6.3.2 加载数据到Hive
  • 6.3.3 使用HiveQL进行数据分析
  • 6.4 本章总结
  • 第7章 大数据数据转换(Sqoop与Loader)
  • 7.1 Sqoop概述
  • 7.1.1 Sqoop简介与应用
  • 7.1.2 Sqoop的功能与特性
  • 7.1.3 Sqoop与传统ETL的区别
  • 7.2 FusionInsight HD中Loader的应用实践
  • 7.2.1 FusionInsight HD中Loader与Sqoop的对比
  • 7.2.2 FusionInsight HD中Loader的参数配置
  • 7.2.3 使用Loader进行数据转换
  • 7.2.4 Loader的常用Shell命令
  • 7.2.5 Loader应用实践
  • 7.3 本章总结
  • 第8章 大数据日志处理(Flume)
  • 8.1 Flume概述
  • 8.1.1 Flume简介与应用
  • 8.1.2 Flume的功能与特性
  • 8.1.3 Flume与其他主流开源日志收集系统的区别
  • 8.2 FusionInsight HD中Flume的应用实践
  • 8.2.1 FusionInsight HD中Flume的常用参数配置
  • 8.2.2 Flume常用的Shell命令
  • 8.2.3 Flume与Kafka结合进行日志处理
  • 8.3 本章总结
  • 第9章 大数据实时计算框架(Spark)
  • 9.1 Spark概述
  • 9.1.1 Spark的概述与应用
  • 9.1.2 Scala语言介绍
  • 9.1.3 Spark生态系统组件
  • 9.1.4 Spark与Hadoop的对比
  • 9.2 Spark技术架构
  • 9.2.1 Spark的运行原理
  • 9.2.2 RDD概念与原理
  • 9.2.3 Spark的三种部署方式
  • 9.2.4 使用开发工具测试Spark
  • 9.3 FusionInsight HD中Spark应用实践
  • 9.3.1 运行Spark Shell
  • 9.3.2 进行Spark RDD操作
  • 9.3.3 使用Spark客户端工具运行Spark程序
  • 9.4 Spark Streaming
  • 9.4.1 Spark Streaming的设计思想
  • 9.4.2 Spark Streaming的应用实例
  • 9.5 Spark SQL
  • 9.5.1 Spark SQL的功能
  • 9.5.2 FusionInsight HD中Spark SQL的应用实例
  • 9.6 Spark MLlib
  • 9.6.1 机器学习简介
  • 9.6.2 Spark MLlib的功能
  • 9.7 Spark GraphX
  • 9.7.1 图计算简介
  • 9.7.2 Spark GraphX功能简介
  • 9.8 本章总结
  • 第10章 大数据流计算
  • 10.1 流计算概述
  • 10.1.1 静态数据和流数据
  • 10.1.2 流计算的概念
  • 10.1.3 MapReduce和流计算
  • 10.1.4 流计算框架
  • 10.2 流计算的处理流程
  • 10.2.1 数据实时采集
  • 10.2.2 数据实时计算
  • 10.2.3 数据实时查询
  • 10.3 Streaming流计算
  • 10.3.1 Streaming简介
  • 10.3.2 Streaming的特点
  • 10.3.3 Streaming在FusionInsight HD上的应用实践
  • 10.3.4 Spark Streaming与Streaming的差异
  • 10.4 本章总结
  • 第11章 数据可视化
  • 11.1 可视化概述
  • 11.1.1 数据可视化简介
  • 11.1.2 数据可视化的重要性
  • 11.1.3 可视化的发展历程
  • 11.1.4 数据可视化的过程
  • 11.2 可视化工具
  • 11.2.1 入门级工具(Excel)
  • 11.2.2 普通工具(R语言)
  • 11.2.3 高级工具(Tableau和QlikView)
  • 11.3 可视化的典型应用
  • 11.3.1 可视化在医学上的应用
  • 11.3.2 可视化在工程中的应用
  • 11.3.3 可视化在互联网的应用
  • 11.4 本章总结
  • 第12章 大数据行业应用
  • 12.1 大数据在金融行业的应用
  • 12.2 大数据在电信行业的应用
  • 12.3 大数据在公安系统的应用
  • 12.4 大数据在互联网行业的应用
  • 12.5 本章总结
  • 术语表
  • 第1章 大数据概述
  • 第2章 Hadoop大数据处理平台
  • 第3章 大数据存储技术(HDFS)
  • 第4章 大数据离线计算框架(MapReduce&YARN)
  • 第5章 大数据数据库(HBase)
  • 第6章 大数据数据仓库(Hive)
  • 第7章 大数据数据转换(Sqoop与Loader)
  • 第8章 大数据日志处理(Flume)
  • 第9章 大数据实时计算框架(Spark)
  • 第10章 大数据流计算
  • 第11章 数据可视化
  • 第12章 大数据行业应用
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。