展开全部

主编推荐语

大数据领域流行组件介绍,平台架构选型,流计算开发,基于docker部署。

内容简介

在第一版的基础上,根据近几年大数据领域最新出现的各种流行组件,逐个进行介绍,并以两个具体的示例,贯穿各个章节,对组件之间的协同工作关系进行剖析。新增大数据平台架构选型及最佳实践案例,大数据治理,流计算开发,flink等流式大数据处理。基于docker的大数据运维部署等部分,书中所使用的示例程序,是基于笔者在进行企业培训时,企业提出的业务需求而展开,示例程序更有代表性。

目录

  • 封面
  • 前折页
  • 书名页
  • 内容简介
  • 版权页
  • 前言
  • 序言
  • 目录
  • 第一部分 大数据概述
  • 第1章 大数据的时代背景及应用落地
  • 1.1 大数据与“云大物区智”的关联
  • 1.2 大数据平台的应用优势
  • 1.3 大数据平台的技术架构选型和产品对比
  • 第2章 大数据系统的安装及配置
  • 2.1 服务器及操作系统的准备
  • 2.2 JDK、Python和Scala
  • 2.3 Hadoop
  • 2.3.1 安装环境的确认及文件准备
  • 2.3.2 配置环境变量及无密码传输
  • 2.3.3 配置Hadoop的对应参数
  • 2.3.4 启动并验证Hadoop
  • 2.4 Sqoop
  • 2.4.1 Sqoop安装文件的准备
  • 2.4.2 Sqoop的安装及配置
  • 2.4.3 Sqoop运行验证
  • 2.5 Hive
  • 2.5.1 安装文件的准备
  • 2.5.2 配置环境变量和安装MySQL
  • 2.5.3 配置Hive参数
  • 2.5.4 验证Hive的相关服务
  • 2.6 ZooKeeper和HBase
  • 2.6.1 ZooKeeper安装文件的准备
  • 2.6.2 ZooKeeper的安装及配置
  • 2.6.3 ZooKeeper运行验证
  • 2.6.4 HBase安装文件的准备
  • 2.6.5 HBase的安装及配置
  • 2.6.6 HBase运行验证
  • 2.7 Flume
  • 2.8 Kafka
  • 2.9 Spark
  • 2.9.1 Spark安装文件的准备
  • 2.9.2 Spark的安装及配置
  • 2.9.3 Spark运行验证
  • 2.10 Flink
  • 2.11 开源大数据系统各组件的组合
  • 2.12 CDH
  • 2.13 FusionInsight
  • 2.14 小结
  • 第二部分 离线大数据处理
  • 第3章 使用Python爬虫获取数据
  • 3.1 Python爬虫模块的安装
  • 3.1.1 requests模块的安装及验证
  • 3.1.2 Beautiful Soup模块的安装及验证
  • 3.2 抓取并解析JSON数据
  • 3.2.1 利用Fiddler找出所抓取的网址
  • 3.2.2 解析JSON对象
  • 3.3 抓取并解析HTML中的数据
  • 3.3.1 使用Beautiful Soup提取网页内容
  • 3.3.2 保存抓取内容
  • 3.3.3 不同爬虫模块所适用的场景
  • 3.4 使用Python提取文章的关键字
  • 3.4.1 中文分词和关键字的提取
  • 3.4.2 Python的中文分词模块jieba
  • 3.4.3 使用自定义词典和停用词
  • 3.4.4 提取文章的关键字
  • 3.5 小结
  • 第4章 Hive在大数据中的角色
  • 4.1 Hive的核心概念及配置使用
  • 4.1.1 Hive在大数据生态系统中的作用
  • 4.1.2 Hive的几种使用方法
  • 4.1.3 使用Tez引擎替代MapReduce
  • 4.2 概要设计和物理模型的创建
  • 4.2.1 使用Hive要解决哪些问题
  • 4.2.2 数据库的概要设计
  • 4.2.3 物理模型的定义及创建表
  • 4.3 加载爬虫数据
  • 4.4 数据的合并、去重和转换
  • 4.4.1 数据的合并
  • 4.4.2 利用临时表去掉重复的数据
  • 4.4.3 使用Hive内置函数转换数据
  • 4.5 使用UDF实现数据的转换
  • 4.5.1 用户自定义函数的实现原理
  • 4.5.2 利用Python实现UDF
  • 4.5.3 数据进入rpt表
  • 4.6 使用Python操作Hive
  • 4.6.1 安装impyla模块
  • 4.6.2 使用Python读取数据示例
  • 4.7 ETL数据调度和数据治理
  • 4.7.1 数据处理的自动化
  • 4.7.2 数据治理
  • 4.8 小结
  • 第5章 使用HBase实现大数据存储
  • 5.1 非关系型数据库及HBase
  • 5.2 HBase的几个核心概念
  • 5.3 HBase数据操作命令
  • 5.3.1 HBase客户端
  • 5.3.2 创建表及插入数据
  • 5.3.3 按照行键值检索
  • 5.3.4 扫描检索
  • 5.3.5 删除表和数据
  • 5.4 使用Python操作HBase
  • 5.4.1 启动HBase Thrift Server
  • 5.4.2 安装happybase模块
  • 5.4.3 插入数据及删除数据
  • 5.4.4 组合查询代码示例
  • 5.5 把Hive数据导入HBase
  • 5.6 用Hive外部表读取HBase数据
  • 5.7 小结
  • 第6章 Spark数据分析引擎
  • 6.1 Spark简介
  • 6.2 Spark集群的配置及启动
  • 6.2.1 Spark集群的安装与配置
  • 6.2.2 作业提交方式
  • 6.2.3 操作界面的启动类型
  • 6.2.4 三类Web监控界面
  • 6.3 调用Hive数据
  • 6.3.1 使用beeline客户端
  • 6.3.2 使用HiveContext对象
  • 6.3.3 使用Spark SQL
  • 6.3.4 使用JDBC
  • 6.4 调用HBase数据
  • 6.4.1 设定环境变量
  • 6.4.2 读数据示例
  • 6.5 使用PySpark进行数据分析
  • 6.5.1 将RDD转换为DataFrame
  • 6.5.2 Spark SQL等值连接
  • 6.5.3 使用matplotlib绘制直方图
  • 6.6 小结
  • 第7章 使用Flask实现数据展示
  • 7.1 Flask框架简介及站点搭建流程
  • 7.2 Flask微框架的特性
  • 7.3 使用MVC模式搭建项目框架
  • 7.3.1 访问地址
  • 7.3.2 MVC模式简介
  • 7.3.3 项目目录结构
  • 7.4 检索及加载新闻数据
  • 7.4.1 模型层的开发
  • 7.4.2 模型层的单元测试
  • 7.4.3 控制器层的开发
  • 7.4.4 控制器层的单元测试
  • 7.4.5 视图层的开发
  • 7.5 小结
  • 第二部分技术点总结
  • 第三部分 流式大数据处理
  • 第8章 使用Flume获取网站访问日志
  • 8.1 Flume的安装及数据流模型
  • 8.1.1 Flume简介及安装
  • 8.1.2 Flume的数据流模型
  • 8.2 核心组件的配合使用
  • 8.2.1 6种核心组件
  • 8.2.2 配置文件
  • 8.2.3 flume-ng命令
  • 8.3 各种数据组合的流动方式
  • 8.3.1 将日志收集至文件
  • 8.3.2 Sink的多路复用
  • 8.3.3 使用Avro作为数据源
  • 8.3.4 Channel的多路复用
  • 8.4 Apache服务器的日志格式
  • 8.5 合并两个网站的日志
  • 8.6 小结
  • 第9章 Kafka的安装、配置及其与Flume的整合
  • 9.1 Kafka的特性及安装、配置
  • 9.1.1 Kafka的特性和适用场合
  • 9.1.2 安装、配置Kafka
  • 9.2 几种术语
  • 9.3 Broker的使用方法
  • 9.3.1 单节点单Broker
  • 9.3.2 单节点多Broker
  • 9.3.3 分布式Broker
  • 9.3.4 分区及偏移量
  • 9.3.5 分区选择策略
  • 9.4 分布式生产者/消费者
  • 9.4.1 两个生产者
  • 9.4.2 消费者组
  • 9.5 Kafka Connector
  • 9.5.1 File Source
  • 9.5.2 File Sink
  • 9.6 Kafka和Flume的整合
  • 9.6.1 给Flume提供数据
  • 9.6.2 从Flume中获取数据
  • 9.7 使用Python连接Kafka
  • 9.8 小结
  • 第10章 Redis数据库简介
  • 10.1 Redis的特点及适用场景
  • 10.2 Redis的安装及命令行使用方法
  • 10.2.1 Redis的安装及启动
  • 10.2.2 命令行客户端
  • 10.2.3 5种数据类型
  • 10.2.4 字符串命令
  • 10.3 使用Python操作Redis
  • 10.4 使用Java操作Redis
  • 10.5 小结
  • 第11章 Flink简介及其与Kafka的整合
  • 11.1 Flink概述及其与Spark的区别
  • 11.2 Flink的架构、特性及工作流程
  • 11.3 Flink的安装
  • 11.3.1 单节点的安装
  • 11.3.2 集群的安装
  • 11.3.3 利用ZooKeeper实现Flink的高可用性
  • 11.4 Flink的作业提交方式
  • 11.4.1 以Standalone方式运行
  • 11.4.2 利用YARN Session运行
  • 11.4.3 利用Python调用Flink服务
  • 11.4.4 使用REST API查看状态
  • 11.5 Flink-Kafka Connector
  • 11.5.1 Flink为Kafka提供数据
  • 11.5.2 Flink从Kafka接收数据
  • 11.6 使用Flink统计PageView
  • 11.6.1 Flink开发的一般步骤
  • 11.6.2 Flink DataStream API
  • 11.6.3 将数据落地至Redis和HBase
  • 11.7 小结
  • 第12章 网站页面访问量的动态展示
  • 12.1 百度的ECharts图表功能简介
  • 12.2 页面访问量的动态统计
  • 12.2.1 模型层的开发
  • 12.2.2 控制器层的开发
  • 12.2.3 视图层的开发
  • 12.3 生成词云图和占比饼图
  • 12.3.1 词云图模型层的开发
  • 12.3.2 词云图控制器层的开发
  • 12.3.3 词云图视图层的开发
  • 12.3.4 关键字饼图的模型层开发
  • 12.3.5 关键字饼图的控制器层开发
  • 12.3.6 关键字饼图的视图层开发
  • 12.4 访问日志检索
  • 12.5 小结
  • 第三部分技术点总结
  • 第四部分 云平台搭建
  • 第13章 搭建基于云平台的容器级数据系统
  • 13.1 云平台
  • 13.1.1 云平台架构
  • 13.1.2 云平台的搭建及部署
  • 13.1.3 云平台的高级配置
  • 13.2 基于云平台的容器集群
  • 13.2.1 Magnum
  • 13.2.2 Docker Swarm
  • 13.2.3 Mesos和Marathon的结合
  • 13.2.4 Kubernetes
  • 13.3 基于容器的大数据系统
  • 13.4 小结
  • 后折页
  • 封底
展开全部

评分及书评

评分不足
1个评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。