展开全部

主编推荐语

全面探讨Hadoop/Spark技术,适合大数据初学者及企业管理者。

内容简介

本书共12章,以Hadoop和Spark框架为线索,比较全面地介绍了Hadoop技术、Spark技术、大数据存储、大数据访问、大数据采集、大数据管理、大数据分析等内容。最后还给出两个案例:环保大数据和公安大数据,供读者参考。本书适合大数据技术初学者,政府、金融机构的大数据应用决策和技术人员,IT经理,CTO,CIO等快速学习大数据技术。本书也可以作为高等院校和培训学校相关专业的培训教材。

目录

  • 封面页
  • 书名页
  • 版权页
  • 内容简介
  • 前言
  • 目录
  • 第1章 大数据时代
  • 1.1 什么是大数据
  • 1.1.1 四大特征
  • 1.1.2 数据监管(Data Governance)
  • 1.1.3 数据质量
  • 1.1.4 大数据分析
  • 1.1.5 大数据平台架构
  • 1.2 大数据与云计算的关系
  • 1.2.1 云计算产品概述
  • 1.2.2 虚拟服务器
  • 1.2.3 云存储
  • 1.3 Hadoop和云平台的应用实例
  • 1.3.1 云平台层面配置
  • 1.3.2 大数据平台层面配置
  • 1.4 数据湖(Data Lake)
  • 1.5 企业如何走向大数据
  • 1.5.1 业务价值维度
  • 1.5.2 数据维度
  • 1.5.3 现有IT环境和成本维度
  • 1.5.4 数据治理维度
  • 第2章 大数据软件框架
  • 2.1 Hadoop框架
  • 2.1.1 HDFS(分布式文件系统)
  • 2.1.2 MapReduce(分布式计算框架)
  • 2.1.3 YARN(集群资源管理器)
  • 2.2 Spark(内存计算框架)
  • 2.2.1 Spark SQL
  • 2.2.2 Spark Streaming
  • 2.3 实时流处理框架
  • 2.4 云端消息队列
  • 2.5 框架的选择
  • 2.6 Hadoop发行版
  • 2.7 Mac上安装Hadoop
  • 2.7.1 在Mac上安装Hadoop
  • 2.7.2 安装MySQL和Hive
  • 2.8 Linux上安装Hadoop
  • 2.8.1 配置Java环境
  • 2.8.2 安装ntp和Python
  • 2.8.3 安装和配置openssl
  • 2.8.4 配置SSH无密码访问
  • 2.8.5 安装Ambari和HDP
  • 2.8.6 启动和停止服务
  • 2.9 AWS云平台上安装Hadoop
  • 第3章 大数据集群
  • 3.1 集群实例分析
  • 3.2 YARN
  • 3.2.1 架构组成
  • 3.2.2 YARN执行流程
  • 3.3 资源的调度器
  • 3.3.1 Capacity Scheduler
  • 3.3.2 Fair Scheduler
  • 3.3.3 资源调度实例分析
  • 3.3.4 内存和CPU资源调度
  • 3.4 深入研究Resource Manager
  • 3.5 集群配置文件总览
  • 3.5.1 yarn-site.xml
  • 3.5.2 mapred-site.xml
  • 3.6 自动伸缩(Auto Scaling)集群
  • 3.7 迁移Hadoop集群
  • 3.8 增加Instance
  • 第4章 大数据存储:文件系统和云存储
  • 4.1 HDFS shell命令
  • 4.2 配置HDFS
  • 4.2.1 配置文件
  • 4.2.2 多节点配置
  • 4.3 HDFS API编程
  • 4.3.1 读取HDFS文件内容
  • 4.3.2 写HDFS文件内容
  • 4.3.3 WebHDFS
  • 4.4 HDFS API总结
  • 4.4.1 Configuration类
  • 4.4.2 FileSystem抽象类
  • 4.4.3 Path类
  • 4.4.4 FSDataInputStream类
  • 4.4.5 FSDataOutputStream类
  • 4.4.6 IOUtils类
  • 4.4.7 FileStatus类
  • 4.4.8 FsShell类
  • 4.4.9 ChecksumFileSystem抽象类
  • 4.4.10 其他的HDFS API实例
  • 4.4.11 综合实例
  • 4.5 HDFS文件格式
  • 4.5.1 SequenceFile
  • 4.5.2 TextFile(文本格式)
  • 4.5.3 RCFile
  • 4.5.4 Avro
  • 4.6 云存储S3
  • 4.6.1 S3基本概念
  • 4.6.2 S3管理控制台
  • 4.6.3 S3 CLI
  • 4.6.4 S3 SDK
  • 4.6.5 分区
  • 4.6.6 与EBS的比较
  • 4.6.7 与Glacier的比较
  • 第5章 大数据存储:数据库
  • 5.1 NoSQL
  • 5.2 HBase概述
  • 5.2.1 HBase表结构
  • 5.2.2 HBase系统架构
  • 5.2.3 启动并操作HBase数据库
  • 5.2.4 HBase Shell工具
  • 5.3 HBase编程
  • 5.3.1 增删改查API
  • 5.3.2 过滤器
  • 5.3.3 计数器
  • 5.3.4 原子操作
  • 5.3.5 管理API
  • 5.4 其他NoSQL数据库
  • 5.4.1 Cassandra
  • 5.4.2 Impala
  • 5.4.3 DynamoDB
  • 5.4.4 Redshift
  • 5.5 云数据库
  • 5.5.1 什么是RDS
  • 5.5.2 创建云数据库
  • 5.5.3 查看云数据库信息
  • 5.5.4 何时使用云端数据库
  • 第6章 大数据访问:SQL引擎层
  • 6.1 Phoenix
  • 6.1.1 安装和配置Phoenix
  • 6.1.2 在Eclipse上开发Phoenix程序
  • 6.1.3 Phoenix SQL工具
  • 6.1.4 Phoenix SQL语法
  • 6.2 Hive
  • 6.2.1 Hive架构
  • 6.2.2 安装Hive
  • 6.2.3 Hive CLI
  • 6.2.4 Hive数据类型
  • 6.2.5 Hive文件格式
  • 6.2.6 Hive表定义
  • 6.2.7 Hive加载数据
  • 6.2.8 Hive查询数据
  • 6.2.9 Hive UDF
  • 6.2.10 Hive视图
  • 6.2.11 HiveServer2
  • 6.2.12 hive-site.xml需要的配置
  • 6.2.13 HBase集成
  • 6.2.14 XML和JSON数据
  • 6.2.15 使用TEZ
  • 6.2.16 Hive MetaStore
  • 6.2.17 综合示例
  • 6.3 Pig
  • 6.3.1 Pig语法
  • 6.3.2 Pig和Hive的使用场景之比较
  • 6.4 ElasticSearch(全文搜索引擎)
  • 6.4.1 全文索引的基础知识
  • 6.4.2 安装和配置ElasticSearch
  • 6.4.3 ElasticSearch API
  • 6.5 Presto
  • 第7章 大数据采集和导入
  • 7.1 Flume
  • 7.1.1 Flume架构
  • 7.1.2 Flume事件
  • 7.1.3 Flume源
  • 7.1.4 Flume拦截器(Interceptor)
  • 7.1.5 Flume通道选择器(Channel Selector)
  • 7.1.6 Flume通道
  • 7.1.7 Flume接收器
  • 7.1.8 负载均衡和单点失败
  • 7.1.9 Flume监控管理
  • 7.1.10 Flume实例
  • 7.2 Kafka
  • 7.2.1 Kafka架构
  • 7.2.2 Kafka与JMS的异同
  • 7.2.3 Kafka性能考虑
  • 7.2.4 消息传送机制
  • 7.2.5 Kafka和Flume的比较
  • 7.3 Sqoop
  • 7.3.1 从数据库导入HDFS
  • 7.3.2 增量导入
  • 7.3.3 将数据从Oracle导入Hive
  • 7.3.4 将数据从Oracle导入HBase
  • 7.3.5 导入所有表
  • 7.3.6 从HDFS导出数据
  • 7.3.7 数据验证
  • 7.3.8 其他Sqoop功能
  • 7.4 Storm
  • 7.4.1 Storm基本概念
  • 7.4.2 Spout
  • 7.4.3 Bolt
  • 7.4.4 拓扑结构
  • 7.4.5 Storm总结
  • 7.5 Amazon Kinesis
  • 7.6 其他工具
  • 7.6.1 Embulk
  • 7.6.2 Fluentd
  • 第8章 大数据安全管控
  • 8.1 数据主权和合规性
  • 8.2 云端安全
  • 8.2.1 身份验证和访问权限
  • 8.2.2 角色
  • 8.2.3 虚拟网络
  • 8.2.4 安全组
  • 8.3 云端监控
  • 8.3.1 跟踪和审计
  • 8.3.2 监控
  • 8.3.3 基于Datadog的监控
  • 8.4 云端备份和恢复
  • 8.5 大数据安全
  • 8.5.1 Kerberos
  • 8.5.2 Apache Ranger
  • 8.5.3 应用端安全
  • 第9章 大数据快速处理平台:Spark
  • 9.1 Spark框架
  • 9.1.1 安装和配置Spark
  • 9.1.2 Scala
  • 9.2 Spark Shell
  • 9.3 Spark编程
  • 9.3.1 编写Spark API程序
  • 9.3.2 使用sbt编译并打成JAR包
  • 9.3.3 运行程序
  • 9.4 RDD
  • 9.4.1 RDD算子和RDD依赖关系
  • 9.4.2 RDD转换操作
  • 9.4.3 RDD行动(Action)操作
  • 9.4.4 RDD控制操作
  • 9.4.5 RDD实例
  • 9.5 Spark SQL
  • 9.5.1 DataFrame
  • 9.5.2 RDD转化为DataFrame
  • 9.5.3 JDBC数据源
  • 9.5.4 Hive数据源
  • 9.6 Spark Streaming
  • 9.6.1 DStream编程模型
  • 9.6.2 DStream操作
  • 9.6.3 性能考虑
  • 9.6.4 容错能力
  • 第10章 大数据分析
  • 10.1 数据科学
  • 10.1.1 探索性数据分析
  • 10.1.2 描述统计
  • 10.1.3 数据可视化
  • 10.2 预测分析
  • 10.2.1 预测分析实例
  • 10.2.2 回归(Regression)分析预测法
  • 10.3 机器学习
  • 10.3.1 机器学习的定义
  • 10.3.2 机器学习分类
  • 10.3.3 机器学习算法
  • 10.3.4 机器学习框架
  • 10.4 算法
  • 10.4.1 分类算法
  • 10.4.2 预测算法
  • 10.4.3 聚类算法
  • 10.4.4 关联分析
  • 10.4.5 决策树
  • 10.4.6 异常值分析算法
  • 10.4.7 协同过滤(推荐引擎)算法
  • 10.5 大数据分析总体架构
  • 10.5.1 大数据平台和大数据分析的关系
  • 10.5.2 大数据平台的核心功能
  • 10.5.3 DMP
  • 10.5.4 CDP
  • 10.6 微服务
  • 10.6.1 启动和停止Consul
  • 10.6.2 服务注册
  • 10.6.3 查询服务
  • 10.6.4 服务状态检查
  • 第11章 大数据环境自动化部署:Docker和Kubernetes
  • 11.1 什么是Docker?
  • 11.1.1 虚拟机
  • 11.1.2 Linux容器
  • 11.1.3 Docker的由来
  • 11.1.4 Docker的用途
  • 11.1.5 Docker和虚拟机的区别
  • 11.2 镜像文件
  • 11.3 Docker安装
  • 11.4 Dockerfile文件
  • 11.4.1 什么是Dockerfile
  • 11.4.2 使用Dockerfile
  • 11.4.3 发布镜像文件
  • 11.4.4 仓库(Repository)
  • 11.5 Service(服务)
  • 11.5.1 yml文件
  • 11.5.2 部署服务
  • 11.5.3 伸缩(Scale)应用
  • 11.6 Swarm
  • 11.6.1 什么是Swarm集群
  • 11.6.2 设置Swarm
  • 11.6.3 在Swarm集群上部署应用
  • 11.7 Stack
  • 11.8 Kubernetes
  • 11.8.1 集群
  • 11.8.2 Pod
  • 11.8.3 Node(节点)
  • 11.8.4 Kubernetes Master
  • 11.8.5 Replication Controller
  • 11.8.6 Service
  • 第12章 大数据开发管理
  • 12.1 CI/CD(持续集成/持续发布)
  • 12.1.1 CI
  • 12.1.2 CD
  • 12.2 代码管理工具GitHub
  • 12.2.1 仓库(Repository)
  • 12.2.2 分支(Branch)
  • 12.2.3 提交(Commit)和请求合并(Pull request)
  • 12.2.4 开源代码的操作
  • 12.2.5 GitHub使用实例
  • 12.3 项目管理JIRA
  • 12.3.1 敏捷(Agile)开发和Scrum模式
  • 12.3.2 Project(项目)
  • 12.3.3 Issue(问题)
  • 12.3.4 Sprint(冲刺)
  • 12.3.5 Backlog(待办事项列表)
  • 12.3.6 Priority(事项优先级)
  • 12.3.7 状态和流程
  • 12.3.8 JIRA常用报表
  • 12.3.9 JIRA的主要功能总结
  • 12.4 项目构建工具Maven
  • 12.4.1 pom.xml
  • 12.4.2 安装Maven
  • 12.4.3 Maven仓库
  • 12.4.4 Maven Java项目结构
  • 12.4.5 命令列表
  • 12.5 大数据软件测试
  • 12.5.1 JUnit
  • 12.5.2 Allure
  • 附录1 数据量的单位级别
  • 附录2 AWS EC2创建步骤
  • 附录3 分布式监控系统Ganglia
  • 附录4 auth-ssh脚本
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。