计算机
类型
可以朗读
语音朗读
316千字
字数
2020-01-01
发行日期
展开全部
主编推荐语
全面探讨Hadoop/Spark技术,适合大数据初学者及企业管理者。
内容简介
本书共12章,以Hadoop和Spark框架为线索,比较全面地介绍了Hadoop技术、Spark技术、大数据存储、大数据访问、大数据采集、大数据管理、大数据分析等内容。最后还给出两个案例:环保大数据和公安大数据,供读者参考。本书适合大数据技术初学者,政府、金融机构的大数据应用决策和技术人员,IT经理,CTO,CIO等快速学习大数据技术。本书也可以作为高等院校和培训学校相关专业的培训教材。
目录
- 封面页
- 书名页
- 版权页
- 内容简介
- 前言
- 目录
- 第1章 大数据时代
- 1.1 什么是大数据
- 1.1.1 四大特征
- 1.1.2 数据监管(Data Governance)
- 1.1.3 数据质量
- 1.1.4 大数据分析
- 1.1.5 大数据平台架构
- 1.2 大数据与云计算的关系
- 1.2.1 云计算产品概述
- 1.2.2 虚拟服务器
- 1.2.3 云存储
- 1.3 Hadoop和云平台的应用实例
- 1.3.1 云平台层面配置
- 1.3.2 大数据平台层面配置
- 1.4 数据湖(Data Lake)
- 1.5 企业如何走向大数据
- 1.5.1 业务价值维度
- 1.5.2 数据维度
- 1.5.3 现有IT环境和成本维度
- 1.5.4 数据治理维度
- 第2章 大数据软件框架
- 2.1 Hadoop框架
- 2.1.1 HDFS(分布式文件系统)
- 2.1.2 MapReduce(分布式计算框架)
- 2.1.3 YARN(集群资源管理器)
- 2.2 Spark(内存计算框架)
- 2.2.1 Spark SQL
- 2.2.2 Spark Streaming
- 2.3 实时流处理框架
- 2.4 云端消息队列
- 2.5 框架的选择
- 2.6 Hadoop发行版
- 2.7 Mac上安装Hadoop
- 2.7.1 在Mac上安装Hadoop
- 2.7.2 安装MySQL和Hive
- 2.8 Linux上安装Hadoop
- 2.8.1 配置Java环境
- 2.8.2 安装ntp和Python
- 2.8.3 安装和配置openssl
- 2.8.4 配置SSH无密码访问
- 2.8.5 安装Ambari和HDP
- 2.8.6 启动和停止服务
- 2.9 AWS云平台上安装Hadoop
- 第3章 大数据集群
- 3.1 集群实例分析
- 3.2 YARN
- 3.2.1 架构组成
- 3.2.2 YARN执行流程
- 3.3 资源的调度器
- 3.3.1 Capacity Scheduler
- 3.3.2 Fair Scheduler
- 3.3.3 资源调度实例分析
- 3.3.4 内存和CPU资源调度
- 3.4 深入研究Resource Manager
- 3.5 集群配置文件总览
- 3.5.1 yarn-site.xml
- 3.5.2 mapred-site.xml
- 3.6 自动伸缩(Auto Scaling)集群
- 3.7 迁移Hadoop集群
- 3.8 增加Instance
- 第4章 大数据存储:文件系统和云存储
- 4.1 HDFS shell命令
- 4.2 配置HDFS
- 4.2.1 配置文件
- 4.2.2 多节点配置
- 4.3 HDFS API编程
- 4.3.1 读取HDFS文件内容
- 4.3.2 写HDFS文件内容
- 4.3.3 WebHDFS
- 4.4 HDFS API总结
- 4.4.1 Configuration类
- 4.4.2 FileSystem抽象类
- 4.4.3 Path类
- 4.4.4 FSDataInputStream类
- 4.4.5 FSDataOutputStream类
- 4.4.6 IOUtils类
- 4.4.7 FileStatus类
- 4.4.8 FsShell类
- 4.4.9 ChecksumFileSystem抽象类
- 4.4.10 其他的HDFS API实例
- 4.4.11 综合实例
- 4.5 HDFS文件格式
- 4.5.1 SequenceFile
- 4.5.2 TextFile(文本格式)
- 4.5.3 RCFile
- 4.5.4 Avro
- 4.6 云存储S3
- 4.6.1 S3基本概念
- 4.6.2 S3管理控制台
- 4.6.3 S3 CLI
- 4.6.4 S3 SDK
- 4.6.5 分区
- 4.6.6 与EBS的比较
- 4.6.7 与Glacier的比较
- 第5章 大数据存储:数据库
- 5.1 NoSQL
- 5.2 HBase概述
- 5.2.1 HBase表结构
- 5.2.2 HBase系统架构
- 5.2.3 启动并操作HBase数据库
- 5.2.4 HBase Shell工具
- 5.3 HBase编程
- 5.3.1 增删改查API
- 5.3.2 过滤器
- 5.3.3 计数器
- 5.3.4 原子操作
- 5.3.5 管理API
- 5.4 其他NoSQL数据库
- 5.4.1 Cassandra
- 5.4.2 Impala
- 5.4.3 DynamoDB
- 5.4.4 Redshift
- 5.5 云数据库
- 5.5.1 什么是RDS
- 5.5.2 创建云数据库
- 5.5.3 查看云数据库信息
- 5.5.4 何时使用云端数据库
- 第6章 大数据访问:SQL引擎层
- 6.1 Phoenix
- 6.1.1 安装和配置Phoenix
- 6.1.2 在Eclipse上开发Phoenix程序
- 6.1.3 Phoenix SQL工具
- 6.1.4 Phoenix SQL语法
- 6.2 Hive
- 6.2.1 Hive架构
- 6.2.2 安装Hive
- 6.2.3 Hive CLI
- 6.2.4 Hive数据类型
- 6.2.5 Hive文件格式
- 6.2.6 Hive表定义
- 6.2.7 Hive加载数据
- 6.2.8 Hive查询数据
- 6.2.9 Hive UDF
- 6.2.10 Hive视图
- 6.2.11 HiveServer2
- 6.2.12 hive-site.xml需要的配置
- 6.2.13 HBase集成
- 6.2.14 XML和JSON数据
- 6.2.15 使用TEZ
- 6.2.16 Hive MetaStore
- 6.2.17 综合示例
- 6.3 Pig
- 6.3.1 Pig语法
- 6.3.2 Pig和Hive的使用场景之比较
- 6.4 ElasticSearch(全文搜索引擎)
- 6.4.1 全文索引的基础知识
- 6.4.2 安装和配置ElasticSearch
- 6.4.3 ElasticSearch API
- 6.5 Presto
- 第7章 大数据采集和导入
- 7.1 Flume
- 7.1.1 Flume架构
- 7.1.2 Flume事件
- 7.1.3 Flume源
- 7.1.4 Flume拦截器(Interceptor)
- 7.1.5 Flume通道选择器(Channel Selector)
- 7.1.6 Flume通道
- 7.1.7 Flume接收器
- 7.1.8 负载均衡和单点失败
- 7.1.9 Flume监控管理
- 7.1.10 Flume实例
- 7.2 Kafka
- 7.2.1 Kafka架构
- 7.2.2 Kafka与JMS的异同
- 7.2.3 Kafka性能考虑
- 7.2.4 消息传送机制
- 7.2.5 Kafka和Flume的比较
- 7.3 Sqoop
- 7.3.1 从数据库导入HDFS
- 7.3.2 增量导入
- 7.3.3 将数据从Oracle导入Hive
- 7.3.4 将数据从Oracle导入HBase
- 7.3.5 导入所有表
- 7.3.6 从HDFS导出数据
- 7.3.7 数据验证
- 7.3.8 其他Sqoop功能
- 7.4 Storm
- 7.4.1 Storm基本概念
- 7.4.2 Spout
- 7.4.3 Bolt
- 7.4.4 拓扑结构
- 7.4.5 Storm总结
- 7.5 Amazon Kinesis
- 7.6 其他工具
- 7.6.1 Embulk
- 7.6.2 Fluentd
- 第8章 大数据安全管控
- 8.1 数据主权和合规性
- 8.2 云端安全
- 8.2.1 身份验证和访问权限
- 8.2.2 角色
- 8.2.3 虚拟网络
- 8.2.4 安全组
- 8.3 云端监控
- 8.3.1 跟踪和审计
- 8.3.2 监控
- 8.3.3 基于Datadog的监控
- 8.4 云端备份和恢复
- 8.5 大数据安全
- 8.5.1 Kerberos
- 8.5.2 Apache Ranger
- 8.5.3 应用端安全
- 第9章 大数据快速处理平台:Spark
- 9.1 Spark框架
- 9.1.1 安装和配置Spark
- 9.1.2 Scala
- 9.2 Spark Shell
- 9.3 Spark编程
- 9.3.1 编写Spark API程序
- 9.3.2 使用sbt编译并打成JAR包
- 9.3.3 运行程序
- 9.4 RDD
- 9.4.1 RDD算子和RDD依赖关系
- 9.4.2 RDD转换操作
- 9.4.3 RDD行动(Action)操作
- 9.4.4 RDD控制操作
- 9.4.5 RDD实例
- 9.5 Spark SQL
- 9.5.1 DataFrame
- 9.5.2 RDD转化为DataFrame
- 9.5.3 JDBC数据源
- 9.5.4 Hive数据源
- 9.6 Spark Streaming
- 9.6.1 DStream编程模型
- 9.6.2 DStream操作
- 9.6.3 性能考虑
- 9.6.4 容错能力
- 第10章 大数据分析
- 10.1 数据科学
- 10.1.1 探索性数据分析
- 10.1.2 描述统计
- 10.1.3 数据可视化
- 10.2 预测分析
- 10.2.1 预测分析实例
- 10.2.2 回归(Regression)分析预测法
- 10.3 机器学习
- 10.3.1 机器学习的定义
- 10.3.2 机器学习分类
- 10.3.3 机器学习算法
- 10.3.4 机器学习框架
- 10.4 算法
- 10.4.1 分类算法
- 10.4.2 预测算法
- 10.4.3 聚类算法
- 10.4.4 关联分析
- 10.4.5 决策树
- 10.4.6 异常值分析算法
- 10.4.7 协同过滤(推荐引擎)算法
- 10.5 大数据分析总体架构
- 10.5.1 大数据平台和大数据分析的关系
- 10.5.2 大数据平台的核心功能
- 10.5.3 DMP
- 10.5.4 CDP
- 10.6 微服务
- 10.6.1 启动和停止Consul
- 10.6.2 服务注册
- 10.6.3 查询服务
- 10.6.4 服务状态检查
- 第11章 大数据环境自动化部署:Docker和Kubernetes
- 11.1 什么是Docker?
- 11.1.1 虚拟机
- 11.1.2 Linux容器
- 11.1.3 Docker的由来
- 11.1.4 Docker的用途
- 11.1.5 Docker和虚拟机的区别
- 11.2 镜像文件
- 11.3 Docker安装
- 11.4 Dockerfile文件
- 11.4.1 什么是Dockerfile
- 11.4.2 使用Dockerfile
- 11.4.3 发布镜像文件
- 11.4.4 仓库(Repository)
- 11.5 Service(服务)
- 11.5.1 yml文件
- 11.5.2 部署服务
- 11.5.3 伸缩(Scale)应用
- 11.6 Swarm
- 11.6.1 什么是Swarm集群
- 11.6.2 设置Swarm
- 11.6.3 在Swarm集群上部署应用
- 11.7 Stack
- 11.8 Kubernetes
- 11.8.1 集群
- 11.8.2 Pod
- 11.8.3 Node(节点)
- 11.8.4 Kubernetes Master
- 11.8.5 Replication Controller
- 11.8.6 Service
- 第12章 大数据开发管理
- 12.1 CI/CD(持续集成/持续发布)
- 12.1.1 CI
- 12.1.2 CD
- 12.2 代码管理工具GitHub
- 12.2.1 仓库(Repository)
- 12.2.2 分支(Branch)
- 12.2.3 提交(Commit)和请求合并(Pull request)
- 12.2.4 开源代码的操作
- 12.2.5 GitHub使用实例
- 12.3 项目管理JIRA
- 12.3.1 敏捷(Agile)开发和Scrum模式
- 12.3.2 Project(项目)
- 12.3.3 Issue(问题)
- 12.3.4 Sprint(冲刺)
- 12.3.5 Backlog(待办事项列表)
- 12.3.6 Priority(事项优先级)
- 12.3.7 状态和流程
- 12.3.8 JIRA常用报表
- 12.3.9 JIRA的主要功能总结
- 12.4 项目构建工具Maven
- 12.4.1 pom.xml
- 12.4.2 安装Maven
- 12.4.3 Maven仓库
- 12.4.4 Maven Java项目结构
- 12.4.5 命令列表
- 12.5 大数据软件测试
- 12.5.1 JUnit
- 12.5.2 Allure
- 附录1 数据量的单位级别
- 附录2 AWS EC2创建步骤
- 附录3 分布式监控系统Ganglia
- 附录4 auth-ssh脚本
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。