科技
类型
可以朗读
语音朗读
137千字
字数
2022-08-01
发行日期
展开全部
主编推荐语
21世纪数据爆发,云原生数据服务助力企业数字化转型,降本增效。
内容简介
21世纪,互联网行业的爆发开启了全球数据量急剧增加的新时代,数据已经成为驱动企业数字化转型的核心力量。整个数据行业的技术能力不断提升,从数据库到数据仓库,再到开源大数据,都在经济社会中发挥着极其重要的作用。近年来,新兴数据技术与云计算相互辅助,共同发展,诞生了一系列云原生数据服务,让企业能够突破传统模式的局限,专注于业务,降本增效。本书以全球前沿的云原生服务为基础,详细展现了如何将数据存储、数据引入、批量数据处理、实时数据处理、数据仓库、数据可视化和机器学习等核心要素综合起来,逐步构建起一个高效的大数据服务平台。
目录
- 封面
- 前折页
- 内容简介
- 前言
- 第1章 数字化转型与数据技术
- 1.1 数字化转型
- 1.2 基于数据进行数字化转型
- 1.3 数据仓库
- 1.4 大数据
- 1.5 数据湖
- 1.6 云计算中数据技术的演进
- 1.7 本书目标
- 第2章 数据存储
- 2.1 数据存储的发展与趋势
- 2.1.1 集中式文件系统
- 2.1.2 网络文件系统
- 2.1.3 分布式文件系统
- 2.1.4 云原生存储
- 2.2 Azure Blob对象存储
- 2.2.1 数据冗余策略
- 2.2.2 分层存储
- 2.2.3 兼容HDFS的WASB文件系统
- 2.3 创建存储账号
- 2.3.1 订阅
- 2.3.2 资源组
- 2.3.3 存储账号
- 2.4 Azure数据湖存储
- 2.4.1 分层命名空间
- 2.4.2 兼容HDFS的ABFS文件系统
- 2.5 创建数据湖存储
- 2.6 基于HDFS访问数据湖存储
- 2.7 在HDInsight中访问数据湖存储
- 2.8 本章小结
- 第3章 数据引入
- 3.1 什么是数据引入
- 3.2 数据引入面临的挑战
- 3.3 数据引入工具
- 3.4 数据工厂
- 3.4.1 什么是数据工厂
- 3.4.2 创建数据工厂
- 3.4.3 数据工厂的主要组件
- 3.5 引入数据
- 3.5.1 数据复制
- 3.5.2 管道设计
- 3.5.3 参数化
- 3.5.4 监控
- 3.6 本章小结
- 第4章 批量数据处理
- 4.1 数据处理概述
- 4.2 数据处理引擎
- 4.2.1 MapReduce
- 4.2.2 Spark
- 4.3 Databricks
- 4.4 使用Databricks处理批量数据
- 4.5 Databricks的特性
- 4.5.1 依赖库管理
- 4.5.2 Databricks文件系统(DBFS)
- 4.5.3 密钥管理
- 4.5.4 Delta Lake
- 4.6 使用数据工厂处理批量数据
- 4.6.1 设计Data Flow
- 4.6.2 Data Flow的设计模式
- 4.6.3 如何选择Data Flow与Databricks
- 4.7 本章小结
- 第5章 实时数据处理
- 5.1 什么是实时数据处理
- 5.2 消息队列
- 5.3 Kafka的使用
- 5.3.1 创建虚拟网络
- 5.3.2 创建Kafka集群
- 5.3.3 配置IP Advertising
- 5.3.4 生产者发送数据
- 5.4 实时数据处理引擎
- 5.5 使用Spark Structured Streaming处理实时数据
- 5.5.1 连通Kafka与Databricks
- 5.5.2 在Databricks中处理数据
- 5.5.3 使用Cosmos DB保存数据
- 5.6 Event Hub
- 5.7 本章小结
- 第6章 数据仓库
- 6.1 什么是数据仓库
- 6.2 云原生数据仓库
- 6.3 Synapse Analytics
- 6.3.1 什么是Synapse Analytics
- 6.3.2 Synapse SQL的架构
- 6.3.3 创建Synapse工作区
- 6.3.4 创建SQL池
- 6.3.5 连接SQL池
- 6.4 数据加载
- 6.4.1 数据加载方式
- 6.4.2 使用COPY导入数据
- 6.5 Synapse SQL的资源和负荷管理
- 6.5.1 资源类
- 6.5.2 并发槽
- 6.5.3 最大并发查询数
- 6.5.4 工作负荷组
- 6.5.5 工作负荷分类器
- 6.6 数据仓库发展趋势
- 6.6.1 挑战
- 6.6.2 趋势
- 6.7 Synapse Analytics的高级特性
- 6.7.1 Synapse工作室
- 6.7.2 数据中心
- 6.7.3 无服务器SQL池
- 6.7.4 托管Spark
- 6.8 本章小结
- 第7章 数据可视化
- 7.1 数据可视化概述
- 7.2 数据可视化工具
- 7.3 Power BI
- 7.3.1 什么是Power BI
- 7.3.2 Power BI的构件
- 7.3.3 使用Power BI Desktop
- 7.3.4 使用Power BI服务
- 7.4 本章小结
- 第8章 机器学习
- 8.1 机器学习概述
- 8.1.1 算法类型
- 8.1.2 业务场景
- 8.2 机器学习的流程
- 8.3 机器学习的挑战与云原生平台的优势
- 8.4 云原生机器学习平台
- 8.4.1 创建工作区
- 8.4.2 创建数据存储库
- 8.4.3 创建数据集
- 8.4.4 创建计算资源
- 8.5 机器学习设计器
- 8.6 自动化机器学习
- 8.7 本章小结
- 参考文献
- 反侵权盗版声明
- 封底
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。