计算机
类型
5.6
豆瓣评分
可以朗读
语音朗读
99千字
字数
2019-04-01
发行日期
展开全部
主编推荐语
《本书全面探讨流行Flink实时数据处理技术,理论与实践并举,值得从业者一读。
内容简介
本书介绍了当下最流行的实时数据处理引擎Flink,讲解了流处理API、批处理API、机器学习引擎FlinkML、关系型API、复杂事件处理FLinkCEP,以及指标度量与部署模式。此外,本书展开分析了流式数据处理理论中时间、窗口、水印、触发器、迟到生存期之间的关联关系;深入分析了多项式曲线拟合、分类算法SVM、推荐算法ALS-WR的理论和FlinkML实现。希望快速上手Flink以开展实时大数据处理与在线机器学习应用的从业者,本书是不二的选择:本书首先介绍相关概念引入的原因、解决方案的演进过程、Flink的对应架构、编程案例以及开放式的思考问题。
目录
- 封面
- 作者简介
- 版权页
- 前言
- 目录
- 第1章 流式数据架构理论
- 1.1 大数据处理架构演进历程
- 1.2 案例分析
- 1.2.1 SK电信驾驶安全性评分
- 1.2.2 流式机器学习应用
- 1.3 流式数据架构基本概念
- 1.3.1 流
- 1.3.2 时间
- 1.3.3 窗口
- 1.3.4 水印
- 1.3.5 触发器
- 1.3.6 数据处理模式
- 1.3.7 如何理解流式数据架构的内在机制
- 1.4 根据事件时间开滚动窗口
- 1.4.1 what:转换/where:窗口
- 1.4.2 when:水印
- 1.4.3 when:触发器
- 1.4.4 when:迟到生存期
- 1.4.5 how:累加模式
- 1.5 一致性
- 1.5.1 有状态计算
- 1.5.2 exactly-once语义
- 1.5.3 异步屏障快照
- 1.5.4 保存点
- 1.6 思考题
- 第2章 编程基础
- 2.1 Flink概述
- 2.2 让轮子转起来
- 2.2.1 本书约定
- 2.2.2 搭建单机版环境
- 2.2.3 配置IDEA
- 2.3 编程模型
- 2.3.1 分层组件栈
- 2.3.2 流式计算模型
- 2.3.3 流处理编程
- 2.4 运行时
- 2.4.1 运行时结构
- 2.4.2 任务调度
- 2.4.3 物理执行计划
- 2.5 思考题
- 第3章 流处理API
- 3.1 流处理API概述
- 3.2 时间处理
- 3.2.1 时间
- 3.2.2 水印
- 3.2.3 周期性水印生成器
- 3.2.4 间歇性水印生成器
- 3.2.5 递增式水印生成器
- 3.3 算子
- 3.3.1 算子函数
- 3.3.2 数据分区
- 3.3.3 资源共享
- 3.3.4 RichFunction
- 3.3.5 输出带外数据
- 3.4 窗口
- 3.4.1 窗口分类
- 3.4.2 窗口函数
- 3.4.3 触发器
- 3.4.4 清除器
- 3.4.5 迟到生存期
- 3.5 连接器
- 3.5.1 HDFS连接器
- 3.5.2 Kafka
- 3.5.3 异步I/O
- 3.6 状态管理
- 3.6.1 状态分类
- 3.6.2 托管的Keyed State
- 3.6.3 状态后端配置
- 3.7 检查点
- 3.8 思考题
- 第4章 批处理API
- 4.1 批处理API概述
- 4.1.1 程序结构
- 4.1.2 Source
- 4.1.3 Sink
- 4.1.4 连接器
- 4.2 算子
- 4.2.1 算子函数
- 4.2.2 广播变量
- 4.2.3 文件缓存
- 4.2.4 容错
- 4.3 迭代
- 4.3.1 深度神经网络训练
- 4.3.2 网络社团发现算法
- 4.3.3 Bulk Iteration
- 4.3.4 Delta Iteration的迭代形式
- 4.4 注解
- 4.4.1 直接转发
- 4.4.2 非直接转发
- 4.4.3 触达
- 4.5 思考题
- 第5章 机器学习引擎架构与应用编程
- 5.1 概述
- 5.1.1 数据加载
- 5.1.2 多项式曲线拟合的例子
- 5.2 流水线
- 5.2.1 机器学习面临的架构问题
- 5.2.2 Scikit-learn架构实践总结
- 5.2.3 FlinkML实现
- 5.3 深入分析多项式曲线拟合
- 5.3.1 数值计算的底层框架
- 5.3.2 向量
- 5.3.3 数据预处理
- 5.3.4 特征变换
- 5.3.5 线性拟合
- 5.4 分类算法
- 5.4.1 最优超平面
- 5.4.2 凸优化理论
- 5.4.3 求解最优超平面
- 5.4.4 核方法
- 5.4.5 软间隔
- 5.4.6 优化解法
- 5.4.7 SVM 的FlinkML实现
- 5.4.8 SVM的应用
- 5.5 推荐算法
- 5.5.1 推荐系统的分类
- 5.5.2 ALS-WR算法
- 5.5.3 FlinkML实现
- 5.5.4 ALS-WR的应用
- 5.6 思考题
- 第6章 关系型API
- 6.1 为什么需要关系型API
- 6.2 Calcite
- 6.3 关系型API概述
- 6.3.1 程序结构
- 6.3.2 Table运行时
- 6.3.3 表注册
- 6.3.4 TableSource与TableSink
- 6.3.5 查询
- 6.3.6 相互转换
- 6.4 动态表概述
- 6.4.1 流式关系代数
- 6.4.2 动态表
- 6.4.3 持续查询
- 6.5 思考题
- 第7章 复杂事件处理
- 7.1 什么是复杂事件处理
- 7.1.1 股票异常交易检测
- 7.1.2 重新审视DataStream 与Table API
- 7.2 复杂事件处理的自动机理论
- 7.2.1 有穷自动机模型NFA
- 7.2.2 NFAb模型
- 7.2.3 带版本号的共享缓存
- 7.3 FlinkCEP API
- 7.3.1 基本模式
- 7.3.2 模式拼合
- 7.3.3 模式分组
- 7.3.4 匹配输出
- 7.4 基于FlinkCEP的股票异常交易检测的实现
- 7.5 思考题
- 第8章 监控与部署
- 8.1 监控
- 8.1.1 度量指标
- 8.1.2 指标的作用域
- 8.1.3 监控配置
- 8.2 集群部署模式
- 8.2.1 Standalone
- 8.2.2 YARN
- 8.2.3 高可用
- 8.3 访问安全
- 8.4 思考题
- 参考资料
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。