展开全部

主编推荐语

《本书全面探讨流行Flink实时数据处理技术,理论与实践并举,值得从业者一读。

内容简介

本书介绍了当下最流行的实时数据处理引擎Flink,讲解了流处理API、批处理API、机器学习引擎FlinkML、关系型API、复杂事件处理FLinkCEP,以及指标度量与部署模式。此外,本书展开分析了流式数据处理理论中时间、窗口、水印、触发器、迟到生存期之间的关联关系;深入分析了多项式曲线拟合、分类算法SVM、推荐算法ALS-WR的理论和FlinkML实现。希望快速上手Flink以开展实时大数据处理与在线机器学习应用的从业者,本书是不二的选择:本书首先介绍相关概念引入的原因、解决方案的演进过程、Flink的对应架构、编程案例以及开放式的思考问题。

目录

  • 封面
  • 作者简介
  • 版权页
  • 前言
  • 目录
  • 第1章 流式数据架构理论
  • 1.1 大数据处理架构演进历程
  • 1.2 案例分析
  • 1.2.1 SK电信驾驶安全性评分
  • 1.2.2 流式机器学习应用
  • 1.3 流式数据架构基本概念
  • 1.3.1 流
  • 1.3.2 时间
  • 1.3.3 窗口
  • 1.3.4 水印
  • 1.3.5 触发器
  • 1.3.6 数据处理模式
  • 1.3.7 如何理解流式数据架构的内在机制
  • 1.4 根据事件时间开滚动窗口
  • 1.4.1 what:转换/where:窗口
  • 1.4.2 when:水印
  • 1.4.3 when:触发器
  • 1.4.4 when:迟到生存期
  • 1.4.5 how:累加模式
  • 1.5 一致性
  • 1.5.1 有状态计算
  • 1.5.2 exactly-once语义
  • 1.5.3 异步屏障快照
  • 1.5.4 保存点
  • 1.6 思考题
  • 第2章 编程基础
  • 2.1 Flink概述
  • 2.2 让轮子转起来
  • 2.2.1 本书约定
  • 2.2.2 搭建单机版环境
  • 2.2.3 配置IDEA
  • 2.3 编程模型
  • 2.3.1 分层组件栈
  • 2.3.2 流式计算模型
  • 2.3.3 流处理编程
  • 2.4 运行时
  • 2.4.1 运行时结构
  • 2.4.2 任务调度
  • 2.4.3 物理执行计划
  • 2.5 思考题
  • 第3章 流处理API
  • 3.1 流处理API概述
  • 3.2 时间处理
  • 3.2.1 时间
  • 3.2.2 水印
  • 3.2.3 周期性水印生成器
  • 3.2.4 间歇性水印生成器
  • 3.2.5 递增式水印生成器
  • 3.3 算子
  • 3.3.1 算子函数
  • 3.3.2 数据分区
  • 3.3.3 资源共享
  • 3.3.4 RichFunction
  • 3.3.5 输出带外数据
  • 3.4 窗口
  • 3.4.1 窗口分类
  • 3.4.2 窗口函数
  • 3.4.3 触发器
  • 3.4.4 清除器
  • 3.4.5 迟到生存期
  • 3.5 连接器
  • 3.5.1 HDFS连接器
  • 3.5.2 Kafka
  • 3.5.3 异步I/O
  • 3.6 状态管理
  • 3.6.1 状态分类
  • 3.6.2 托管的Keyed State
  • 3.6.3 状态后端配置
  • 3.7 检查点
  • 3.8 思考题
  • 第4章 批处理API
  • 4.1 批处理API概述
  • 4.1.1 程序结构
  • 4.1.2 Source
  • 4.1.3 Sink
  • 4.1.4 连接器
  • 4.2 算子
  • 4.2.1 算子函数
  • 4.2.2 广播变量
  • 4.2.3 文件缓存
  • 4.2.4 容错
  • 4.3 迭代
  • 4.3.1 深度神经网络训练
  • 4.3.2 网络社团发现算法
  • 4.3.3 Bulk Iteration
  • 4.3.4 Delta Iteration的迭代形式
  • 4.4 注解
  • 4.4.1 直接转发
  • 4.4.2 非直接转发
  • 4.4.3 触达
  • 4.5 思考题
  • 第5章 机器学习引擎架构与应用编程
  • 5.1 概述
  • 5.1.1 数据加载
  • 5.1.2 多项式曲线拟合的例子
  • 5.2 流水线
  • 5.2.1 机器学习面临的架构问题
  • 5.2.2 Scikit-learn架构实践总结
  • 5.2.3 FlinkML实现
  • 5.3 深入分析多项式曲线拟合
  • 5.3.1 数值计算的底层框架
  • 5.3.2 向量
  • 5.3.3 数据预处理
  • 5.3.4 特征变换
  • 5.3.5 线性拟合
  • 5.4 分类算法
  • 5.4.1 最优超平面
  • 5.4.2 凸优化理论
  • 5.4.3 求解最优超平面
  • 5.4.4 核方法
  • 5.4.5 软间隔
  • 5.4.6 优化解法
  • 5.4.7 SVM 的FlinkML实现
  • 5.4.8 SVM的应用
  • 5.5 推荐算法
  • 5.5.1 推荐系统的分类
  • 5.5.2 ALS-WR算法
  • 5.5.3 FlinkML实现
  • 5.5.4 ALS-WR的应用
  • 5.6 思考题
  • 第6章 关系型API
  • 6.1 为什么需要关系型API
  • 6.2 Calcite
  • 6.3 关系型API概述
  • 6.3.1 程序结构
  • 6.3.2 Table运行时
  • 6.3.3 表注册
  • 6.3.4 TableSource与TableSink
  • 6.3.5 查询
  • 6.3.6 相互转换
  • 6.4 动态表概述
  • 6.4.1 流式关系代数
  • 6.4.2 动态表
  • 6.4.3 持续查询
  • 6.5 思考题
  • 第7章 复杂事件处理
  • 7.1 什么是复杂事件处理
  • 7.1.1 股票异常交易检测
  • 7.1.2 重新审视DataStream 与Table API
  • 7.2 复杂事件处理的自动机理论
  • 7.2.1 有穷自动机模型NFA
  • 7.2.2 NFAb模型
  • 7.2.3 带版本号的共享缓存
  • 7.3 FlinkCEP API
  • 7.3.1 基本模式
  • 7.3.2 模式拼合
  • 7.3.3 模式分组
  • 7.3.4 匹配输出
  • 7.4 基于FlinkCEP的股票异常交易检测的实现
  • 7.5 思考题
  • 第8章 监控与部署
  • 8.1 监控
  • 8.1.1 度量指标
  • 8.1.2 指标的作用域
  • 8.1.3 监控配置
  • 8.2 集群部署模式
  • 8.2.1 Standalone
  • 8.2.2 YARN
  • 8.2.3 高可用
  • 8.3 访问安全
  • 8.4 思考题
  • 参考资料
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。