《Spark快速大数据分析（第2版）》电子书在线阅读-【美】朱尔斯·S.达米吉；布鲁克·韦尼希；丹尼·李【印度】泰瑟加塔·达斯-得到APP

4.4

用户推荐指数

互联网类型

8.4 豆瓣评分

可以朗读语音朗读

252千字字数

2021-11-01 发行日期

展开全部

主编推荐语

涵盖Spark 3.0的新特性，着重展示如何利用机器学习算法执行大数据分析。

内容简介

本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API，利用Spark SQL进行交互式查询，掌握Spark应用的优化之道，用Spark和Delta Lake等开源工具构建可靠的数据湖，并用MLlib库实现机器学习流水线。

随着Spark从2.x版本升级到3.0版本，本书第2版做了全面的更新，以体现Spark生态系统在机器学习、流处理技术等方面的发展，另新增一章详解Spark 3.0引入的新特性。

评分及书评

4.4

5个评分

Tim
2021-12-27

给这本书评了

4.0

可能是最新的Spark中文工具书

最大的优点：汉化的速度快，非常新。很多 Spark 的最新特性，如 3.x、Tungsten、Wholestagecodegen 都涉及到了，很多都是今年才成熟的新功能，可以说这本书的覆盖范围已经超过了很多企业的 Spark 版本范围了。对于想要升级 Spark 版本的团队，这本书可以作为重要的参考。当然扣分项也是有的，比如一些新特性也是泛泛而谈。如果你只看本书就像掌握 Dataset 编程估计够呛；另外翻译问题也是捉急，排序合并连接读起来有多拗口就多拗口，直接使用原义 sort merge join 对大数据工程师来说不是更好懂？很多技术文章都是这么干的… 也分享一下本人的 Spark 学习建议，在本书的基础上深入阅读官方文档，至少对官网的谋篇布局熟记于心，这样方便遇到问题时更深入地学习。开通 Medium，每天上去看看 Spark 的推荐文章，日拱一卒。最后，Dataset+Frameless 才是 Spark 开发的终极大招，不但你的日常开发会变得轻松愉快，还能彻底帮你摆脱 SQL boy 的内卷生涯。
转发
转发同时评论

快速转发

评论

2

分享
「微信」扫码分享
愚不可及
2023-08-30

给这本书评了

4.0

比较适合新人扫盲，内部细节介绍不太深入
转发
转发同时评论

快速转发

评论

2

分享
「微信」扫码分享