互联网
类型
可以朗读
语音朗读
101千字
字数
2023-08-01
发行日期
展开全部
主编推荐语
聚焦大数据关键技术要点,详解数据采集与数据预处理理论与技术。
内容简介
全书共9章,主要包括数据采集与预处理概述,大数据开发环境的搭建,使用Flume采集系统日志数据,使用Kafka采集系统日志数据,其他常用的系统日志数据采集工具,使用网络爬虫采集Web数据,Python数据预处理库的使用,使用ETL工具Kettle进行数据预处理,以及其他常用的数据预处理工具。
本书在第2章至第9章安排了丰富的实践操作,实现了理论与实践的有机结合,帮助读者更好地学习和掌握数据采集与预处理的关键技术。
本书可以作为高等院校大数据专业的大数据课程教材,也可以作为计算机相关专业的专业课或选修课教材,同时也可以作为从事大数据相关专业的工作人员的参考用书。
目录
- 版权信息
- 面向新工科高等院校大数据专业系列教材 编委会成员名单
- 出版说明
- 前言
- 第1章 数据采集与预处理概述
- 1.1 大数据简介
- 1.2 数据分析简介
- 1.3 数据采集简介
- 1.4 数据预处理简介
- 习题
- 第2章 大数据开发环境的搭建
- 2.1 安装Python与JDK
- 2.2 MySQL数据库的安装与配置
- 2.3 Hadoop的安装与配置
- 2.4 在Hadoop集群上运行WordCount
- 习题
- 第3章 使用Flume采集系统日志数据
- 3.1 Flume概述
- 3.2 Flume的安装运行
- 3.3 Flume的核心组件
- 3.4 Flume拦截器与选择器
- 3.5 Flume负载均衡与故障转移
- 3.6 实践案例:使用Flume采集数据上传到HDFS
- 习题
- 第4章 使用Kafka采集系统日志数据
- 4.1 Kafka概述
- 4.2 Kafka的安装部署
- 4.3 Kafka的基本架构
- 4.4 实践案例:使用Kafka采集本地日志数据
- 4.5 实践案例:Kafka与Flume结合采集日志数据
- 习题
- 第5章 其他常用的系统日志数据采集工具
- 5.1 Scribe
- 5.2 Chukwa
- 5.3 Splunk
- 5.4 日志易
- 5.5 Logstash
- 5.6 Fluentd
- 习题
- 第6章 使用网络爬虫采集Web数据
- 6.1 网络爬虫概述
- 6.2 网络爬虫基础
- 6.3 常见的网络爬虫框架
- 6.4 实践案例:使用Scrapy爬取电商网站数据
- 习题
- 第7章 Python数据预处理库的使用
- 7.1 Python与数据分析
- 7.2 NumPy:数组与向量计算
- 7.3 Pandas:数据结构化操作
- 7.4 SciPy:科学化计算
- 7.5 Matplotlib:数据可视化
- 7.6 实践案例:使用Python预处理旅游路线数据
- 习题
- 第8章 使用ETL工具Kettle进行数据预处理
- 8.1 Kettle概述
- 8.2 Kettle的安装与配置
- 8.3 Kettle的基本使用
- 8.4 实践案例:使用Kettle处理某电商网站数据
- 习题
- 第9章 其他常用的数据预处理工具
- 9.1 Pig
- 9.2 OpenRefine
- 9.3 实践案例:使用Pig和OpenRefine预处理二手房数据
- 习题
- 参考文献
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。