展开全部

主编推荐语

聚焦大数据关键技术要点,详解数据采集与数据预处理理论与技术。

内容简介

全书共9章,主要包括数据采集与预处理概述,大数据开发环境的搭建,使用Flume采集系统日志数据,使用Kafka采集系统日志数据,其他常用的系统日志数据采集工具,使用网络爬虫采集Web数据,Python数据预处理库的使用,使用ETL工具Kettle进行数据预处理,以及其他常用的数据预处理工具。

本书在第2章至第9章安排了丰富的实践操作,实现了理论与实践的有机结合,帮助读者更好地学习和掌握数据采集与预处理的关键技术。

本书可以作为高等院校大数据专业的大数据课程教材,也可以作为计算机相关专业的专业课或选修课教材,同时也可以作为从事大数据相关专业的工作人员的参考用书。

目录

  • 版权信息
  • 面向新工科高等院校大数据专业系列教材 编委会成员名单
  • 出版说明
  • 前言
  • 第1章 数据采集与预处理概述
  • 1.1 大数据简介
  • 1.2 数据分析简介
  • 1.3 数据采集简介
  • 1.4 数据预处理简介
  • 习题
  • 第2章 大数据开发环境的搭建
  • 2.1 安装Python与JDK
  • 2.2 MySQL数据库的安装与配置
  • 2.3 Hadoop的安装与配置
  • 2.4 在Hadoop集群上运行WordCount
  • 习题
  • 第3章 使用Flume采集系统日志数据
  • 3.1 Flume概述
  • 3.2 Flume的安装运行
  • 3.3 Flume的核心组件
  • 3.4 Flume拦截器与选择器
  • 3.5 Flume负载均衡与故障转移
  • 3.6 实践案例:使用Flume采集数据上传到HDFS
  • 习题
  • 第4章 使用Kafka采集系统日志数据
  • 4.1 Kafka概述
  • 4.2 Kafka的安装部署
  • 4.3 Kafka的基本架构
  • 4.4 实践案例:使用Kafka采集本地日志数据
  • 4.5 实践案例:Kafka与Flume结合采集日志数据
  • 习题
  • 第5章 其他常用的系统日志数据采集工具
  • 5.1 Scribe
  • 5.2 Chukwa
  • 5.3 Splunk
  • 5.4 日志易
  • 5.5 Logstash
  • 5.6 Fluentd
  • 习题
  • 第6章 使用网络爬虫采集Web数据
  • 6.1 网络爬虫概述
  • 6.2 网络爬虫基础
  • 6.3 常见的网络爬虫框架
  • 6.4 实践案例:使用Scrapy爬取电商网站数据
  • 习题
  • 第7章 Python数据预处理库的使用
  • 7.1 Python与数据分析
  • 7.2 NumPy:数组与向量计算
  • 7.3 Pandas:数据结构化操作
  • 7.4 SciPy:科学化计算
  • 7.5 Matplotlib:数据可视化
  • 7.6 实践案例:使用Python预处理旅游路线数据
  • 习题
  • 第8章 使用ETL工具Kettle进行数据预处理
  • 8.1 Kettle概述
  • 8.2 Kettle的安装与配置
  • 8.3 Kettle的基本使用
  • 8.4 实践案例:使用Kettle处理某电商网站数据
  • 习题
  • 第9章 其他常用的数据预处理工具
  • 9.1 Pig
  • 9.2 OpenRefine
  • 9.3 实践案例:使用Pig和OpenRefine预处理二手房数据
  • 习题
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分
  • 加载中...

出版方

机械工业出版社

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。