互联网
                       类型
                        可以朗读
                       语音朗读
                        115千字
                       字数
                        2019-04-01
                       发行日期
                    展开全部
                    
主编推荐语
本书覆盖了大数据生命周期中的主要技术要点。
内容简介
全书共8章,第1章介绍大数据的产生和特点及思维的变革,第2章了解大数据生态系统,第3~7章按照大数据的生命周期,分别讨论大数据采集与预处理、大数据管理、大数据分析、大数据可视化、大数据应用的基本原理和方法,第8章讨论大数据安全面临的挑战。
目录
- 版权信息
 - 前言
 - 第1章 概论
 - 1.1 揭秘大数据
 - 1.1.1 大数据产生历史必然
 - 1.1.2 大数据概念和特征
 - 1.1.3 大数据生命周期
 - 1.1.4 大数据与物联网、云计算、人工智能
 - 1.1.5 大数据时代的八个重大变革
 - 1.2 Linux系统概述
 - 1.2.1 Linux版本
 - 1.2.2 Linux系统目录结构
 - 1.2.3 文本编辑器vi
 - 1.2.4 文件权限解读
 - 1.2.5 Linux系统常用命令
 - 习题1
 - 实验报告1 Linux实验
 - 第2章 大数据生态系统
 - 2.1 认识Hadoop
 - 2.2 HDFS
 - 2.2.1 HDFS体系结构
 - 2.2.2 HDFS存储原理
 - 2.2.3 HDFS常用操作
 - 2.3 MapReduce
 - 2.3.1 MapReduce逻辑结构
 - 2.3.2 MapReduce操作案例
 - *2.4 Zookeeper
 - 习题2
 - 实验报告2 Hadoop实验
 - 第3章 大数据采集与预处理
 - 3.1 数据
 - 3.1.1 数据是什么
 - 3.1.2 数据分类
 - 3.1.3 度量和维度
 - 3.2 数据采集
 - 3.2.1 数据采集分类
 - 3.2.2 数据采集方法
 - 3.2.3 数据采集工具
 - 3.3 数据清洗
 - 3.3.1 数据清洗原理
 - 3.3.2 缺失值和异常数据
 - 3.3.3 数据清洗基本操作
 - 3.4 网络爬虫
 - 3.4.1 爬虫简介
 - *3.4.2 论坛爬虫源代码分析
 - 习题3
 - *实验报告3 网络爬虫
 - 第4章 大数据管理
 - 4.1 NoSQL
 - 4.1.1 NoSQL概述
 - 4.1.2 键值数据库
 - 4.1.3 图数据库
 - 4.1.4 文档数据库
 - 4.1.5 列式数据库
 - 4.1.6 云数据库
 - 4.2 HBase
 - 4.2.1 HBase模型
 - 4.2.2 HBase与传统关系数据库的对比分析
 - 4.2.3 HBase系统架构
 - 4.2.4 HBase常用Shell命令
 - 习题4
 - 实验报告4 HBase实验
 - 第5章 大数据分析
 - 5.1 大数据分析概述
 - 5.1.1 数据分析原则
 - 5.1.2 大数据分析特点
 - 5.1.3 大数据分析流程
 - 5.1.4 数据分析师基本技能和素质
 - *5.1.5 大数据分析难点
 - *5.2 业务理解
 - 5.2.1 什么是业务理解
 - 5.2.2 如何理解业务
 - 5.2.3 数据业务化
 - 5.3 数据认知
 - 5.3.1 数据变换
 - 5.3.2 概率分析
 - *5.3.3 对比分析
 - *5.3.4 细分分析
 - *5.3.5 交叉分析
 - 5.3.6 相关分析
 - 5.4 特征工程
 - 5.4.1 特征工程面临的挑战
 - 5.4.2 特征选择
 - 5.4.3 特征提取
 - 5.4.4 指标设计
 - 5.5 数据建模
 - 5.5.1 模型分类
 - 5.5.2 决策树
 - 5.5.3 关联分析
 - 5.5.4 回归分析
 - 5.5.5 聚类分析
 - *5.5.6 k-邻近分类算法KNN
 - *5.6 通用计算引擎Spark
 - 5.6.1 Spark简介
 - 5.6.2 Spark与Hadoop差异
 - 5.6.3 Spark适用场景
 - 5.6.4 Spark运行模式
 - 5.6.5 Spark常用术语
 - 5.6.6 Spark编程实战——单词统计
 - 5.7 大数据分析引擎Hive
 - 5.7.1 数据仓库概念
 - 5.7.2 传统数据仓库的问题
 - 5.7.3 Hive特征
 - 5.7.4 Hive系统架构
 - 5.7.5 Hive应用案例
 - 习题5
 - 实验报告5 Hive实验
 - 第6章 大数据可视化
 - 6.1 数据可视化基本概念
 - 6.1.1 为什么要数据可视化
 - 6.1.2 什么是数据可视化
 - 6.1.3 数据可视化的作用
 - 6.1.4 数据可视化术语
 - 6.1.5 数据可视化三要素
 - 6.2 常用图形
 - 6.2.1 饼图(扇形图)
 - 6.2.2 堆积柱形图
 - 6.2.3 风玫瑰图
 - 6.2.4 柱状图
 - 6.2.5 直方图
 - 6.2.6 气泡图
 - 6.2.7 散点图矩阵
 - 6.2.8 折线图
 - 6.2.9 面积图
 - 6.2.10 相关系数图
 - 6.2.11 雷达图
 - 6.2.12 箱线图
 - 6.3 数据可视化设计
 - 6.3.1 数据可视化设计原则
 - 6.3.2 数据可视化=数据+设计+故事
 - 6.3.3 数据可视化图形选择建议
 - 6.4 数据可视化工具
 - 6.4.1 基本工具
 - 6.4.2 进阶工具
 - 6.5 基于R语言可视化基础
 - 6.5.1 基本绘图命令
 - 6.5.2 ggplot2绘图
 - 习题6
 - *实验报告6 可视化实验
 - 第7章 大数据应用
 - 7.1 零售行业大数据
 - 7.1.1 沃尔玛的购物篮分析
 - 7.1.2 农夫山泉用海量照片提升销量
 - 7.2 交通大数据
 - 7.2.1 交通拥堵大数据分析
 - 7.2.2 预测起飞时间
 - 7.3 医疗大数据
 - 7.3.1 移动医疗与个人健康
 - 7.3.2 基因测序——精准治癌正在成为现实
 - 习题7
 - 第8章 大数据安全
 - 8.1 大数据安全的重要意义
 - 8.2 大数据面临的挑战
 - 8.3 大数据的安全威胁
 - 8.3.1 大数据基础设施安全威胁
 - 8.3.2 大数据存储安全威胁
 - 8.3.3 大数据的隐私泄露
 - 8.3.4 大数据的其他安全威胁
 - 8.4 大数据与网络攻击监测
 - 8.5 大数据安全分析
 - 8.6 大数据安全标准
 - 8.6.1 基础标准类
 - 8.6.2 平台和技术类
 - 8.6.3 数据安全类
 - 8.6.4 服务安全类
 - 8.6.5 应用安全类
 - 8.7 大数据安全技术
 - 习题8
 - 附录 大数据软件安装
 - 参考文献
 
                        展开全部
                        
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。
