商业
类型
可以朗读
语音朗读
168千字
字数
2019-06-01
发行日期
展开全部
主编推荐语
大数据原理与应用:全面讲解概念、技术、实例。
内容简介
本书系统介绍大数据技术的原理、数据挖掘与应用,主要内容包括基本概念、数据搜集、数据存储、数据处理、大数据的可视化、信息检索、数据挖掘和效能评估。本书以简单易懂的语言、生动有趣的实例和图形展示知识点,将概念、原理与应用融会贯通,并对大数据工具软件进行了细致的梳理。
目录
- 封面
- 扉页
- 内容简介
- 版权页
- 前言
- 目录
- 第1章 大数据概述
- 1.1 从AlphaGo说起
- 1.2 大数据定义
- 1.3 大数据产生的原因
- 1.4 大数据发展历程
- 1.5 大数据的特征
- 1.6 数据的度量
- 1.7 大数据思维
- 1.8 科学研究范式的发展
- 1.9 大数据的影响及应用
- 1.10 大数据计算模式及产品
- 第2章 数据收集
- 2.1 外部数据收集
- 2.1.1 网络爬虫原理
- 2.1.2 搜索排序策略
- 2.1.3 Web网络图
- 2.1.4 构建爬虫系统
- 2.2 内部数据收集
- 2.2.1 Flume
- 2.2.2 Chukwa
- 第3章 数据存储
- 3.1 文件存储
- 3.1.1 Hadoop简介
- 3.1.2 HDFS设计原则
- 3.1.3 HDFS的基本术语
- 3.1.4 HDFS运行架构
- 3.1.5 HDFS安全设计
- 3.1.6 HDFS的弱点
- 3.2 数据库存储
- 3.2.1 NoSQL简介
- 3.2.2 列族数据库HBase
- 3.2.3 文档数据库MongoDB
- 3.2.4 图数据库
- 3.2.5 键-值对数据库
- 第4章 数据处理
- 4.1 离线批处理框架
- 4.2 MapReduce计算框架
- 4.3 Hadoop简介
- 4.3.1 Hadoop生态圈
- 4.3.2 Hadoop发展历程
- 4.3.3 Hadoop的特点
- 4.3.4 Hadoop的版本
- 4.4 HDFS高可用性架构
- 4.5 HDFS联邦
- 4.6 YARN
- 4.7 Hadoop工具集
- 4.8 消息机制
- 4.8.1 消息处理模型
- 4.8.2 JMS
- 4.9 内存计算框架Spark
- 4.9.1 Spark的配置方式
- 4.9.2 Spark的主要特点
- 4.9.3 Spark生态圈
- 4.9.4 Spark与Hadoop比较
- 4.9.5 Spark运行架构
- 4.9.6 Spark基本运行流程
- 4.9.7 RDD
- 4.10 流式计算框架
- 4.10.1 流式计算处理过程
- 4.10.2 常见的流式计算软件
- 4.10.3 Storm系统
- 4.10.4 Spark Streaming
- 4.10.5 流计算与批处理计算的区别
- 4.11 图计算
- 4.11.1 Pregel图计算框架的提出
- 4.11.2 超步
- 4.11.3 Pregel计算模型
- 4.11.4 Pregel的C++ API
- 4.11.5 Pregel体系结构
- 4.11.6 容错性
- 第5章 数据可视化
- 5.1 数据可视化定义
- 5.2 数据可视化发展历程
- 5.3 数据可视化的作用
- 5.4 数据可视化设计步骤
- 5.5 数据可视化设计要素
- 5.6 颜色可视化设计
- 5.6.1 色彩空间
- 5.6.2 色彩三要素
- 5.7 数据可视化基本图形选用
- 5.8 数据可视化工具
- 第6章 信息检索
- 6.1 信息检索定义
- 6.2 相关性
- 6.2.1 布尔模型
- 6.2.2 排序布尔模型
- 6.2.3 向量空间模型
- 6.2.4 语言模型
- 6.3 及时性
- 6.4 搜索引擎
- 6.4.1 网页链接分析法
- 6.4.2 电子商务中的商品排序
- 6.4.3 开源搜索引擎
- 6.5 推荐系统
- 6.5.1 何谓推荐系统
- 6.5.2 推荐系统与电商
- 6.5.3 推荐系统数据基础
- 6.5.4 推荐方法
- 6.5.5 开源推荐系统
- 6.6 互联网广告
- 第7章 数据挖掘
- 7.1 基本概念
- 7.1.1 数据挖掘的定义
- 7.1.2 相关技术
- 7.2 数据来源
- 7.3 数据表示与预处理
- 7.4 机器学习算法
- 7.4.1 关联分析
- 7.4.2 分类
- 7.4.3 回归分析算法
- 7.4.4 聚类分析
- 7.5 数据挖掘工具软件
- 第8章 效能评估
- 8.1 效果评估
- 8.1.1 对信息检索的评估
- 8.1.2 对分类的评估
- 8.1.3 对聚类的评估
- 8.2 性能评估
- 附录 Hadoop编年史
- 参考文献
- 封底
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。