展开全部

主编推荐语

大数据原理与应用:全面讲解概念、技术、实例。

内容简介

本书系统介绍大数据技术的原理、数据挖掘与应用,主要内容包括基本概念、数据搜集、数据存储、数据处理、大数据的可视化、信息检索、数据挖掘和效能评估。本书以简单易懂的语言、生动有趣的实例和图形展示知识点,将概念、原理与应用融会贯通,并对大数据工具软件进行了细致的梳理。

目录

  • 封面
  • 扉页
  • 内容简介
  • 版权页
  • 前言
  • 目录
  • 第1章 大数据概述
  • 1.1 从AlphaGo说起
  • 1.2 大数据定义
  • 1.3 大数据产生的原因
  • 1.4 大数据发展历程
  • 1.5 大数据的特征
  • 1.6 数据的度量
  • 1.7 大数据思维
  • 1.8 科学研究范式的发展
  • 1.9 大数据的影响及应用
  • 1.10 大数据计算模式及产品
  • 第2章 数据收集
  • 2.1 外部数据收集
  • 2.1.1 网络爬虫原理
  • 2.1.2 搜索排序策略
  • 2.1.3 Web网络图
  • 2.1.4 构建爬虫系统
  • 2.2 内部数据收集
  • 2.2.1 Flume
  • 2.2.2 Chukwa
  • 第3章 数据存储
  • 3.1 文件存储
  • 3.1.1 Hadoop简介
  • 3.1.2 HDFS设计原则
  • 3.1.3 HDFS的基本术语
  • 3.1.4 HDFS运行架构
  • 3.1.5 HDFS安全设计
  • 3.1.6 HDFS的弱点
  • 3.2 数据库存储
  • 3.2.1 NoSQL简介
  • 3.2.2 列族数据库HBase
  • 3.2.3 文档数据库MongoDB
  • 3.2.4 图数据库
  • 3.2.5 键-值对数据库
  • 第4章 数据处理
  • 4.1 离线批处理框架
  • 4.2 MapReduce计算框架
  • 4.3 Hadoop简介
  • 4.3.1 Hadoop生态圈
  • 4.3.2 Hadoop发展历程
  • 4.3.3 Hadoop的特点
  • 4.3.4 Hadoop的版本
  • 4.4 HDFS高可用性架构
  • 4.5 HDFS联邦
  • 4.6 YARN
  • 4.7 Hadoop工具集
  • 4.8 消息机制
  • 4.8.1 消息处理模型
  • 4.8.2 JMS
  • 4.9 内存计算框架Spark
  • 4.9.1 Spark的配置方式
  • 4.9.2 Spark的主要特点
  • 4.9.3 Spark生态圈
  • 4.9.4 Spark与Hadoop比较
  • 4.9.5 Spark运行架构
  • 4.9.6 Spark基本运行流程
  • 4.9.7 RDD
  • 4.10 流式计算框架
  • 4.10.1 流式计算处理过程
  • 4.10.2 常见的流式计算软件
  • 4.10.3 Storm系统
  • 4.10.4 Spark Streaming
  • 4.10.5 流计算与批处理计算的区别
  • 4.11 图计算
  • 4.11.1 Pregel图计算框架的提出
  • 4.11.2 超步
  • 4.11.3 Pregel计算模型
  • 4.11.4 Pregel的C++ API
  • 4.11.5 Pregel体系结构
  • 4.11.6 容错性
  • 第5章 数据可视化
  • 5.1 数据可视化定义
  • 5.2 数据可视化发展历程
  • 5.3 数据可视化的作用
  • 5.4 数据可视化设计步骤
  • 5.5 数据可视化设计要素
  • 5.6 颜色可视化设计
  • 5.6.1 色彩空间
  • 5.6.2 色彩三要素
  • 5.7 数据可视化基本图形选用
  • 5.8 数据可视化工具
  • 第6章 信息检索
  • 6.1 信息检索定义
  • 6.2 相关性
  • 6.2.1 布尔模型
  • 6.2.2 排序布尔模型
  • 6.2.3 向量空间模型
  • 6.2.4 语言模型
  • 6.3 及时性
  • 6.4 搜索引擎
  • 6.4.1 网页链接分析法
  • 6.4.2 电子商务中的商品排序
  • 6.4.3 开源搜索引擎
  • 6.5 推荐系统
  • 6.5.1 何谓推荐系统
  • 6.5.2 推荐系统与电商
  • 6.5.3 推荐系统数据基础
  • 6.5.4 推荐方法
  • 6.5.5 开源推荐系统
  • 6.6 互联网广告
  • 第7章 数据挖掘
  • 7.1 基本概念
  • 7.1.1 数据挖掘的定义
  • 7.1.2 相关技术
  • 7.2 数据来源
  • 7.3 数据表示与预处理
  • 7.4 机器学习算法
  • 7.4.1 关联分析
  • 7.4.2 分类
  • 7.4.3 回归分析算法
  • 7.4.4 聚类分析
  • 7.5 数据挖掘工具软件
  • 第8章 效能评估
  • 8.1 效果评估
  • 8.1.1 对信息检索的评估
  • 8.1.2 对分类的评估
  • 8.1.3 对聚类的评估
  • 8.2 性能评估
  • 附录 Hadoop编年史
  • 参考文献
  • 封底
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。