主编推荐语
实战经验解析大数据,从理论到实际应用,助力企业迎接信息化挑战。
内容简介
你是不是有这样的困惑:“读了不少关于大数据的书,发现这大数据既可以用于竞选美国总统,又能够预测禽流感,还能卖啤酒和尿不湿,又是围棋高手……大数据好像什么都能干耶!可是咋整呀?大数据多大为大呀?大数据能赚钱不?……唉,怎么还是一头雾水。”本书将为你答疑解惑。本书将展现作者在国内外大数据第一线的实战经验,面向不同行业的共性诉求来指导读者大数据该怎么做,并阐明大数据发展的误区。本书对大数据,从经济价值、商业模式、框架搭建、数据挖掘、网络布置、安全防护、人员能力和后续运维管理多个维度,以及基础设施、中间件、重点应用等多个层面进行系统阐述。帮助决策者将大数据概念落地,建立起理性的预期、合理的规划,并最终收获满意的经济效益。企业正面临从传统IT转入大数据环境这一不可避免的范式变化,恰好为我国追赶发达国家信息化建设带来了契机。本书以企业共同关注的客户关系管理(CRM)为实例谈大数据落地,利用大数据采集、分析、决策以达到客户维系拓展、精准营销和创新产品的目的,提出一整套从规划到实施再到后续运维的技术路线和策略。并用一个已上线的实例将各部分内容串起来综合展示,以解决大数据热潮中的“老虎吃天,无处下爪”的窘境。这对于大数据的正确理解,企业信息系统的建立,以及相应的商业模式改变都具有实际指导意义。
目录
- 封面
- 版权页
- 序言1
- 序言2
- 前言
- 目录
- 第1篇 大数据导论
- 第1章 初识大数据
- 1.1 大数据概念谈
- 1.1.1 大数据的定义
- 1.1.2 大数据发展现状
- 1.1.3 大数据建设需求分析
- 1.1.4 大数据建设目标
- 1.1.5 机器学习与人工智能
- 1.2 大数据的科学性
- 1.3 客户关系管理
- 1.4 大数据的理解误区
- 1.5 小结
- 第2章 大数据产业链初探
- 2.1 现金流与产业模式
- 2.2 国外IT企业
- 2.3 国内IT企业
- 2.4 开源软件
- 2.5 小微企业
- 2.6 政策制定者
- 2.7 小结
- 第2篇 规划篇
- 第3章 大数据体系规划
- 3.1 大数据技术体系
- 3.1.1 大数据采集与预处理
- 3.1.2 大数据存储
- 3.1.3 大数据计算
- 3.1.4 大数据分析
- 3.1.5 大数据治理
- 3.1.6 大数据安全保障
- 3.1.7 大数据应用支撑
- 3.2 大数据共性技术重点课题
- 3.2.1 开放域数据采集与共享
- 3.2.2 多源异构数据分析技术
- 3.2.3 异构计算模式集成技术
- 3.2.4 数据安全与隐私保护
- 3.3 大数据风险管控
- 3.3.1 企业大数据建设风险分析
- 3.3.2 大数据安全标准体系框架
- 3.3.3 大数据安全标准规划
- 3.4 小结
- 第4章 大数据技术要求
- 4.1 大数据总体架构
- 4.1.1 背景概述
- 4.1.2 现状分析
- 4.1.3 总体目标
- 4.1.4 技术架构
- 4.1.5 实施指引
- 4.2 采集要求
- 4.2.1 功能架构
- 4.2.2 技术架构
- 4.2.3 处理技术
- 4.2.4 场景应用
- 4.2.5 接口协议
- 4.2.6 接口约定
- 4.2.7 性能指标
- 4.3 基础能力要求
- 4.3.1 总体概述
- 4.3.2 基础框架
- 4.3.3 能力开放
- 4.3.4 性能指标
- 4.4 核心处理能力要求
- 4.4.1 总体概述
- 4.4.2 数据模型
- 4.4.3 数据处理
- 4.4.4 数据质量
- 4.4.5 系统性能
- 4.5 需求与项目管理
- 4.6 小结
- 第3篇 实施篇
- 第5章 大数据并行计算框架
- 5.1 并行计算技术
- 5.1.1 基本命题
- 5.1.2 设计模式分类
- 5.1.3 关键技术点
- 5.2 MapReduce计算技术
- 5.2.1 处理模型设计原则
- 5.2.2 主要功能与技术设计
- 5.3 Hadoop MapReduce设计与工作模式
- 5.3.1 程序执行模式
- 5.3.2 作业调度模式
- 5.3.3 执行框架及流程设计
- 5.4 Hadoop MapReduce组件接口
- 5.4.1 InputFormat
- 5.4.2 InputSplit
- 5.4.3 RecordReader
- 5.4.4 Mapper
- 5.4.5 Combiner
- 5.4.6 Partitioner
- 5.5 小结
- 第6章 大数据分布式处理系统
- 6.1 Hadoop系统平台
- 6.1.1 分布式结构设计
- 6.1.2 Hadoop生态系统
- 6.2 HDFS分布式文件系统
- 6.2.1 系统结构
- 6.2.2 可靠性设计
- 6.2.3 文件存储组织
- 6.2.4 数据读写过程
- 6.2.5 文件系统操作
- 6.3 HBase分布式数据库
- 6.3.1 技术特点
- 6.3.2 系统结构设计
- 6.3.3 数据存储模型
- 6.3.4 查询模式
- 6.3.5 数据表设计
- 6.3.6 RegionServer配置
- 6.4 小结
- 第7章 大数据存储
- 7.1 磁盘阵列技术
- 7.2 数据存储接口
- 7.2.1 对象存储
- 7.2.2 裸设备存储
- 7.2.3 块存储
- 7.3 存储集群架构
- 7.3.1 共享式与非共享式
- 7.3.2 对称式与非对称式
- 7.3.3 自助式与服务式
- 7.3.4 SPI与SFI
- 7.3.5 串行方式与并行方式
- 7.4 数据存储技术本质
- 7.4.1 三网统一理论
- 7.4.2 并行概念理解
- 7.4.3 集群分层架构
- 7.5 数据分级存储探讨
- 7.5.1 超融合
- 7.5.2 冷数据
- 7.5.3 平台架构
- 7.5.4 应用场景
- 7.6 小结
- 第8章 机器学习与人工智能
- 8.1 数据挖掘
- 8.1.1 数据分类采集
- 8.1.2 模式类型设计
- 8.1.3 模式价值分析
- 8.1.4 系统关键技术
- 8.2 机器学习
- 8.2.1 算法分类
- 8.2.2 合适算法选择
- 8.2.3 程序开发设计
- 8.3 人工智能
- 8.3.1 模式定义
- 8.3.2 人工智能举例
- 8.4 小结
- 第4篇 运维篇
- 第9章 大数据集群网络架构
- 9.1 现有数据中心网络架构
- 9.1.1 架构分析
- 9.1.2 存在弊端
- 9.2 大数据网络设计要点
- 9.2.1 大数据业务分析
- 9.2.2 大数据网络流量模型
- 9.2.3 大数据网络新需求
- 9.3 新兴网络技术
- 9.3.1 SDN
- 9.3.2 NFV
- 9.3.3 VXLAN
- 9.3.4 InfiniBand
- 9.4 小结
- 第10章 大数据安全
- 10.1 大数据安全挑战
- 10.2 基础设施安全
- 10.2.1 存在威胁
- 10.2.2 虚拟化安全
- 10.3 数据安全
- 10.3.1 数据采集安全技术
- 10.3.2 数据存储安全技术
- 10.3.3 数据挖掘安全技术
- 10.3.4 数据发布安全技术
- 10.4 大数据平台Hadoop安全
- 10.4.1 Hadoop安全问题概述
- 10.4.2 Kerberos概述
- 10.4.3 Kerberos认证过程
- 10.4.4 Hadoop安全机制
- 10.4.5 Kerberos的优缺点
- 10.5 小结
- 第11章 大数据备份与恢复
- 11.1 数据备份与恢复
- 11.1.1 数据备份
- 11.1.2 数据恢复
- 11.2 分布式存储系统备份与恢复
- 11.2.1 概述
- 11.2.2 HDFS数据备份策略
- 11.3 小结
- 第12章 大数据环境的监管
- 12.1 概述
- 12.2 大数据集群配置管理
- 12.3 大数据集群监控
- 12.3.1 大数据监控特点
- 12.3.2 监控系统
- 12.3.3 监控系统建立途径
- 12.3.4 商业监控软件
- 12.3.5 开源监控软件
- 12.3.6 传统网络管理软件:网鹰
- 12.3.7 统一管理平台:UMP
- 12.4 大数据日志分析
- 12.5 小结
- 第13章 大数据的运维方法
- 13.1 运维服务
- 13.2 运维流程模型
- 13.2.1 故障排查
- 13.2.2 紧急事故管理
- 13.2.3 处理连锁故障
- 13.3 运维人员
- 13.3.1 需要具备的能力
- 13.3.2 任务内容
- 13.4 自动化与智能运维
- 13.4.1 自动化运维价值
- 13.4.2 自动化运维工具
- 13.5 小结
- 第5篇 实例篇
- 第14章 Oracle MoviePlex大数据规划
- 14.1 案例概述
- 14.1.1 案例背景
- 14.1.2 架构规划
- 14.2 大数据组件介绍
- 14.2.1 Cloudera的CDH
- 14.2.2 Cloudera管理器
- 14.2.3 Oracle大数据连接器
- 14.2.4 Oracle大数据加载器
- 14.2.5 Oracle大数据整合器
- 14.2.6 Oracle R语言连接器
- 14.2.7 Oracle NoSQL数据库
- 14.3 小结
- 第15章 Oracle MoviePlex大数据实施
- 15.1 环境准备
- 15.1.1 MoviePlex环境部署
- 15.1.2 MoviePlex环境初始化
- 15.2 案例演示
- 15.2.1 配置Oracle Big Data SQL
- 15.2.2 建立存放在HDFS中的日志表
- 15.2.3 Hive访问HDFS和NoSQL
- 15.2.4 Oracle Big Data SQL新功能
- 15.2.5 Oracle Big Data安全策略
- 15.2.6 Oracle分析SQL
- 15.2.7 Oracle SQL模式匹配
- 15.2.8 创建汇总数据集
- 15.2.9 Oracle Database 12c SQL分析特点
- 15.3 推荐系统
- 15.3.1 百万美元大奖赛
- 15.3.2 技术细节
- 15.4 小结
- 第16章 Oracle MoviePlex大数据运维
- 16.1 集群
- 16.1.1 Hadoop
- 16.1.2 ZooKeeper
- 16.2 文件系统和非关系数据库
- 16.2.1 HDFS
- 16.2.2 HBase
- 16.2.3 NoSQL
- 16.2.4 Kafka
- 16.3 中间件
- 16.3.1 WebLogic
- 16.3.2 Hue
- 16.3.3 Solr
- 16.4 数据转换
- 16.4.1 Hive
- 16.4.2 Impala
- 16.4.3 Sqoop2
- 16.5 资源整合调度
- 16.5.1 Oozie
- 16.5.2 YARN
- 16.6 小结
- 第6篇 明天的大数据
- 第17章 大数据面临的挑战
- 17.1 可靠性挑战
- 17.2 可扩展性挑战
- 17.3 系统安全挑战
- 17.4 节能降耗
- 17.5 算法挑战
- 17.6 测不准原理
- 17.7 小结
- 第18章 大数据应用
- 18.1 客户关系与供求管理
- 18.2 科学研究
- 18.3 教育大数据应用
- 18.4 区块链与加密货币
- 18.5 小结
- 结束语
- 附录A 安装Cloudera Apache Hadoop
- A.1 环境准备
- A.1.1 Cloudera管理器架构
- A.1.2 服务器环境准备
- A.1.3 安装介质下载
- A.1.4 本地yum源搭建
- A.2 安装Cloudera Manager Server
- A.3 部署Hadoop集群
- A.4 安装结果
- 附录B 在MATLAB中应用MapReduce
- B.1 datastore简介
- B.2 搜寻需要的项
- B.3 MapReduce简介
- B.4 如何运用MapReduce进行运算
- B.5 MapReduce中对于键的使用
- B.6 使用MapReduce计算分组指标
- B.7 输出结果可视化
- 附录C 从AlphaGo到AlphaZero
- 参考文献
- 反侵权盗版声明
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。