展开全部

主编推荐语

资深大数据专家多年实战经验总结,拒绝晦涩,开启大数据与机器学习妙趣之旅。

内容简介

从行为脉络来看,本书基本上是从数据统计、数据指标理解、数据模型、聚类/分类与机器学习、数据应用、大数据框架补充知识,以及扩展讨论这样的角度来层层深入完成的。这种方式会给读者比较好的带入感,让大家——尤其是不擅长数学的读者降低对大数据与机器学习算法的恐惧感。如果读者朋友对排列组合、统计分布这些基础知识比较了解,完全可以考虑跳过这些部分直接去读后面更感兴趣的内容。为了调节阅读气氛,我们还尝试加入了一些漫画插图。为了让读者朋友能够更快地进行实践,我们几乎在每一个算法讲解后都配有Python或者SQL语言的实现部分。相信这些能够帮助大家更快、更轻松地阅读本书。

目录

  • 版权信息
  • 前言
  • 第1章 大数据产业
  • 1.1 大数据产业现状
  • 1.2 对大数据产业的理解
  • 1.3 大数据人才
  • 1.3.1 供需失衡
  • 1.3.2 人才方向
  • 1.3.3 环节和工具
  • 1.3.4 门槛障碍
  • 1.4 小结
  • 第2章 步入数据之门
  • 2.1 什么是数据
  • 2.2 什么是信息
  • 2.3 什么是算法
  • 2.4 统计、概率和数据挖掘
  • 2.5 什么是商业智能
  • 2.6 小结
  • 第3章 排列组合与古典概型
  • 3.1 排列组合的概念
  • 3.1.1 公平的决断——扔硬币
  • 3.1.2 非古典概型
  • 3.2 排列组合的应用示例
  • 3.2.1 双色球彩票
  • 3.2.2 购车摇号
  • 3.2.3 德州扑克
  • 3.3 小结
  • 第4章 统计与分布
  • 4.1 加和值、平均值和标准差
  • 4.1.1 加和值
  • 4.1.2 平均值
  • 4.1.3 标准差
  • 4.2 加权均值
  • 4.2.1 混合物定价
  • 4.2.2 决策权衡
  • 4.3 众数、中位数
  • 4.3.1 众数
  • 4.3.2 中位数
  • 4.4 欧氏距离
  • 4.5 曼哈顿距离
  • 4.6 同比和环比
  • 4.7 抽样
  • 4.8 高斯分布
  • 4.9 泊松分布
  • 4.10 伯努利分布
  • 4.11 小结
  • 第5章 指标
  • 5.1 什么是指标
  • 5.2 指标化运营
  • 5.2.1 指标的选择
  • 5.2.2 指标体系的构建
  • 5.3 小结
  • 第6章 信息论
  • 6.1 信息的定义
  • 6.2 信息量
  • 6.2.1 信息量的计算
  • 6.2.2 信息量的理解
  • 6.3 香农公式
  • 6.4 熵
  • 6.4.1 热力熵
  • 6.4.2 信息熵
  • 6.5 小结
  • 第7章 多维向量空间
  • 7.1 向量和维度
  • 7.1.1 信息冗余
  • 7.1.2 维度
  • 7.2 矩阵和矩阵计算
  • 7.3 数据立方体
  • 7.4 上卷和下钻
  • 7.5 小结
  • 第8章 回归
  • 8.1 线性回归
  • 8.2 拟合
  • 8.3 残差分析
  • 8.4 过拟合
  • 8.5 欠拟合
  • 8.6 曲线拟合转化为线性拟合
  • 8.7 小结
  • 第9章 聚类
  • 9.1 K-Means算法
  • 9.2 有趣模式
  • 9.3 孤立点
  • 9.4 层次聚类
  • 9.5 密度聚类
  • 9.6 聚类评估
  • 9.6.1 聚类趋势
  • 9.6.2 簇数确定
  • 9.6.3 测定聚类质量
  • 9.7 小结
  • 第10章 分类
  • 10.1 朴素贝叶斯
  • 10.1.1 天气的预测
  • 10.1.2 疾病的预测
  • 10.1.3 小结
  • 10.2 决策树归纳
  • 10.2.1 样本收集
  • 10.2.2 信息增益
  • 10.2.3 连续型变量
  • 10.3 随机森林
  • 10.4 隐马尔可夫模型
  • 10.4.1 维特比算法
  • 10.4.2 前向算法
  • 10.5 支持向量机SVM
  • 10.5.1 年龄和好坏
  • 10.5.2 “下刀”不容易
  • 10.5.3 距离有多远
  • 10.5.4 N维度空间中的距离
  • 10.5.5 超平面怎么画
  • 10.5.6 分不开怎么办
  • 10.5.7 示例
  • 10.5.8 小结
  • 10.6 遗传算法
  • 10.6.1 进化过程
  • 10.6.2 算法过程
  • 10.6.3 背包问题
  • 10.6.4 极大值问题
  • 10.7 小结
  • 第11章 关联分析
  • 11.1 频繁模式和Apriori算法
  • 11.1.1 频繁模式
  • 11.1.2 支持度和置信度
  • 11.1.3 经典的Apriori算法
  • 11.1.4 求出所有频繁模式
  • 11.2 关联分析与相关性分析
  • 11.3 稀有模式和负模式
  • 11.4 小结
  • 第12章 用户画像
  • 12.1 标签
  • 12.2 画像的方法
  • 12.2.1 结构化标签
  • 12.2.2 非结构化标签
  • 12.3 利用用户画像
  • 12.3.1 割裂型用户画像
  • 12.3.2 紧密型用户画像
  • 12.3.3 到底“像不像”
  • 12.4 小结
  • 第13章 推荐算法
  • 13.1 推荐思路
  • 13.1.1 贝叶斯分类
  • 13.1.2 利用搜索记录
  • 13.2 User-based CF
  • 13.3 Item-based CF
  • 13.4 优化问题
  • 13.5 小结
  • 第14章 文本挖掘
  • 14.1 文本挖掘的领域
  • 14.2 文本分类
  • 14.2.1 Rocchio算法
  • 14.2.2 朴素贝叶斯算法
  • 14.2.3 K-近邻算法
  • 14.2.4 支持向量机SVM算法
  • 14.3 小结
  • 第15章 人工神经网络
  • 15.1 人的神经网络
  • 15.1.1 神经网络结构
  • 15.1.2 结构模拟
  • 15.1.3 训练与工作
  • 15.2 FANN库简介
  • 15.3 常见的神经网络
  • 15.4 BP神经网络
  • 15.4.1 结构和原理
  • 15.4.2 训练过程
  • 15.4.3 过程解释
  • 15.4.4 示例
  • 15.5 玻尔兹曼机
  • 15.5.1 退火模型
  • 15.5.2 玻尔兹曼机
  • 15.6 卷积神经网络
  • 15.6.1 卷积
  • 15.6.2 图像识别
  • 15.7 深度学习
  • 15.8 小结
  • 第16章 大数据框架简介
  • 16.1 著名的大数据框架
  • 16.2 Hadoop框架
  • 16.2.1 MapReduce原理
  • 16.2.2 安装Hadoop
  • 16.2.3 经典的WordCount
  • 16.3 Spark框架
  • 16.3.1 安装Spark
  • 16.3.2 使用Scala计算WordCount
  • 16.4 分布式列存储框架
  • 16.5 PrestoDB——神奇的CLI
  • 16.5.1 Presto为什么那么快
  • 16.5.2 安装Presto
  • 16.6 小结
  • 第17章 系统架构和调优
  • 17.1 速度——资源的配置
  • 17.1.1 思路一:逻辑层面的优化
  • 17.1.2 思路二:容器层面的优化
  • 17.1.3 思路三:存储结构层面的优化
  • 17.1.4 思路四:环节层面的优化
  • 17.1.5 资源不足
  • 17.2 稳定——资源的可用
  • 17.2.1 借助云服务
  • 17.2.2 锁分散
  • 17.2.3 排队
  • 17.2.4 谨防“雪崩”
  • 17.3 小结
  • 第18章 数据解读与数据的价值
  • 18.1 运营指标
  • 18.1.1 互联网类型公司常用指标
  • 18.1.2 注意事项
  • 18.2 AB测试
  • 18.2.1 网页测试
  • 18.2.2 方案测试
  • 18.2.3 灰度发布
  • 18.2.4 注意事项
  • 18.3 数据可视化
  • 18.3.1 图表
  • 18.3.2 表格
  • 18.4 多维度——大数据的灵魂
  • 18.4.1 多大算大
  • 18.4.2 大数据网络
  • 18.4.3 去中心化才能活跃
  • 18.4.4 数据会过剩吗
  • 18.5 数据变现的场景
  • 18.5.1 数据价值的衡量的讨论
  • 18.5.2 场景1:征信数据
  • 18.5.3 场景2:宏观数据
  • 18.5.4 场景3:画像数据
  • 18.6 小结
  • 附录A VMware Workstation的安装
  • 附录B CentOS虚拟机的安装方法
  • 附录C Python语言简介
  • 附录D Scikit-learn库简介
  • 附录E FANN for Python安装
  • 附录F 群众眼中的大数据
  • 写作花絮
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分
  • 加载中...

出版方

机械工业出版社有限公司

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。