展开全部

主编推荐语

本书用幽默文笔教你用R语言做数据挖掘和可视化。

内容简介

数据分析、数据挖掘的本质是探寻数据背后的逻辑,挖掘人们的欲望、需求、态度等。本书不仅仅教会你如何掌握数据挖掘相关技能,更教会你如何从数据挖掘结果中分析出更深层次的逻辑。

本书主要介绍使用R语言进行数据挖掘的过程。具体内容包括R软件的安装及R语言基础知识、数据探索、数据可视化、回归预测分析、时间序列分析、算法选择流程及十大算法介绍、数据抓取、社交网络关系分析、情感分析、话题模型、推荐系统,以及数据挖掘在生物信息学中的应用。

另外,本书还介绍了R脚本优化相关内容,使读者的数据挖掘技能更上一层楼。

本书适合从事数据挖掘、数据分析、市场研究的工作者及学生群体,以及对数据挖掘和数据分析感兴趣的初级读者。

目录

  • 版权信息
  • 作者简介
  • 序言 提纲挈领式心诀:一名数据挖掘工程师的成长之路
  • 前言 什么是规范化的数据挖掘流程
  • 其他
  • 第1章 万事不只开头难
  • 1.1 工欲善其事,必先利其器:安装
  • 1.1.1 安装R和RStudio
  • 1.1.2 安装数据包
  • 1.1.3 数据包加载、卸载、升级,查看帮助文档
  • 1.1.4 什么样的R包值得相信
  • 1.2 了解R的对象
  • 1.2.1 如何进行常见的算术运算
  • 1.2.2 R语言的三大数据类型
  • 1.2.3 向量及其运算
  • 1.2.4 因子变量鲜有人知的秘密
  • 1.2.5 矩阵相关运算及神奇的特征值
  • 1.2.6 数据框及其筛选、替换、添加、排序、去重
  • 1.2.7 与数组(array)相比,表单(list)的用处更加广泛
  • 1.2.8 如何进行数据结构之间的转化
  • 1.3 R语言的重器:函数
  • 1.3.1 自编函数
  • 1.3.2 有用的R字符串函数
  • 1.4 控制流在R语言里只是一种辅助工具
  • 1.4.1 判断
  • 1.4.2 循环
  • 1.5 数据的读入与输出
  • 1.5.1 常见数据格式的输入/输出(CSV、TXT、RDATA、XLSX)
  • 1.5.2 数据库连接:Oracle、MySQL及Hive
  • 1.5.3 乱码就像马赛克一样让人讨厌
  • 第2章 数据探索,招招都是利器
  • 2.1 不要在工作后才认识“脏数据”
  • 2.1.1 以老板信服的方式处理缺失数据
  • 2.1.2 异常值预警
  • 2.1.3 字符处理正则表达式不再是天书
  • 2.2 数据透视、数据整形、关联融合与批量处理
  • 2.2.1 还忘不掉Excel的数据透视表吗
  • 2.2.2 你能给数据做整形手术吗:long型和wide型
  • 2.2.3 关联合并表
  • 2.2.4 数据批处理:R语言里最重要的一个函数家族:*pply
  • 2.3 一招完成数据探索报告
  • 2.4 拯救你的很多时候是基础理论
  • 2.4.1 参数检验及非参检验
  • 2.4.2 学了很多算法却忘了方差分析
  • 2.4.3 多因素方差分析及协方差作用
  • 2.4.4 很多熟悉的数据处理方法已经成笑话,工具箱该换了
  • 第3章 从商务气质的数据可视化说起
  • 3.1 说说数据可视化的专业素养
  • 3.1.1 数据可视化历史上有多少背影等你仰望
  • 3.1.2 商务图表应该具有哪些素质
  • 3.1.3 那些你不知道的图表误导性伎俩
  • 3.1.4 如何快速解构著名杂志的图表
  • 3.2 ggplot2包:一个价值8万美元的态度
  • 3.2.1 一张图学会ggplot2包的绘图原理
  • 3.2.2 基础绘图科学:ggplot2包的主题函数继承关系图(关系网络图)
  • 3.2.3 基础图表一网打尽
  • 3.2.4 古老的地图焕发新颜
  • 3.3 将静态图转为D3交互图表:plotly
  • 3.4 从基础到进阶的变形图表
  • 3.4.1 马赛克图(分类变量描述性分析)
  • 3.4.2 Sankey图和chordDiagram图
  • 第4章 分位数回归模拟股票指数风险通道
  • 4.1 用线性回归预测医院的药品销售额
  • 4.2 多项式回归及常见回归方程的书写
  • 4.3 Lasso回归和回归评价的常见指标
  • 4.4 分位数回归拟合上证指数风险通道
  • 第5章 时间序列分析
  • 5.1 时间序列分析:分析带有时间属性的数列
  • 5.2 不是所有序列都叫时间序列
  • 5.3 时间序列三件宝:趋势、周期、随机波动
  • 5.3.1 趋势
  • 5.3.2 周期
  • 5.3.3 随机波动
  • 5.4 预测分析
  • 5.4.1 指数平滑法
  • 5.4.2 ARIMA模型预测
  • 第6章 选择什么算法也有一套流程
  • 6.1 重新审视一下这几个模型
  • 6.1.1 Logistic回归
  • 6.1.2 我要的不是一棵树,而是整座森林:随机森林
  • 6.1.3 神奇的神经网络
  • 6.2 银行信用卡评估模型之变量筛选
  • 6.2.1 变量构建
  • 6.2.2 Logistic回归变量筛选
  • 6.2.3 随机森林变量筛选
  • 6.2.4 人工神经网络建模
  • 6.3 必须面对的模型评估
  • 第7章 深入浅出十大算法
  • 7.1 C5.0算法
  • 7.1.1 一个重要的概念:信息熵
  • 7.1.2 非列变量选择的实例
  • 7.1.3 C5.0算法的R实现
  • 7.2 K-means算法
  • 7.2.1 K-means算法的R实现
  • 7.2.2 怎么确定聚类数
  • 7.3 支持向量机(SVM)算法
  • 7.3.1 通俗理解SVM
  • 7.3.2 SVM的R实现
  • 7.4 Apriori算法
  • 7.4.1 举例说明Apriori
  • 7.4.2 Apriori算法的R实现
  • 7.5 EM算法
  • 7.5.1 举例说明EM算法
  • 7.5.2 EM算法的R实现
  • 7.6 PageRank算法
  • 7.7 AdaBoost算法
  • 7.8 KNN算法与K-means算法有什么不同
  • 7.9 Naive Bayes(朴素贝叶斯)算法
  • 7.10 CART算法
  • 第8章 数据抓取
  • 8.1 数据挖掘工程师不可抱怨“巧妇难为无米之炊”
  • 8.2 抓取股市龙虎榜数据,碰碰运气
  • 8.2.1 了解XML和Html树状结构,才能庖丁解牛
  • 8.2.2 了解RCurl包和网页解析函数
  • 8.2.3 抓取股票龙虎榜
  • 8.2.4 资金流入分析
  • 8.3 抓取某家医药信息网站全站药品销售数据
  • 8.3.1 所有医药公司名称一网打尽
  • 8.3.2 为什么抓取数据时可以使用For循环
  • 8.3.3 不要把代码写复杂
  • 8.3.4 用Sankey数据流描绘医药市场份额流动
  • 第9章 不可不说的社交网络关系
  • 9.1 社交网络图
  • 9.1.1 社交网络图告诉你和谁交朋友
  • 9.1.2 这几个基本概念你需要抓牢
  • 9.1.3 还有比本章任务更有趣的数据挖掘吗
  • 9.2 你还要装备几个评价指标
  • 9.2.1 社交网络大小
  • 9.2.2 社交网络关系的完备性
  • 9.2.3 节点实力评价
  • 9.3 全球某货物贸易中的亲密关系
  • 9.3.1 全球某货物贸易数据整合清洗
  • 9.3.2 分组和社交网络中心
  • 9.3.3 全球某货物交易圈:寻找各自的小伙伴
  • 9.4 中国电影演艺圈到底有没有“圈”
  • 9.4.1 数据清洗与整形
  • 9.4.2 看看演艺圈长什么样
  • 9.4.3 谁才是演艺圈的“关系户”
  • 9.4.4 用Apriori算法查查演艺圈合作的“朋友”关系
  • 9.4.5 给范冰冰推荐合作伙伴
  • 第10章 情感分析:一种准确率高达90%的新方法?
  • 10.1 情感分析及其应用:这是老生常谈
  • 10.1.1 情感分析的用途
  • 10.1.2 情感分析的方法论
  • 10.1.3 有关情感分析的一些知识和方向
  • 10.2 文本分析的基本武器:R
  • 10.2.1 RJava包配置
  • 10.2.2 Rwordseg包安装
  • 10.2.3 jieba分词包安装
  • 10.3 基于词典的情感分析的效果好过瞎猜吗
  • 10.3.1 数据整理及词典构建
  • 10.3.2 分词整理
  • 10.3.3 情感指数计算
  • 10.3.4 方法评价:优、缺点分析
  • 10.4 监督式情感分析:挑选训练数据集是所有人心中的痛
  • 10.4.1 TFIDF指标
  • 10.4.2 构建语料库
  • 10.4.3 随机森林模型
  • 10.4.4 算法评估:随机森林应该建多少棵树
  • 10.5 一种准确率高达90%的新方法
  • 10.5.1 拿来主义的启示
  • 10.5.2 情感词典和规则构建
  • 10.5.3 朴素贝叶斯情感分析器
  • 10.5.4 支持向量机(SVM)、决策树等情感分析器
  • 10.5.5 如何选择支持SVM的核函数
  • 10.5.6 情感分类器方法评价
  • 10.6 谈谈情感分析的下一步思考
  • 第11章 话题模型:很多牛人过不去的坎儿
  • 11.1 话题模型与文案文本集
  • 11.1.1 任务仍然是以处理dirty data开始
  • 11.1.2 数据清洗
  • 11.2 话题模型中几个重要的数据处理步骤
  • 11.2.1 中文分词
  • 11.2.2 数据整型
  • 11.2.3 怎样设定“阈值”
  • 11.3 上帝有多少个色子:话题数量估计
  • 11.3.1 通俗地说一遍话题模型
  • 11.3.2 主题数估计与交叉检验
  • 11.3.3 如何使用复杂度、对数似然值确定主题数
  • 11.4 LDA话题模型竟然能输出这么多关系
  • 11.4.1 输出主题——词汇及其概率矩阵
  • 11.4.2 输出主题——文档归属及其概率矩阵
  • 11.5 话题之间也有社交(衍生)关系吗
  • 11.6 话题模型的几个强大衍生品
  • 11.6.1 话题模型提取特征词
  • 11.6.2 三种方法确定聚类的类数和文本层次聚类
  • 11.6.3 漂亮的文本聚类树和批量绘制大类词云图
  • 第12章 排名就是简单的推荐系统吗?
  • 12.1 全球宜居城市综合实力排行
  • 12.1.1 综合实力排行:专家法VS数据驱动法
  • 12.1.2 怎么比较两个排名结果
  • 12.2 协同过滤推荐系统
  • 12.2.1 基于商品的协同过滤系统(ItemCF)
  • 12.2.2 基于用户的系统过滤系统(UserCF)
  • 12.2.3 推荐系统效果评比
  • 第13章 生物信息学中的数据挖掘案例
  • 13.1 生物信息学与R语言
  • 13.2 生物信息学中常用的软件包
  • 13.2.1 软件包简介
  • 13.2.2 数据表示方式——对象类(class)
  • 13.2.3 生物信息学R包简介:Bioconductor和CRAN
  • 13.2.4 ape包
  • 13.2.5 读懂你的对象
  • 13.2.6 修改工具包中的函数以适应新情况
  • 第14章 产品化:关于内存、速度和自动化
  • 14.1 不同终端调用、自动化执行R脚本及参数传递
  • 14.2 与速度、内存、并行相关的程序优化
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。