计算机
类型
可以朗读
语音朗读
198千字
字数
2022-03-01
发行日期
展开全部
主编推荐语
本书适合有一定R语言基础的读者阅读,也适合作为R语言实践工具书。
内容简介
本书将目标设定为“在一台笔记本电脑上使用R语言处理较大的数据集”,从单机大型数据集处理策略、提升计算性能、其他工具和技巧3个方面介绍了使用R语言处理数据时的实用方法。
包括数据集占用空间、善用data.table处理数据、数据分块处理、提升硬盘资源使用效率、并行编程技术、提升机器学习性能,以及其他资源管理和提高性能的实用策略。帮助读者处理较大的数据集、挖掘R的开发潜能。
目录
- 版权信息
- 内容提要
- 前言: 不是所有数据集都像iris
- 资源与支持
- 第1章 简单直接的策略
- 1.1 保留必要的数据
- 1.1.1 保留必要的列
- 1.1.2 保留必要的行
- 1.2 设置合适的数据类型
- 1.3 本章小结
- 第2章 基于内存的“快工具”
- 2.1 数据读入操作
- 2.1.1 读入单个数据
- 2.1.2 读入多个数据
- 2.2 数据基本行列操作
- 2.3 数据合并、分组汇总操作
- 2.4 dtplyr:data.table和dplyr的结合
- 2.5 本章小结
- 第3章 逐块击破
- 3.1 使用iotools库实现分块处理
- 3.2 使用readr库实现分块处理
- 3.3 本章小结
- 第4章 突破内存限制
- 4.1 实现R与关系型数据库管理系统协作
- 4.2 使用bigmemory体系处理大型矩阵
- 4.3 使用ff体系处理大型数据框
- 4.3.1 ff体系基本数据操作
- 4.3.2 ff体系与关系型数据库管理系统协作
- 4.4 新一代工具disk.frame
- 4.5 本章小结
- 第5章 友好的可视化工具
- 5.1 实现交互式大型分面可视化
- 5.2 本章小结
- 第6章 让R更快
- 6.1 R并行编程技术概览
- 6.2 实现并行计算的第三方库
- 6.2.1 snow库
- 6.2.2 multicore库
- 6.2.3 parallel库
- 6.2.4 future库
- 6.2.5 foreach库
- 6.3 网络数据抓取案例
- 6.3.1 利用foreach并行循环抓取
- 6.3.2 结合tidyverse和future的数据抓取
- 6.3.3 文本分词及整洁化处理
- 6.4 本章小结
- 第7章 提升机器学习效能
- 7.1 使用foreach实现并行循环
- 7.2 使用更优化的第三方库
- 7.3 使用caret框架结合并行计算
- 7.4 本章小结
- 第8章 整洁流畅的框架
- 8.1 建立简单工作流
- 8.2 工作流比较
- 8.3 工作流超参数调优
- 8.4 多工作流同时调优
- 8.5 本章小结
- 第9章 灵活强大的框架
- 9.1 数据及模型的创建
- 9.2 利用future支持mlr3计算任务
- 9.3 嵌套重抽样过程
- 9.4 以图管理机器学习工作流
- 9.5 本章小结
- 第10章 强强联合
- 10.1 配置Python环境
- 10.2 在R中用Python代码编程
- 10.3 以R编程方式使用Python
- 10.4 本章小结
- 第11章 简单高效的自动机器学习工具
- 11.1 H2O基本使用方法
- 11.2 H2O自动机器学习
- 11.3 本章小结
- 第12章 善其事,利其器
- 12.1 内存及硬盘资源管理类策略
- 12.1.1 读取压缩文件
- 12.1.2 以rds格式保存中间结果
- 12.1.3 垃圾回收机制
- 12.1.4 R的内存管理工具
- 12.1.5 使用pryr库
- 12.2 计算效能提升类策略
- 12.2.1 函数编译
- 12.2.2 使用benchmarkme库
- 12.3 使用R的增强发行版本
- 12.3.1 Microsoft R Open
- 12.3.2 Microsoft R Client
- 12.4 其他数据科学工具
- 12.4.1 SAS
- 12.4.2 Python
- 12.5 本章小结
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。