展开全部

主编推荐语

本书适合有一定R语言基础的读者阅读,也适合作为R语言实践工具书。

内容简介

本书将目标设定为“在一台笔记本电脑上使用R语言处理较大的数据集”,从单机大型数据集处理策略、提升计算性能、其他工具和技巧3个方面介绍了使用R语言处理数据时的实用方法。

包括数据集占用空间、善用data.table处理数据、数据分块处理、提升硬盘资源使用效率、并行编程技术、提升机器学习性能,以及其他资源管理和提高性能的实用策略。帮助读者处理较大的数据集、挖掘R的开发潜能。

目录

  • 版权信息
  • 内容提要
  • 前言: 不是所有数据集都像iris
  • 资源与支持
  • 第1章 简单直接的策略
  • 1.1 保留必要的数据
  • 1.1.1 保留必要的列
  • 1.1.2 保留必要的行
  • 1.2 设置合适的数据类型
  • 1.3 本章小结
  • 第2章 基于内存的“快工具”
  • 2.1 数据读入操作
  • 2.1.1 读入单个数据
  • 2.1.2 读入多个数据
  • 2.2 数据基本行列操作
  • 2.3 数据合并、分组汇总操作
  • 2.4 dtplyr:data.table和dplyr的结合
  • 2.5 本章小结
  • 第3章 逐块击破
  • 3.1 使用iotools库实现分块处理
  • 3.2 使用readr库实现分块处理
  • 3.3 本章小结
  • 第4章 突破内存限制
  • 4.1 实现R与关系型数据库管理系统协作
  • 4.2 使用bigmemory体系处理大型矩阵
  • 4.3 使用ff体系处理大型数据框
  • 4.3.1 ff体系基本数据操作
  • 4.3.2 ff体系与关系型数据库管理系统协作
  • 4.4 新一代工具disk.frame
  • 4.5 本章小结
  • 第5章 友好的可视化工具
  • 5.1 实现交互式大型分面可视化
  • 5.2 本章小结
  • 第6章 让R更快
  • 6.1 R并行编程技术概览
  • 6.2 实现并行计算的第三方库
  • 6.2.1 snow库
  • 6.2.2 multicore库
  • 6.2.3 parallel库
  • 6.2.4 future库
  • 6.2.5 foreach库
  • 6.3 网络数据抓取案例
  • 6.3.1 利用foreach并行循环抓取
  • 6.3.2 结合tidyverse和future的数据抓取
  • 6.3.3 文本分词及整洁化处理
  • 6.4 本章小结
  • 第7章 提升机器学习效能
  • 7.1 使用foreach实现并行循环
  • 7.2 使用更优化的第三方库
  • 7.3 使用caret框架结合并行计算
  • 7.4 本章小结
  • 第8章 整洁流畅的框架
  • 8.1 建立简单工作流
  • 8.2 工作流比较
  • 8.3 工作流超参数调优
  • 8.4 多工作流同时调优
  • 8.5 本章小结
  • 第9章 灵活强大的框架
  • 9.1 数据及模型的创建
  • 9.2 利用future支持mlr3计算任务
  • 9.3 嵌套重抽样过程
  • 9.4 以图管理机器学习工作流
  • 9.5 本章小结
  • 第10章 强强联合
  • 10.1 配置Python环境
  • 10.2 在R中用Python代码编程
  • 10.3 以R编程方式使用Python
  • 10.4 本章小结
  • 第11章 简单高效的自动机器学习工具
  • 11.1 H2O基本使用方法
  • 11.2 H2O自动机器学习
  • 11.3 本章小结
  • 第12章 善其事,利其器
  • 12.1 内存及硬盘资源管理类策略
  • 12.1.1 读取压缩文件
  • 12.1.2 以rds格式保存中间结果
  • 12.1.3 垃圾回收机制
  • 12.1.4 R的内存管理工具
  • 12.1.5 使用pryr库
  • 12.2 计算效能提升类策略
  • 12.2.1 函数编译
  • 12.2.2 使用benchmarkme库
  • 12.3 使用R的增强发行版本
  • 12.3.1 Microsoft R Open
  • 12.3.2 Microsoft R Client
  • 12.4 其他数据科学工具
  • 12.4.1 SAS
  • 12.4.2 Python
  • 12.5 本章小结
展开全部

评分及书评

评分不足
2个评分
  • 用户头像
    给这本书评了
    5.0

    本书将目标设定为 “在一台笔记本电脑上使用 R 语言处理较大的数据集”,从单机大型数据集处理策略、提升计算性能、其他工具和技巧 3 个方面介绍了使用 R 语言处理数据时的实用方法,包括减少数据占用空间、善用 data.table 处理数据、数据分块处理、提升硬盘资源使用效率、并行编程技术、提升机器学习性能,以及其他资源管理和提高性能的实用策略,以帮助读者处理较大的数据集、挖掘 R 的开发潜能。

      转发
      评论

    出版方

    人民邮电出版社

    人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。