展开全部

主编推荐语

本书介绍了如何使用tidytext包以及其他基于R语言的tidy工具来进行文本挖掘。

内容简介

当前很多数据都是非结构化的大规模文本,这给分析和可视化带来了挑战。本书使用实用的tidytext软件包来介绍文本挖掘技术,该包是由Julia Silge和David Robinson共同开发的R软件包(类似于ggplot2和dplyr软件包),开发时采用了整洁原则。本书将会介绍如何利用tidytext以及其他整洁工具使文本分析变得更容易、更有效。

本书展示如何将文本转换为数据框,然后提取和可视化文本的特征;并介绍如何将自然语言处理(NLP)融入有效的工作流程中;实用的代码示例和数据分析将帮助你了解文学作品、新闻和社交媒体中的有用信息。

目录

  • 版权信息
  • O’Reilly Media,Inc.介绍
  • 译者序
  • 前言
  • 第1章 整洁文本格式
  • 比较整洁文本结构与其他数据结构
  • unnest_tokens函数
  • 整理Jane Austen的作品
  • gutenbergr包
  • 词频
  • 总结
  • 第2章 基于整洁数据的情感分析
  • 情感数据集
  • 内连接的情感分析
  • 比较三个情感词典
  • 最常见的正面单词和负面单词
  • Wordclouds模块
  • 除单词外的其他文本单元
  • 总结
  • 第3章 分析词和文件频率:tf-idf
  • Jane Austen小说中的词项频率
  • Zipf定律
  • bind_tf_idf函数
  • 物理学语料库
  • 总结
  • 第4章 词之间的关系:n-gram及相关性
  • n-gram词条化
  • 用widyr包对单词对计数并计算相关性
  • 总结
  • 第5章 非整洁格式转换
  • 使文档–词项矩阵整洁
  • 将整洁文本数据转换为矩阵
  • 总结
  • 第6章 主题建模
  • LDA
  • 示例:博大的图书馆馆藏
  • LDA方法的替代实现
  • 总结
  • 第7章 案例研究:Twitter归档文件比较
  • 单词使用情况的比较
  • 单词使用情况的变化
  • 收藏和转发
  • 总结
  • 第8章 案例研究:NASA元数据挖掘
  • NASA如何组织数据
  • 共现单词与相关单词
  • 计算描述字段的tf-idf
  • 总结
  • 第9章 案例研究:分析Usenet文本
  • 预处理
  • 新闻组中的单词
  • 情感分析
  • 总结
  • 参考文献
  • 作者简介
  • 封面简介
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社有限公司

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。