展开全部

主编推荐语

带你通过实例来理解文本处理的概念和技术,利用现有的开源工具就可以自己实现文本处理。

内容简介

文本处理是目前互联网内容应用(如搜索引擎、推荐引擎)的关键技术。本书涵盖了文本处理概念和技术的多个方面,包括文本预处理、搜索、字符串匹配、信息抽取、命名实体识别、分类、聚类、标签生成、摘要、问答等。本书的特点在于通过实例来理解文本处理的这些概念和技术,读者利用现有的开源工具就可以自己实现这些实例。

目录

  • 版权信息
  • 作者简介
  • 译者序
  • 前言
  • 致谢
  • 关于本书
  • 关于封面
  • 第1章 开始驾驭文本
  • 1.1 驾驭文本重要的原因
  • 1.2 预览:一个基于事实的问答系统
  • 1.2.1 嗨,弗兰肯斯坦医生
  • 1.3 理解文本很困难
  • 1.4 驾驭的文本
  • 1.5 文本及智能应用:搜索及其他
  • 1.5.1 搜索和匹配
  • 1.5.2 抽取信息
  • 1.5.3 对信息分组
  • 1.5.4 一个智能应用
  • 1.6 小结
  • 1.7 相关资源
  • 第2章 驾驭文本的基础
  • 2.1 语言基础知识
  • 2.1.1 词语及其类别
  • 2.1.2 短语及子句
  • 2.1.3 词法
  • 2.2 文本处理常见工具
  • 2.2.1 字符串处理工具
  • 2.2.2 词条及切词
  • 2.2.3 词性标注
  • 2.2.4 词干还原
  • 2.2.5 句子检测
  • 2.2.6 句法分析和文法
  • 2.2.7 序列建模
  • 2.3 从常见格式文件中抽取内容并做预处理
  • 2.3.1 预处理的重要性
  • 2.3.2 利用Apache Tika抽取内容
  • 2.4 小结
  • 2.5 相关资源
  • 第3章 搜索
  • 3.1 搜索和多面示例:Amazon.com
  • 3.2 搜索概念入门
  • 3.2.1 索引内容
  • 3.2.2 用户输入
  • 3.2.3 利用向量空间模型对文档排名
  • 3.2.4 结果展示
  • 3.3 Apache Solr搜索服务器介绍
  • 3.3.1 首次运行Solr
  • 3.3.2 理解Solr中的概念
  • 3.4 利用Apache Solr对内容构建索引
  • 3.4.1 使用XML构建索引
  • 3.4.2 利用Solr和Apache Tika对内容进行抽取和索引
  • 3.5 利用Apache Solr来搜索内容
  • 3.5.1 Solr查询输入参数
  • 3.5.2 抽取内容的多面展示
  • 3.6 理解搜索性能因素
  • 3.6.1 数量判定
  • 3.6.2 判断数量
  • 3.7 提高搜索性能
  • 3.7.1 硬件改进
  • 3.7.2 分析的改进
  • 3.7.3 提高查询性能
  • 3.7.4 其他评分模型
  • 3.7.5 提升Solr性能的技术
  • 3.8 其他搜索工具
  • 3.9 小结
  • 3.10 相关资源
  • 第4章 模糊字符串匹配
  • 4.1 模糊字符串匹配方法
  • 4.1.1 字符重合度度量方法
  • 4.1.2 编辑距离
  • 4.1.3 n元组编辑距离
  • 4.2 寻找模糊匹配串
  • 4.2.1 在Solr中使用前缀来匹配
  • 4.2.2 利用trie树进行前缀匹配
  • 4.2.3 使用n元组进行匹配
  • 4.3 构建模糊串匹配应用
  • 4.3.1 在搜索中加入提前输入功能
  • 4.3.2 搜索中的查询拼写校正
  • 4.3.3 记录匹配
  • 4.4 小结
  • 4.5 相关资源
  • 第5章 命名实体识别
  • 5.1 命名实体的识别方法
  • 5.1.1 基于规则的实体识别
  • 5.1.2 基于统计分类器的实体识别
  • 5.2 基于OpenNLP的基本实体识别
  • 5.2.1 利用OpenNLP寻找人名
  • 5.2.2 OpenNLP识别的实体解读
  • 5.2.3 基于概率过滤实体
  • 5.3 利用OpenNLP进行深度命名实体识别
  • 5.3.1 利用OpenNLP识别多种实体类型
  • 5.3.2 OpenNLP识别实体的背后机理
  • 5.4 OpenNLP的性能
  • 5.4.1 结果的质量
  • 5.4.2 运行性能
  • 5.4.3 OpenNLP的内存使用
  • 5.5 对新领域定制OpenNLP实体识别
  • 5.5.1 训练模型的原因和方法
  • 5.5.2 训练OpenNLP模型
  • 5.5.3 改变建模输入
  • 5.5.4 对实体建模的新方法
  • 5.6 小结
  • 5.7 进一步阅读材料
  • 第6章 文本聚类
  • 6.1 Google News中的文档聚类
  • 6.2 聚类基础
  • 6.2.1 三种聚类的文本类型
  • 6.2.2 选择聚类算法
  • 6.2.3 确定相似度
  • 6.2.4 给聚类结果打标签
  • 6.2.5 聚类结果的评估
  • 6.3 搭建一个简单的聚类应用
  • 6.4 利用Carrot2对搜索结果聚类
  • 6.4.1 使用Carrot2API
  • 6.4.2 使用Carrot2对Solr的搜索结果聚类
  • 6.5 利用Apache Mahout对文档集聚类
  • 6.5.1 对聚类的数据进行预处理
  • 6.5.2 K-means聚类
  • 6.6 利用Apache Mahout进行主题建模
  • 6.7 考察聚类性能
  • 6.7.1 特征选择与特征约简
  • 6.7.2 Carrot2的性能和质量
  • 6.7.3 Mahout基准聚类算法
  • 6.8 致谢
  • 6.9 小结
  • 6.10 参考文献
  • 第7章 分类及标注
  • 7.1 分类及归类概述
  • 7.2 分类过程
  • 7.2.1 选择分类机制
  • 7.2.2 识别文本分类中的特征
  • 7.2.3 训练数据的重要性
  • 7.2.4 评估分类器性能
  • 7.2.5 将分类器部署到生产环境
  • 7.3 利用Apache Lucene构建文档分类器
  • 7.3.1 利用Lucene对文本进行分类
  • 7.3.2 为MoreLikeThis分类器准备训练数据
  • 7.3.3 训练MoreLikeThis分类器
  • 7.3.4 利用MoreLikeThis分类器对文档进行分类
  • 7.3.5 测试MoreLikeThis分类器
  • 7.3.6 将MoreLikeThis投入生产环境
  • 7.4 利用Apache Mahout训练朴素贝叶斯分类器
  • 7.4.1 利用朴素贝叶斯算法进行文本分类
  • 7.4.2 准备训练数据
  • 7.4.3 留存测试数据
  • 7.4.4 训练分类器
  • 7.4.5 测试分类器
  • 7.4.6 改进自举过程
  • 7.4.7 将Mahout贝叶斯分类器集成到Solr
  • 7.5 利用OpenNLP进行文档分类
  • 7.5.1 回归模型及最大熵文档分类
  • 7.5.2 为最大熵文档分类器准备训练数据
  • 7.5.3 训练最大熵文档分类器
  • 7.5.4 测试最大熵文档分类器
  • 7.5.5 生产环境下的最大熵文档分类器
  • 7.6 利用Apache Solr构建标签推荐系统
  • 7.6.1 为标签推荐收集训练数据
  • 7.6.2 准备训练数据
  • 7.6.3 训练Solr标签推荐系统
  • 7.6.4 构建推荐标签
  • 7.6.5 对标签推荐系统进行评估
  • 7.7 小结
  • 7.8 参考文献
  • 第8章 构建示例问答系统
  • 8.1 问答系统基础知识
  • 8.2 安装并运行QA代码
  • 8.3 一个示例问答系统的架构
  • 8.4 理解问题并产生答案
  • 8.4.1 训练答案类型分类器
  • 8.4.2 对查询进行组块分析
  • 8.4.3 计算答案类型
  • 8.4.4 生成查询
  • 8.4.5 对候选段落排序
  • 8.5 改进系统的步骤
  • 8.6 本章小结
  • 8.7 相关资源
  • 第9章 未驾驭的文本:探索未来前沿
  • 9.1 语义、篇章和语用:探索高级NLP
  • 9.1.1 语义
  • 9.1.2 篇章
  • 9.1.3 语用
  • 9.2 文档及文档集自动摘要
  • 9.3 关系抽取
  • 9.3.1 关系抽取方法综述
  • 9.3.2 评估
  • 9.3.3 关系抽取工具
  • 9.4 识别重要内容和人物
  • 9.4.1 全局重要性及权威度
  • 9.4.2个人重要性
  • 9.4.3 与重要性相关的资源及位置
  • 9.5 通过情感分析来探测情感
  • 9.5.1 历史及综述
  • 9.5.2 工具及数据需求
  • 9.5.3 一个基本的极性算法
  • 9.5.4 高级话题
  • 9.5.5 用于情感分析的开源库
  • 9.6 跨语言检索
  • 9.7 本章小结
  • 9.8 相关资源
  • 译者简介
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。