科技
类型
可以朗读
语音朗读
240千字
字数
2020-07-01
发行日期
展开全部
主编推荐语
本书融合作者多年从业和教学经验,全面阐述使用Java从非结构化数据中组织和提取有用文本的各种实用方法。
内容简介
本书将教会读者如何在Java库的帮助下执行语言分析,同时不断地从结果中获得见解。
首先介绍NLP及其各种概念,然后探索Java中用于NLP的重要工具和库,如CoreNLP、OpenNLP、Neuroph、Mallet等。
之后,读者将开始对不同的输入和任务执行NLP,例如分词、模型训练、词性标注、解析树等。读者会学习到统计机器翻译、提取摘要、对话系统、复杂搜索、有监督和无监督的NLP等内容。
在本书的最后,读者也会学习到更多关于NLP、神经网络和Java中用于增强NLP应用程序性能的其他各种训练模型。
目录
- 版权信息
- 译者序
- 前言
- 作者简介
- 审校者简介
- 第1章 NLP概论
- 1.1 NLP是什么
- 1.2 为什么使用NLP
- 1.3 为什么NLP这么难
- 1.4 NLP工具汇总
- 1.4.1 Apache OpenNLP
- 1.4.2 Stanford NLP
- 1.4.3 LingPipe
- 1.4.4 GATE
- 1.4.5 UIMA
- 1.4.6 Apache Lucene Core
- 1.5 Java深度学习
- 1.6 文本处理任务概述
- 1.6.1 查找文本的各部分
- 1.6.2 文本断句
- 1.6.3 特征工程
- 1.6.4 查找人物和事件
- 1.6.5 词性判断
- 1.6.6 对文本和文档进行分类
- 1.6.7 关系提取
- 1.6.8 使用组合方法
- 1.7 理解NLP方法
- 1.7.1 识别任务
- 1.7.2 选择模型
- 1.7.3 建立并训练模型
- 1.7.4 验证模型
- 1.7.5 运用模型
- 1.8 准备数据
- 1.9 总结
- 第2章 查找文本的各部分
- 2.1 理解文章的各个部分
- 2.2 分词是什么
- 2.3 简单的Java分词器
- 2.3.1 使用Scanner类
- 2.3.2 使用split方法
- 2.3.3 使用BreakIterator类
- 2.3.4 使用StreamTokenizer类
- 2.3.5 使用StringTokenizer类
- 2.3.6 Java核心分词的性能考虑
- 2.4 NLP分词器API
- 2.4.1 使用OpenNLPTokenizer类
- 2.4.2 使用Stanford分词器
- 2.4.3 训练分词器找出文本的各部分
- 2.4.4 分词器比较
- 2.5 了解规范化
- 2.5.1 转换成小写
- 2.5.2 删除停用词
- 2.5.3 使用词干分析
- 2.5.4 使用词元化
- 2.5.5 使用管道进行标准化处理
- 2.6 总结
- 第3章 文本断句
- 3.1 SBD方法
- 3.2 SBD难在何处
- 3.3 理解LingPipe的HeuristicSentenceModel类的SBD规则
- 3.4 简单的Java SBD
- 3.4.1 使用正则表达式
- 3.4.2 使用BreakIterator类
- 3.5 使用NLP API
- 3.5.1 使用OpenNLP
- 3.5.2 使用Stanford API
- 3.5.3 使用LingPipe
- 3.6 训练文本断句模型
- 3.6.1 使用训练好的模型
- 3.6.2 使用SentenceDetectorEvaluator类评估模型
- 3.7 总结
- 第4章 人物识别
- 4.1 NER难在何处
- 4.2 NER方法
- 4.2.1 列表和正则表达式
- 4.2.2 统计分类器
- 4.3 使用正则表达式进行NER
- 4.3.1 使用Java的正则表达式来寻找实体
- 4.3.2 使用LingPipe的RegExChunker类
- 4.4 使用NLP API
- 4.4.1 使用OpenNLP进行NER
- 4.4.2 使用Stanford API进行NER
- 4.4.3 使用LingPipe进行NER
- 4.5 使用NER注释工具构建新数据集
- 4.6 训练模型
- 4.7 总结
- 第5章 词性判断
- 5.1 词性标注
- 5.1.1 词性标注器的重要性
- 5.1.2 词性标注难在何处
- 5.2 使用NLP API
- 5.2.1 使用OpenNLP POS标注器
- 5.2.2 使用 Stanford POS标注器
- 5.2.3 使用LingPipe POS标注器
- 5.2.4 训练OpenNLP POSModel
- 5.3 总结
- 第6章 用特征表示文本
- 6.1 n-gram
- 6.2 词嵌入
- 6.3 GloVe
- 6.4 word2vec
- 6.5 降维
- 6.6 主成分分析
- 6.7 t-SNE
- 6.8 总结
- 第7章 信息检索
- 7.1 布尔检索
- 7.2 字典和容错性检索
- 7.2.1 通配符查询
- 7.2.2 拼写校正
- 7.2.3 Soundex
- 7.3 向量空间模型
- 7.4 计分和术语加权
- 7.5 逆文档频率
- 7.6 TF-IDF加权
- 7.7 信息检索系统的评估
- 7.8 总结
- 第8章 对文本和文档进行分类
- 8.1 如何使用分类
- 8.2 理解情感分析
- 8.3 文本分类技术
- 8.4 使用API对文本进行分类
- 8.4.1 使用OpenNLP
- 8.4.2 使用Stanford API
- 8.4.3 使用LingPipe对文本进行分类
- 8.5 总结
- 第9章 主题建模
- 9.1 什么是主题建模
- 9.2 LDA的基础
- 9.3 使用MALLET进行主题建模
- 9.3.1 训练
- 9.3.2 评价
- 9.4 总结
- 第10章 使用解析器提取关系
- 10.1 关系类型
- 10.2 理解解析树
- 10.3 使用提取的关系
- 10.4 提取关系
- 10.5 使用NLP API
- 10.5.1 使用OpenNLP
- 10.5.2 使用Stanford API
- 10.5.3 查找共指消解实体
- 10.6 为问答系统提取关系
- 10.6.1 查找单词依赖关系
- 10.6.2 确定问题类型
- 10.6.3 寻找答案
- 10.7 总结
- 第11章 组合管道
- 11.1 准备数据
- 11.1.1 使用Boilerpipe从HTML抽取文本
- 11.1.2 使用POI从Word文档中抽取文本
- 11.1.3 使用PDFBox从PDF文档抽取文本
- 11.1.4 使用Apache Tika进行内容分析和抽取
- 11.2 管道
- 11.2.1 使用Stanford管道
- 11.2.2 在Stanford管道中使用多核处理器
- 11.3 创建用于搜索文本的管道
- 11.4 总结
- 第12章 创建一个聊天机器人
- 12.1 聊天机器人架构
- 12.2 人工语言网络计算机实体
- 12.2.1 了解AIML
- 12.2.2 使用ALICE和AIML开发聊天机器人
- 12.3 总结
展开全部
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。