互联网
类型
可以朗读
语音朗读
90千字
字数
2023-01-01
发行日期
展开全部
主编推荐语
一本讲述如何用NLP技术进行文本内容理解的著作。
内容简介
本书是作者在NLP和内容理解领域多年经验的总结。全书结合内容理解的实际业务场景,系统全面、循序渐进地讲解了各种NLP算法以及如何用这些算法高效地解决内容理解方面的难题,
目录
- 版权信息
- 前言
- 第1章 文本特征表示
- 1.1 语料与语料预处理
- 1.1.1 语料和语料库
- 1.1.2 语料预处理
- 1.2 文本特征表示方法
- 1.2.1 离散型特征表示方法
- 1.2.2 分布型特征表示方法
- 1.3 词向量的评判标准
- 1.3.1 内部评估
- 1.3.2 外在评估
- 1.4 本章小结
- 第2章 内容重复理解
- 2.1 标题重复
- 2.1.1 标题符号规整化处理
- 2.1.2 Jieba分词
- 2.1.3 LAC分词
- 2.1.4 基于分词及字符串等方式进行重复识别
- 2.2 段落重复识别实例
- 2.2.1 段落重复识别
- 2.2.2 基于N-gram算法进行内容去重
- 2.2.3 平滑处理技术
- 2.3 基于相似度计算的文章判重
- 2.3.1 文本相似度计算任务的分析
- 2.3.2 距离度量方式
- 2.3.3 基于SimHash算法进行文本重复检测
- 2.4 本章小结
- 第3章 内容通顺度识别及纠正
- 3.1 数据增强
- 3.2 基于FastText算法的句子通顺度识别
- 3.2.1 CBOW模型
- 3.2.2 FastText算法原理
- 3.2.3 FastText算法实战
- 3.3 基于TextCNN算法的分类任务实现
- 3.3.1 专有名词简介
- 3.3.2 算法介绍
- 3.3.3 参数调优经验总结
- 3.3.4 基于Keras工具实现TextCNN算法
- 3.4 基于TextRNN算法的分类任务实现
- 3.4.1 LSTM和BiLSTM
- 3.4.2 TextCNN和TextRNN识别效果对比
- 3.5 基于Seq2Seq模型的纠正策略
- 3.5.1 Seq2Seq模型原理
- 3.5.2 纠正不通顺句子的方法
- 3.6 本章小结
- 第4章 内容质量
- 4.1 GBDT算法
- 4.1.1 GBDT算法概述
- 4.1.2 负梯度拟合
- 4.1.3 GBDT回归算法
- 4.1.4 GBDT分类算法
- 4.2 XGBoost算法
- 4.2.1 从GBDT到XGBoost
- 4.2.2 XGBoost损失函数
- 4.2.3 XGBoost损失函数的优化求解
- 4.2.4 XGBoost算法流程
- 4.2.5 XGBoost算法参数及调优
- 4.3 知识问答质量体系的搭建
- 4.3.1 知识问答质量体系建立的意义
- 4.3.2 整体的项目实施方案
- 4.3.3 知识问答质量体系搭建流程
- 4.4 本章小结
- 第5章 标签体系构建
- 5.1 标签体系
- 5.1.1 标签体系的重要性
- 5.1.2 标签体系的分类
- 5.1.3 构建标签体系
- 5.2 TF-IDF算法
- 5.2.1 TF-IDF算法介绍
- 5.2.2 TF-IDF算法实现
- 5.3 PageRank算法
- 5.4 TextRank算法
- 5.4.1 TextRank算法的使用场景
- 5.4.2 TextRank算法的优缺点
- 5.5 本章小结
- 第6章 文本摘要生成
- 6.1 文本摘要相关介绍
- 6.1.1 文本摘要问题定义
- 6.1.2 文本摘要分类
- 6.1.3 文本摘要的技术和方法
- 6.2 基于无监督的抽取式文本摘要
- 6.2.1 基于经验的文本摘要
- 6.2.2 基于主题模型的文本摘要
- 6.2.3 基于图的文本摘要
- 6.2.4 基于特征评分的文本摘要
- 6.2.5 基于聚类的文本摘要
- 6.3 基于有监督的抽取式文本摘要
- 6.4 基于深度神经网络的生成式文本摘要
- 6.5 文本摘要常用数据集
- 6.6 文本摘要评价方法
- 6.6.1 自动评价方法
- 6.6.2 人工评价方法
- 6.7 本章小结
- 第7章 文本纠错
- 7.1 错误来源及类型
- 7.2 文本纠错的3种传统方法
- 7.2.1 模板匹配
- 7.2.2 编辑距离匹配
- 7.2.3 HANSpeller++框架
- 7.3 文本纠错深度学习方法
- 7.3.1 英文文本纠错方法
- 7.3.2 中文文本纠错方法
- 7.4 工业界解决方法
- 7.4.1 3阶段级联的纠错方案
- 7.4.2 符合多种场景的通用纠错方案
- 7.4.3 保险文本的纠错方案
- 7.5 文本纠错工具
- 7.5.1 pycorrector
- 7.5.2 xmnlp
- 7.6 本章小结
- 推荐阅读
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。