展开全部

主编推荐语

详细介绍文本分析和知识图谱方面的技术。

内容简介

数据科学的关键技术包括数据存储计算、数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等方面。文本分析技术主要包括文本预训练模型、多语种文本分析、文本情感分析、文本机器翻译、文本智能纠错、NL2SQL问答以及ChatGPT大语言模型等。知识图谱技术主要包括知识图谱构建和知识图谱问答等。

本书将理论介绍和实践相结合,详细阐述各个技术主题的实现路线,并对应用于业界算法大赛中的技术方案和技巧进行源代码解读,帮助读者深入理解技术原理。最后,本书还介绍了文本分析和知识图谱技术在政务、公共安全、应急等多个行业中的智能应用实践案例。

目录

  • 版权信息
  • 内容简介
  • 作者简介
  • 前言
  • 第1章 什么是数据科学
  • 1.1 数据科学的定义
  • 1.1.1 数据科学的背景
  • 1.1.2 数据科学的定义
  • 1.2 数据科学的关键技术
  • 1.2.1 数据存储计算
  • 1.2.2 数据治理
  • 1.2.3 结构化数据分析
  • 1.2.4 语音分析
  • 1.2.5 视觉分析
  • 1.2.6 文本分析
  • 1.2.7 知识图谱
  • 1.3 本章小结
  • 1.4 习题
  • 1.5 本章参考文献
  • 第2章 文本预训练模型
  • 2.1 文本分析技术的发展史
  • 2.2 Transformer模型结构
  • 2.3 预训练模型的结构和变种
  • 2.4 加速处理器GPU和TPU
  • 2.4.1 GPU的介绍
  • 2.4.2 GPU产品命名
  • 2.4.3 TPU和GPU的区别
  • 2.4.4 TPU的使用总结
  • 2.5 预训练模型的常见问题
  • 2.5.1 模型输入的常见问题
  • 2.5.2 模型原理的常见问题
  • 2.5.3 模型进化的常见问题
  • 2.6 预训练模型的源码解读
  • 2.6.1 模型架构
  • 2.6.2 BertModel
  • 2.6.3 BERT预训练任务
  • 2.6.4 BERT微调
  • 2.7 本章小结
  • 2.8 习题
  • 2.9 本章参考文献
  • 第3章 多语种文本分析
  • 3.1 多语种文本分析背景介绍
  • 3.2 多语种文本分析技术
  • 3.2.1 Polyglot技术
  • 3.2.2 Multilingual BERT
  • 3.2.3 XLM多语言模型
  • 3.2.4 XLMR多语言模型
  • 3.2.5 模型实验效果
  • 3.3 多语种文本分析源码解读
  • 3.4 本章小结
  • 3.5 习题
  • 3.6 本章参考文献
  • 第4章 文本情感分析
  • 4.1 情感分析背景介绍
  • 4.2 情感分析技术
  • 4.2.1 目标和挑战
  • 4.2.2 技术发展历程
  • 4.2.3 情感分析的需求分析
  • 4.2.4 情感分析的落地实践
  • 4.2.5 模型开发平台的构建
  • 4.3 情感分析比赛和方案
  • 4.3.1 背景介绍
  • 4.3.2 方案介绍
  • 4.3.3 数据清洗和增广
  • 4.3.4 多模态融合
  • 4.3.5 机器学习技巧
  • 4.4 情感分析源码解读
  • 4.4.1 F1值适应优化技巧代码
  • 4.4.2 对抗训练代码
  • 4.5 本章小结
  • 4.6 习题
  • 4.7 本章参考文献
  • 第5章 文本机器翻译
  • 5.1 机器翻译背景介绍
  • 5.2 机器翻译技术
  • 5.2.1 基于规则的机器翻译
  • 5.2.2 统计机器翻译
  • 5.2.3 神经网络机器翻译
  • 5.2.4 Encoder-Decoder模型
  • 5.2.5 注意力机制模型
  • 5.2.6 工业级神经网络实践
  • 5.3 机器翻译比赛和方案
  • 5.3.1 WMT21翻译任务
  • 5.3.2 WMT22翻译任务
  • 5.4 机器翻译源码解读
  • 5.4.1 通用框架介绍
  • 5.4.2 翻译模型实现
  • 5.5 本章小结
  • 5.6 习题
  • 5.7 本章参考文献
  • 第6章 文本智能纠错
  • 6.1 文本纠错背景介绍
  • 6.2 文本智能纠错技术
  • 6.2.1 智能纠错的意义和难点
  • 6.2.2 智能纠错解决的问题
  • 6.2.3 业界主流解决方案
  • 6.2.4 技术方案实践
  • 6.3 文本智能纠错技术
  • 6.3.1 比赛介绍
  • 6.3.2 校对问题思考
  • 6.4 纠错方案和源码解读
  • 6.4.1 GECToR原理解读
  • 6.4.2 MacBERT原理解读
  • 6.4.3 PERT原理解读
  • 6.4.4 PLOME原理解读
  • 6.4.5 比赛方案
  • 6.5 本章小结
  • 6.6 习题
  • 6.7 本章参考文献
  • 第7章 知识图谱构建
  • 7.1 知识图谱背景介绍
  • 7.1.1 知识和知识图谱
  • 7.1.2 知识获取、知识抽取与信息抽取的区别
  • 7.1.3 知识图谱构建范式
  • 7.2 非结构化信息抽取技术
  • 7.2.1 信息抽取框架
  • 7.2.2 命名实体识别
  • 7.2.3 关系识别
  • 7.2.4 事件抽取
  • 7.3 生成式统一模型抽取技术
  • 7.4 模型源码解读
  • 7.5 本章小结
  • 7.6 习题
  • 7.7 本章参考文献
  • 第8章 知识图谱问答
  • 8.1 背景介绍
  • 8.2 知识图谱问答技术
  • 8.2.1 信息检索方法
  • 8.2.2 语义解析方法
  • 8.3 方案和源码解读
  • 8.3.1 NL2SPARQL
  • 8.3.2 NL2SPARQL语义解析方案
  • 8.3.3 T5、BART、UniLM模型简介
  • 8.3.4 T5、BART、UniLM方案
  • 8.3.5 训练T5、BART、UniLM生成模型
  • 8.3.6 语义排序方案和代码
  • 8.3.7 SPARQL修正代码
  • 8.4 本章小结
  • 8.5 习题
  • 第9章 结构化知识NL2SQL问答
  • 9.1 NL2SQL背景介绍
  • 9.2 NL2SQL技术
  • 9.2.1 NL2SQL技术路线
  • 9.2.2 NL2SQL项目实践
  • 9.3 NL2SQL比赛和方案
  • 9.4 NL2SQL源码解读
  • 9.5 本章小结
  • 9.6 习题
  • 9.7 本章参考文献
  • 第10章 ChatGPT大语言模型
  • 10.1 ChatGPT介绍
  • 10.1.1 ChatGPT的定义和背景
  • 10.1.2 ChatGPT的发展历程
  • 10.2 GPT模型概述
  • 10.2.1 GPT-1模型的原理
  • 10.2.2 GPT-2模型的原理
  • 10.2.3 GPT-3模型的原理
  • 10.3 ChatGPT的实现原理
  • 10.3.1 大模型的微调技术
  • 10.3.2 ChatGPT的能力来源
  • 10.3.3 ChatGPT的预训练和微调
  • 10.4 ChatGPT的应用
  • 10.4.1 ChatGPT提示工程
  • 10.4.2 ChatGPT应用场景
  • 10.4.3 ChatGPT的优缺点
  • 10.5 开源大模型
  • 10.5.1 ChatGLM大模型
  • 10.5.2 LLaMA大模型
  • 10.6 本章小结
  • 10.7 习题
  • 10.8 本章参考文献
  • 第11章 行业实践案例
  • 11.1 智慧政务实践案例
  • 11.1.1 案例背景
  • 11.1.2 解决方案
  • 11.1.3 系统架构和实现
  • 11.1.4 案例总结
  • 11.2 公共安全实践案例
  • 11.2.1 案例背景
  • 11.2.2 解决方案
  • 11.2.3 系统架构及实现
  • 11.2.4 案例总结
  • 11.3 智能应急实践案例
  • 11.3.1 案例背景
  • 11.3.2 解决方案
  • 11.3.3 系统架构及实现
  • 11.3.4 案例总结
  • 11.4 本章小结
  • 11.5 习题
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。