计算机
类型
可以朗读
语音朗读
116千字
字数
2021-11-01
发行日期
展开全部
主编推荐语
本书以Python、Sklearn、NLTK为基础,教授自然语言处理、文本分类等,实现快速入门。
内容简介
本书的所有程序都在 anaconda进行调试和运行。本教材包括自然语言处理概述、Python语言简介、Python数据类型、Python流程控制、函数、python数据分析、Sklearn和NLTK、语料清洗、特征工程、中文分词、文本分类、文本聚类、指标评价、信息提取和情感分析。本教材区别于众多自然语言处理的教材“重理论轻代码”,往往只是给出伪代码,而本书采用基于Python语言的sklearn平台和NLTK实现,便于学生更快地掌握自然语言处理的基本思想,较为快速的入门学习。
目录
- 封面页
- 书名页
- 版权页
- 内容简介
- 前言PREFACE
- 目录
- 第1章 自然语言处理概述
- 1.1 人工智能发展历程
- 1.1.1 第一阶段:20年黄金时代
- 1.1.2 第二阶段:第一次寒冬
- 1.1.3 第三阶段:繁荣期
- 1.1.4 第四阶段:第二次寒冬
- 1.1.5 第五阶段:稳健时代
- 1.2 自然语言处理
- 1.2.1 概述
- 1.2.2 发展历程
- 1.2.3 处理流程
- 1.2.4 研究内容
- 1.3 机器学习算法
- 1.3.1 监督学习
- 1.3.2 无监督学习
- 1.4 自然语言处理相关库
- 1.4.1 NumPy
- 1.4.2 Matplotlib
- 1.4.3 Pandas
- 1.4.4 SciPy
- 1.4.5 NLTK
- 1.4.6 SnowNLP
- 1.4.7 Sklearn
- 1.5 语料库
- 1.5.1 认识语料库
- 1.5.2 分类
- 1.5.3 构建原则
- 1.5.4 常用语料库
- 1.5.5 搜狗新闻语料库
- 第2章 Python语言简述
- 2.1 Python简介
- 2.1.1 Python发展历程
- 2.1.2 Python的特点
- 2.1.3 Python应用场合
- 2.2 Python解释器
- 2.2.1 Ubuntu下安装Python
- 2.2.2 Windows下安装Python
- 2.3 Python编辑器
- 2.3.1 IDLE
- 2.3.2 VS Code
- 2.3.3 PyCharm
- 2.3.4 Anaconda
- 2.3.5 Jupyter
- 2.4 代码书写规则
- 2.4.1 缩进
- 2.4.2 多行语句
- 2.4.3 注释
- 2.4.4 编码习惯
- 2.5 自学网站
- 2.5.1 菜鸟网站
- 2.5.2 廖雪峰学Python网站
- 2.5.3 Python官方网站
- 2.5.4 Python-100天从新手到大师网站
- 第3章 Python数据类型
- 3.1 变量
- 3.1.1 变量命名
- 3.1.2 变量引用
- 3.2 运算符
- 3.2.1 算术运算符
- 3.2.2 关系运算符
- 3.2.3 赋值运算符
- 3.2.4 逻辑运算符
- 3.2.5 位运算符
- 3.2.6 成员运算符
- 3.2.7 身份运算符
- 3.3 表达式
- 3.3.1 概念
- 3.3.2 操作
- 3.4 数据类型
- 3.5 数字
- 3.5.1 概念
- 3.5.2 操作
- 3.6 字符串
- 3.6.1 概念
- 3.6.2 操作
- 3.7 列表
- 3.7.1 概念
- 3.7.2 操作
- 3.8 元组
- 3.8.1 概念
- 3.8.2 操作
- 3.9 字典
- 3.9.1 字典的概念
- 3.9.2 字典操作
- 3.9.3 字典举例
- 3.10 集合
- 3.10.1 集合的概念
- 3.10.2 集合操作
- 3.10.3 集合举例
- 3.11 组合数据类型
- 3.11.1 相互关系
- 3.11.2 数据类型转换
- 第4章 Python流程控制
- 4.1 流程结构
- 4.2 顺序结构
- 4.2.1 输入输出
- 4.2.2 举例
- 4.3 选择结构
- 4.3.1 单分支
- 4.3.2 双分支
- 4.3.3 多分支
- 4.3.4 分支嵌套
- 4.4 循环概述
- 4.4.1 循环结构
- 4.4.2 循环分类
- 4.5 while语句
- 4.5.1 基本形式
- 4.5.2 else语句
- 4.5.3 无限循环
- 4.6 for语句
- 4.6.1 应用序列类型
- 4.6.2 内置函数range()
- 4.7 循环嵌套
- 4.7.1 原理
- 4.7.2 实现
- 4.8 辅助语句
- 4.8.1 break语句
- 4.8.2 continue语句
- 4.8.3 pass语句
- 第5章 Python函数
- 5.1 函数声明与调用
- 5.1.1 函数声明
- 5.1.2 函数调用
- 5.1.3 函数返回值
- 5.2 参数传递
- 5.2.1 实参与形参
- 5.2.2 传对象引用
- 5.3 参数分类
- 5.3.1 必备参数
- 5.3.2 默认参数
- 5.3.3 关键参数
- 5.3.4 不定长参数
- 5.4 两类特殊函数
- 5.4.1 匿名函数
- 5.4.2 递归函数
- 第6章 Python数据科学
- 6.1 科学计算
- 6.2 NumPy
- 6.2.1 认识NumPy
- 6.2.2 创建数组
- 6.2.3 查看数组
- 6.2.4 索引和切片
- 6.2.5 矩阵运算
- 6.3 Matplotlib
- 6.3.1 认识Matplotlib
- 6.3.2 线形图
- 6.3.3 散点图
- 6.3.4 饼状图
- 6.3.5 直方图
- 6.4 Pandas
- 6.4.1 认识Pandas
- 6.4.2 Series
- 6.4.3 DataFrame
- 6.4.4 Index
- 6.4.5 Plot
- 6.5 SciPy
- 6.5.1 认识SciPy
- 6.5.2 稀疏矩阵
- 6.5.3 线性代数
- 6.6 Seaborn
- 6.6.1 认识Seaborn
- 6.6.2 图表分类
- 第7章 Sklearn和NLTK
- 7.1 Sklearn简介
- 7.2 安装Sklearn
- 7.3 数据集
- 7.3.1 小数据集
- 7.3.2 大数据集
- 7.3.3 生成数据集
- 7.4 机器学习流程
- 7.4.1 语料清洗
- 7.4.2 划分数据集
- 7.4.3 特征工程
- 7.4.4 机器算法
- 7.4.5 模型评估
- 7.5 NLTK简介
- 7.6 NLTK语料库
- 7.6.1 inaugural语料库
- 7.6.2 gutenberg语料库
- 7.6.3 movie_reviews语料库
- 7.7 NLTK文本分类
- 7.7.1 分句分词
- 7.7.2 停止词
- 7.7.3 词干提取
- 7.7.4 词形还原
- 7.7.5 同义词与反义词
- 7.7.6 语义相关性
- 第8章 语料清洗
- 8.1 认识语料清洗
- 8.2 清洗策略
- 8.2.1 一致性检查
- 8.2.2 格式内容检查
- 8.2.3 逻辑检查
- 8.3 缺失值清洗
- 8.3.1 认识缺失值
- 8.3.2 Pandas处理
- 8.3.3 Sklearn处理
- 8.4 异常值清洗
- 8.4.1 散点图方法
- 8.4.2 箱线图方法
- 8.4.3 3σ法则
- 8.5 重复值清洗
- 8.5.1 NumPy处理
- 8.5.2 Pandas处理
- 8.6 数据转换
- 8.6.1 数据值替换
- 8.6.2 数据值映射
- 8.6.3 数据值合并
- 8.6.4 数据值补充
- 8.7 Missingno库
- 8.7.1 认识Missingno库
- 8.7.2 示例
- 8.8 词云
- 8.8.1 认识词云
- 8.8.2 示例
- 第9章 特征工程
- 9.1 特征预处理
- 9.1.1 归一化
- 9.1.2 标准化
- 9.1.3 鲁棒化
- 9.1.4 正则化
- 9.1.5 示例
- 9.2 独热编码
- 9.2.1 认识独热编码
- 9.2.2 Pandas实现
- 9.2.3 Sklearn实现
- 9.2.4 DictVectorizer
- 9.3 CountVectorizer
- 9.3.1 认识CountVectorizer
- 9.3.2 Sklearn调用CountVectorizer
- 9.4 TF-IDF
- 9.4.1 认识TF-IDF
- 9.4.2 计算TF-IDF
- 9.4.3 Sklearn调用TF-IDF
- 第10章 中文分词
- 10.1 概述
- 10.1.1 简介
- 10.1.2 特点
- 10.2 常见中文分词方法
- 10.2.1 基于规则和词表方法
- 10.2.2 基于统计方法
- 10.2.3 基于理解方法
- 10.3 中文分词困惑
- 10.4 jieba分词库
- 10.4.1 认识jieba
- 10.4.2 三种模式
- 10.4.3 自定义词典
- 10.4.4 词性标注
- 10.4.5 断词位置
- 10.4.6 关键词抽取
- 10.4.7 停止词表
- 10.5 HanLP分词
- 10.5.1 认识HanLP
- 10.5.2 pyhanlp
- 10.5.3 中文分词
- 10.5.4 依存分析使用
- 10.5.5 关键词提取
- 10.5.6 命名实体识别
- 10.5.7 自定义词典
- 10.5.8 简体繁体转换
- 10.5.9 摘要提取
- 第11章 文本分类
- 11.1 历史回顾
- 11.2 文本分类方法
- 11.2.1 朴素贝叶斯
- 11.2.2 支持向量机
- 11.3 贝叶斯定理
- 11.4 朴素贝叶斯
- 11.4.1 GaussianNB方法
- 11.4.2 MultinomialNB方法
- 11.4.3 BernoulliNB方法
- 11.5 朴素贝叶斯进行新闻分类
- 11.6 支持向量机
- 11.6.1 线性核函数
- 11.6.2 多项式核函数
- 11.6.3 高斯核函数
- 11.7 支持向量机对鸢尾花分类
- 11.8 垃圾邮件分类
- 11.8.1 朴素贝叶斯定理实现
- 11.8.2 Sklearn朴素贝叶斯实现
- 第12章 文本聚类
- 12.1 概述
- 12.1.1 算法原理
- 12.1.2 流程
- 12.2 K-Means算法
- 12.2.1 算法原理
- 12.2.2 数学理论实现
- 12.2.3 Python实现
- 12.3 主成分分析
- 12.3.1 算法原理
- 12.3.2 components参数
- 12.3.3 对鸢尾花数据降维
- 12.4 K-Means评估指标
- 12.4.1 调整兰德系数
- 12.4.2 轮廓系数
- 12.5 K-Means英文文本聚类
- 12.5.1 构建DataFrame数据
- 12.5.2 进行分词和停止词去除
- 12.5.3 向量化
- 12.5.4 TF-IDF模型
- 12.5.5 计算余弦相似度
- 12.5.6 K-Means聚类
- 12.6 K-Means中文文本聚类
- 12.6.1 程序流程
- 12.6.2 程序文件
- 12.6.3 执行代码
- 第13章 评价指标
- 13.1 Sklearn中的评价指标
- 13.2 混淆矩阵
- 13.2.1 认识混淆矩阵
- 13.2.2 Pandas计算混淆矩阵
- 13.2.3 Sklearn计算混淆矩阵
- 13.3 准确率
- 13.3.1 认识准确率
- 13.3.2 Sklearn计算准确率
- 13.4 精确率
- 13.4.1 认识精确率
- 13.4.2 Sklearn计算精确率
- 13.5 召回率
- 13.5.1 认识召回率
- 13.5.2 Sklearn计算召回率
- 13.6 F1 Score
- 13.6.1 认识F1 Score
- 13.6.2 Sklearn计算F1 Score
- 13.7 综合实例
- 13.7.1 数学计算评价指标
- 13.7.2 Python计算评价指标
- 13.8 ROC曲线
- 13.8.1 认识ROC曲线
- 13.8.2 Sklearn计算ROC曲线
- 13.9 AUC面积
- 13.9.1 认识AUC面积
- 13.9.2 Sklearn计算AUC面积
- 13.10 分类评估报告
- 13.10.1 认识分类评估报告
- 13.10.2 Sklearn计算分类评估报告
- 13.11 NLP评价指标
- 13.11.1 中文分词精确率和召回率
- 13.11.2 未登录词和登录词召回率
- 第14章 信息提取
- 14.1 概述
- 14.2 相关概念
- 14.2.1 信息
- 14.2.2 信息熵
- 14.2.3 信息熵与霍夫曼编码
- 14.2.4 互信息
- 14.3 正则表达式
- 14.3.1 基本语法
- 14.3.2 re模块
- 14.3.3 提取电影信息
- 14.4 命名实体识别
- 14.4.1 认识命名实体
- 14.4.2 常见方法
- 14.4.3 NLTK命名实体识别
- 14.4.4 Stanford NLP命名实体识别
- 14.5 马尔可夫模型
- 14.5.1 认识马尔可夫
- 14.5.2 隐马尔可夫模型
- 第15章 情感分析
- 15.1 概述
- 15.1.1 认识情感分析
- 15.1.2 基于词典方法
- 15.2 情感倾向分析
- 15.2.1 情感词
- 15.2.2 程度词
- 15.2.3 感叹号
- 15.2.4 否定词
- 15.3 textblob
- 15.3.1 分句分词
- 15.3.2 词性标注
- 15.3.3 情感分析
- 15.3.4 单复数
- 15.3.5 过去式
- 15.3.6 拼写校正
- 15.3.7 词频统计
- 15.4 SnowNLP
- 15.4.1 分词
- 15.4.2 词性标注
- 15.4.3 断句
- 15.4.4 情绪判断
- 15.4.5 拼音
- 15.4.6 繁转简
- 15.4.7 关键字抽取
- 15.4.8 摘要抽取
- 15.4.9 词频和逆文档词频
- 15.5 Gensim
- 15.5.1 认识Gensim
- 15.5.2 认识LDA
- 15.5.3 Gensim实现LDA
- 15.6 小说人物情感分析
- 15.6.1 流程
- 15.6.2 代码
- 15.7 电影影评情感分析
- 15.7.1 流程
- 15.7.2 代码
- 附录A 教学大纲
- 一、课程简介
- 二、课程内容及要求
- 三、教学安排及学时分配
- 四、考核方式
- 五、建议教材及参考文献
- 参考文献
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。