展开全部

主编推荐语

本书以Python、Sklearn、NLTK为基础,教授自然语言处理、文本分类等,实现快速入门。

内容简介

本书的所有程序都在 anaconda进行调试和运行。本教材包括自然语言处理概述、Python语言简介、Python数据类型、Python流程控制、函数、python数据分析、Sklearn和NLTK、语料清洗、特征工程、中文分词、文本分类、文本聚类、指标评价、信息提取和情感分析。本教材区别于众多自然语言处理的教材“重理论轻代码”,往往只是给出伪代码,而本书采用基于Python语言的sklearn平台和NLTK实现,便于学生更快地掌握自然语言处理的基本思想,较为快速的入门学习。

目录

  • 封面页
  • 书名页
  • 版权页
  • 内容简介
  • 前言PREFACE
  • 目录
  • 第1章 自然语言处理概述
  • 1.1 人工智能发展历程
  • 1.1.1 第一阶段:20年黄金时代
  • 1.1.2 第二阶段:第一次寒冬
  • 1.1.3 第三阶段:繁荣期
  • 1.1.4 第四阶段:第二次寒冬
  • 1.1.5 第五阶段:稳健时代
  • 1.2 自然语言处理
  • 1.2.1 概述
  • 1.2.2 发展历程
  • 1.2.3 处理流程
  • 1.2.4 研究内容
  • 1.3 机器学习算法
  • 1.3.1 监督学习
  • 1.3.2 无监督学习
  • 1.4 自然语言处理相关库
  • 1.4.1 NumPy
  • 1.4.2 Matplotlib
  • 1.4.3 Pandas
  • 1.4.4 SciPy
  • 1.4.5 NLTK
  • 1.4.6 SnowNLP
  • 1.4.7 Sklearn
  • 1.5 语料库
  • 1.5.1 认识语料库
  • 1.5.2 分类
  • 1.5.3 构建原则
  • 1.5.4 常用语料库
  • 1.5.5 搜狗新闻语料库
  • 第2章 Python语言简述
  • 2.1 Python简介
  • 2.1.1 Python发展历程
  • 2.1.2 Python的特点
  • 2.1.3 Python应用场合
  • 2.2 Python解释器
  • 2.2.1 Ubuntu下安装Python
  • 2.2.2 Windows下安装Python
  • 2.3 Python编辑器
  • 2.3.1 IDLE
  • 2.3.2 VS Code
  • 2.3.3 PyCharm
  • 2.3.4 Anaconda
  • 2.3.5 Jupyter
  • 2.4 代码书写规则
  • 2.4.1 缩进
  • 2.4.2 多行语句
  • 2.4.3 注释
  • 2.4.4 编码习惯
  • 2.5 自学网站
  • 2.5.1 菜鸟网站
  • 2.5.2 廖雪峰学Python网站
  • 2.5.3 Python官方网站
  • 2.5.4 Python-100天从新手到大师网站
  • 第3章 Python数据类型
  • 3.1 变量
  • 3.1.1 变量命名
  • 3.1.2 变量引用
  • 3.2 运算符
  • 3.2.1 算术运算符
  • 3.2.2 关系运算符
  • 3.2.3 赋值运算符
  • 3.2.4 逻辑运算符
  • 3.2.5 位运算符
  • 3.2.6 成员运算符
  • 3.2.7 身份运算符
  • 3.3 表达式
  • 3.3.1 概念
  • 3.3.2 操作
  • 3.4 数据类型
  • 3.5 数字
  • 3.5.1 概念
  • 3.5.2 操作
  • 3.6 字符串
  • 3.6.1 概念
  • 3.6.2 操作
  • 3.7 列表
  • 3.7.1 概念
  • 3.7.2 操作
  • 3.8 元组
  • 3.8.1 概念
  • 3.8.2 操作
  • 3.9 字典
  • 3.9.1 字典的概念
  • 3.9.2 字典操作
  • 3.9.3 字典举例
  • 3.10 集合
  • 3.10.1 集合的概念
  • 3.10.2 集合操作
  • 3.10.3 集合举例
  • 3.11 组合数据类型
  • 3.11.1 相互关系
  • 3.11.2 数据类型转换
  • 第4章 Python流程控制
  • 4.1 流程结构
  • 4.2 顺序结构
  • 4.2.1 输入输出
  • 4.2.2 举例
  • 4.3 选择结构
  • 4.3.1 单分支
  • 4.3.2 双分支
  • 4.3.3 多分支
  • 4.3.4 分支嵌套
  • 4.4 循环概述
  • 4.4.1 循环结构
  • 4.4.2 循环分类
  • 4.5 while语句
  • 4.5.1 基本形式
  • 4.5.2 else语句
  • 4.5.3 无限循环
  • 4.6 for语句
  • 4.6.1 应用序列类型
  • 4.6.2 内置函数range()
  • 4.7 循环嵌套
  • 4.7.1 原理
  • 4.7.2 实现
  • 4.8 辅助语句
  • 4.8.1 break语句
  • 4.8.2 continue语句
  • 4.8.3 pass语句
  • 第5章 Python函数
  • 5.1 函数声明与调用
  • 5.1.1 函数声明
  • 5.1.2 函数调用
  • 5.1.3 函数返回值
  • 5.2 参数传递
  • 5.2.1 实参与形参
  • 5.2.2 传对象引用
  • 5.3 参数分类
  • 5.3.1 必备参数
  • 5.3.2 默认参数
  • 5.3.3 关键参数
  • 5.3.4 不定长参数
  • 5.4 两类特殊函数
  • 5.4.1 匿名函数
  • 5.4.2 递归函数
  • 第6章 Python数据科学
  • 6.1 科学计算
  • 6.2 NumPy
  • 6.2.1 认识NumPy
  • 6.2.2 创建数组
  • 6.2.3 查看数组
  • 6.2.4 索引和切片
  • 6.2.5 矩阵运算
  • 6.3 Matplotlib
  • 6.3.1 认识Matplotlib
  • 6.3.2 线形图
  • 6.3.3 散点图
  • 6.3.4 饼状图
  • 6.3.5 直方图
  • 6.4 Pandas
  • 6.4.1 认识Pandas
  • 6.4.2 Series
  • 6.4.3 DataFrame
  • 6.4.4 Index
  • 6.4.5 Plot
  • 6.5 SciPy
  • 6.5.1 认识SciPy
  • 6.5.2 稀疏矩阵
  • 6.5.3 线性代数
  • 6.6 Seaborn
  • 6.6.1 认识Seaborn
  • 6.6.2 图表分类
  • 第7章 Sklearn和NLTK
  • 7.1 Sklearn简介
  • 7.2 安装Sklearn
  • 7.3 数据集
  • 7.3.1 小数据集
  • 7.3.2 大数据集
  • 7.3.3 生成数据集
  • 7.4 机器学习流程
  • 7.4.1 语料清洗
  • 7.4.2 划分数据集
  • 7.4.3 特征工程
  • 7.4.4 机器算法
  • 7.4.5 模型评估
  • 7.5 NLTK简介
  • 7.6 NLTK语料库
  • 7.6.1 inaugural语料库
  • 7.6.2 gutenberg语料库
  • 7.6.3 movie_reviews语料库
  • 7.7 NLTK文本分类
  • 7.7.1 分句分词
  • 7.7.2 停止词
  • 7.7.3 词干提取
  • 7.7.4 词形还原
  • 7.7.5 同义词与反义词
  • 7.7.6 语义相关性
  • 第8章 语料清洗
  • 8.1 认识语料清洗
  • 8.2 清洗策略
  • 8.2.1 一致性检查
  • 8.2.2 格式内容检查
  • 8.2.3 逻辑检查
  • 8.3 缺失值清洗
  • 8.3.1 认识缺失值
  • 8.3.2 Pandas处理
  • 8.3.3 Sklearn处理
  • 8.4 异常值清洗
  • 8.4.1 散点图方法
  • 8.4.2 箱线图方法
  • 8.4.3 3σ法则
  • 8.5 重复值清洗
  • 8.5.1 NumPy处理
  • 8.5.2 Pandas处理
  • 8.6 数据转换
  • 8.6.1 数据值替换
  • 8.6.2 数据值映射
  • 8.6.3 数据值合并
  • 8.6.4 数据值补充
  • 8.7 Missingno库
  • 8.7.1 认识Missingno库
  • 8.7.2 示例
  • 8.8 词云
  • 8.8.1 认识词云
  • 8.8.2 示例
  • 第9章 特征工程
  • 9.1 特征预处理
  • 9.1.1 归一化
  • 9.1.2 标准化
  • 9.1.3 鲁棒化
  • 9.1.4 正则化
  • 9.1.5 示例
  • 9.2 独热编码
  • 9.2.1 认识独热编码
  • 9.2.2 Pandas实现
  • 9.2.3 Sklearn实现
  • 9.2.4 DictVectorizer
  • 9.3 CountVectorizer
  • 9.3.1 认识CountVectorizer
  • 9.3.2 Sklearn调用CountVectorizer
  • 9.4 TF-IDF
  • 9.4.1 认识TF-IDF
  • 9.4.2 计算TF-IDF
  • 9.4.3 Sklearn调用TF-IDF
  • 第10章 中文分词
  • 10.1 概述
  • 10.1.1 简介
  • 10.1.2 特点
  • 10.2 常见中文分词方法
  • 10.2.1 基于规则和词表方法
  • 10.2.2 基于统计方法
  • 10.2.3 基于理解方法
  • 10.3 中文分词困惑
  • 10.4 jieba分词库
  • 10.4.1 认识jieba
  • 10.4.2 三种模式
  • 10.4.3 自定义词典
  • 10.4.4 词性标注
  • 10.4.5 断词位置
  • 10.4.6 关键词抽取
  • 10.4.7 停止词表
  • 10.5 HanLP分词
  • 10.5.1 认识HanLP
  • 10.5.2 pyhanlp
  • 10.5.3 中文分词
  • 10.5.4 依存分析使用
  • 10.5.5 关键词提取
  • 10.5.6 命名实体识别
  • 10.5.7 自定义词典
  • 10.5.8 简体繁体转换
  • 10.5.9 摘要提取
  • 第11章 文本分类
  • 11.1 历史回顾
  • 11.2 文本分类方法
  • 11.2.1 朴素贝叶斯
  • 11.2.2 支持向量机
  • 11.3 贝叶斯定理
  • 11.4 朴素贝叶斯
  • 11.4.1 GaussianNB方法
  • 11.4.2 MultinomialNB方法
  • 11.4.3 BernoulliNB方法
  • 11.5 朴素贝叶斯进行新闻分类
  • 11.6 支持向量机
  • 11.6.1 线性核函数
  • 11.6.2 多项式核函数
  • 11.6.3 高斯核函数
  • 11.7 支持向量机对鸢尾花分类
  • 11.8 垃圾邮件分类
  • 11.8.1 朴素贝叶斯定理实现
  • 11.8.2 Sklearn朴素贝叶斯实现
  • 第12章 文本聚类
  • 12.1 概述
  • 12.1.1 算法原理
  • 12.1.2 流程
  • 12.2 K-Means算法
  • 12.2.1 算法原理
  • 12.2.2 数学理论实现
  • 12.2.3 Python实现
  • 12.3 主成分分析
  • 12.3.1 算法原理
  • 12.3.2 components参数
  • 12.3.3 对鸢尾花数据降维
  • 12.4 K-Means评估指标
  • 12.4.1 调整兰德系数
  • 12.4.2 轮廓系数
  • 12.5 K-Means英文文本聚类
  • 12.5.1 构建DataFrame数据
  • 12.5.2 进行分词和停止词去除
  • 12.5.3 向量化
  • 12.5.4 TF-IDF模型
  • 12.5.5 计算余弦相似度
  • 12.5.6 K-Means聚类
  • 12.6 K-Means中文文本聚类
  • 12.6.1 程序流程
  • 12.6.2 程序文件
  • 12.6.3 执行代码
  • 第13章 评价指标
  • 13.1 Sklearn中的评价指标
  • 13.2 混淆矩阵
  • 13.2.1 认识混淆矩阵
  • 13.2.2 Pandas计算混淆矩阵
  • 13.2.3 Sklearn计算混淆矩阵
  • 13.3 准确率
  • 13.3.1 认识准确率
  • 13.3.2 Sklearn计算准确率
  • 13.4 精确率
  • 13.4.1 认识精确率
  • 13.4.2 Sklearn计算精确率
  • 13.5 召回率
  • 13.5.1 认识召回率
  • 13.5.2 Sklearn计算召回率
  • 13.6 F1 Score
  • 13.6.1 认识F1 Score
  • 13.6.2 Sklearn计算F1 Score
  • 13.7 综合实例
  • 13.7.1 数学计算评价指标
  • 13.7.2 Python计算评价指标
  • 13.8 ROC曲线
  • 13.8.1 认识ROC曲线
  • 13.8.2 Sklearn计算ROC曲线
  • 13.9 AUC面积
  • 13.9.1 认识AUC面积
  • 13.9.2 Sklearn计算AUC面积
  • 13.10 分类评估报告
  • 13.10.1 认识分类评估报告
  • 13.10.2 Sklearn计算分类评估报告
  • 13.11 NLP评价指标
  • 13.11.1 中文分词精确率和召回率
  • 13.11.2 未登录词和登录词召回率
  • 第14章 信息提取
  • 14.1 概述
  • 14.2 相关概念
  • 14.2.1 信息
  • 14.2.2 信息熵
  • 14.2.3 信息熵与霍夫曼编码
  • 14.2.4 互信息
  • 14.3 正则表达式
  • 14.3.1 基本语法
  • 14.3.2 re模块
  • 14.3.3 提取电影信息
  • 14.4 命名实体识别
  • 14.4.1 认识命名实体
  • 14.4.2 常见方法
  • 14.4.3 NLTK命名实体识别
  • 14.4.4 Stanford NLP命名实体识别
  • 14.5 马尔可夫模型
  • 14.5.1 认识马尔可夫
  • 14.5.2 隐马尔可夫模型
  • 第15章 情感分析
  • 15.1 概述
  • 15.1.1 认识情感分析
  • 15.1.2 基于词典方法
  • 15.2 情感倾向分析
  • 15.2.1 情感词
  • 15.2.2 程度词
  • 15.2.3 感叹号
  • 15.2.4 否定词
  • 15.3 textblob
  • 15.3.1 分句分词
  • 15.3.2 词性标注
  • 15.3.3 情感分析
  • 15.3.4 单复数
  • 15.3.5 过去式
  • 15.3.6 拼写校正
  • 15.3.7 词频统计
  • 15.4 SnowNLP
  • 15.4.1 分词
  • 15.4.2 词性标注
  • 15.4.3 断句
  • 15.4.4 情绪判断
  • 15.4.5 拼音
  • 15.4.6 繁转简
  • 15.4.7 关键字抽取
  • 15.4.8 摘要抽取
  • 15.4.9 词频和逆文档词频
  • 15.5 Gensim
  • 15.5.1 认识Gensim
  • 15.5.2 认识LDA
  • 15.5.3 Gensim实现LDA
  • 15.6 小说人物情感分析
  • 15.6.1 流程
  • 15.6.2 代码
  • 15.7 电影影评情感分析
  • 15.7.1 流程
  • 15.7.2 代码
  • 附录A 教学大纲
  • 一、课程简介
  • 二、课程内容及要求
  • 三、教学安排及学时分配
  • 四、考核方式
  • 五、建议教材及参考文献
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。