5.0 用户推荐指数
互联网
类型
8.2
豆瓣评分
可以朗读
语音朗读
213千字
字数
2021-10-01
发行日期
展开全部
主编推荐语
本书以问题为导向,用具体应用场景讲明白如何选择、使用合适的数据科学工具。
内容简介
本书结合数据科学的具体应用场景,由浅入深、循序渐进地引导读者入门数据科学,覆盖了数据获取、数据预处理、数据分析等方面的内容,共 10 章。
本书首先概括性地介绍各章的主要内容,然后通过一个个生动的案例讲解数据获取、数据预处理、自然语言处理、机器学习和深度学习等方面的典型应用,最后通过答疑部分为读者提供进一步学习的方向和方法的建议。
本书各章的案例均基于具体应用场景,以简单、清晰的方式对数据科学相关的技术原理和实际操作进行讲解。
目录
- 版权信息
- 内容提要
- 前言
- 视频导向图书使用指南
- 第1章 入门导读
- 1.1 环境设置
- 1.2 探索分析
- 1.3 数据获取
- 1.4 数据预处理
- 1.5 自然语言处理
- 1.6 机器学习
- 1.7 深度学习
- 1.8 机器学习进阶
- 1.9 答疑时间
- 第2章 环境设置
- 2.1 Python运行环境Anaconda的安装
- 2.1.1 下载及安装Anaconda
- 2.1.2 运行Anaconda
- 2.2 在线运行Python代码
- 2.2.1 在线运行程序的需求
- 2.2.2 尝试打开在线程序代码
- 2.2.3 在线运行Python的实现过程
- 2.2.4 mybinder的运行原理
- 2.2.5 小结与思考
- 2.3 复制运行环境
- 2.3.1 在线环境的局限
- 2.3.2 复制运行环境流程
- 2.3.3 小结与思考
- 第3章 探索分析
- 3.1 词云制作
- 3.1.1 安装WordCloud与数据准备
- 3.1.2 开始制作词云
- 3.2 中文分词
- 3.2.1 中文分词的需求
- 3.2.2 中文分词的操作
- 3.2.3 准备分词数据
- 3.2.4 制作中文词云
- 3.2.5 小结与思考
- 3.3 用Pandas存取和交换数据
- 3.3.1 数据格式的问题
- 3.3.2 数据样例
- 3.3.3 CSV/TSV格式
- 3.3.4 pickle格式
- 3.3.5 JSON格式
- 3.3.6 小结与思考
- 3.4 可视化《三国演义》人名与兵器出现频率
- 3.4.1 读取人名数据
- 3.4.2 读取《三国演义》文本数据
- 3.4.3 小结与思考
- 3.5 用R语言快速探索数据集
- 3.5.1 启动RStudio
- 3.5.2 使用summarytools包
- 3.5.3 分析结果解读
- 3.5.4 小结与思考
- 3.6 快速了解科研领域
- 3.6.1 Biblioshiny分析工具
- 3.6.2 期刊文献数据
- 3.6.3 作者分析
- 3.6.4 文献被引用分析
- 3.6.5 研究主题分析
- 3.6.6 小结与思考
- 第4章 数据获取
- 4.1 获取开放数据
- 4.1.1 获取数据的需求
- 4.1.2 开放数据的获取
- 4.2 利用API收集与分析网络数据
- 4.2.1 API的含义
- 4.2.2 阿里云云市场
- 4.2.3 代码运行环境
- 4.2.4 获取天气数据
- 4.2.5 分析各地气候
- 4.2.6 小结与思考
- 4.3 Python抓取数据
- 4.3.1 爬虫的概念
- 4.3.2 抓取目标
- 4.3.3 爬虫运行环境
- 4.3.4 爬虫实现过程
- 4.3.5 小结与思考
- 第5章 数据预处理
- 5.1 使用正则表达式抽取文本结构化数据
- 5.1.1 自动抽取的样例
- 5.1.2 正则表达式
- 5.1.3 寻找规则
- 5.1.4 实际匹配操作
- 5.1.5 小结与思考
- 5.2 批量抽取PDF文本内容
- 5.2.1 下载实验数据
- 5.2.2 设置运行环境
- 5.2.3 运用PDFMiner抽取数据
- 5.2.4 小结与思考
- 5.3 智能批量压缩图片
- 5.3.1 批量统一处理图片
- 5.3.2 原始数据
- 5.3.3 压缩图片的具体过程
- 5.3.4 将代码整合为函数
- 5.3.5 小结与思考
- 5.4 安装Python软件包遇错误,怎么办?
- 5.4.1 屡次安装失败的遭遇
- 5.4.2 系统依赖条件
- 5.4.3 又遇到了新问题
- 5.4.4 转换思路解决问题
- 5.4.5 生成PDF词云的过程
- 5.4.6 小结与思考
- 第6章 自然语言处理
- 6.1 提取中文关键词
- 6.1.1 文件编码问题
- 6.1.2 关键词提取操作
- 6.1.3 关键词提取原理
- 6.1.4 小结与思考
- 6.2 情感分析
- 6.2.1 安装情感分析依赖包
- 6.2.2 英文文本情感分析
- 6.2.3 中文文本情感分析
- 6.2.4 小结与思考
- 6.3 评论数据情感分析的时间序列可视化
- 6.3.1 餐厅评论数据
- 6.3.2 读取数据并安装依赖包
- 6.3.3 评论的情感分析可视化
- 6.3.4 小结与思考
- 6.4 对故事情节做情绪分析
- 6.4.1 情绪词典
- 6.4.2 数据准备
- 6.4.3 安装R
- 6.4.4 使用Python做文本数据清理
- 6.4.5 使用R做情绪分析
- 6.4.6 小结与思考
- 6.5 spaCy与词嵌入
- 6.5.1 spaCy介绍
- 6.5.2 文本语法结构分析
- 6.5.3 文本语义分析
- 6.5.4 小结与思考
- 第7章 机器学习
- 7.1 机器学习做决策支持
- 7.1.1 寻找安全贷款的规律
- 7.1.2 决策树
- 7.1.3 机器学习
- 7.1.4 数据准备与运行环境
- 7.1.5 构建决策树
- 7.1.6 预测模型的准确率
- 7.2 中文文本情感分类模型
- 7.2.1 个性化的情感分析
- 7.2.2 餐厅评论数据
- 7.2.3 机器学习中的模型选择
- 7.2.4 文本向量化
- 7.2.5 中文的向量化
- 7.2.6 运行环境
- 7.2.7 情感分类模型的训练
- 7.2.8 小结与思考
- 7.3 从海量文章中抽取主题
- 7.3.1 信息过载的痛苦
- 7.3.2 文章主题
- 7.3.3 安装依赖包
- 7.3.4 使用LDA抽取主题
- 7.3.5 小结与思考
- 第8章 深度学习
- 8.1 如何锁定即将流失的客户
- 8.1.1 寻找安全贷款的规律
- 8.1.2 运行环境
- 8.1.3 数据清理
- 8.1.4 尝试使用决策树
- 8.1.5 深度学习游乐场
- 8.1.6 深度学习框架
- 8.1.7 尝试使用TensorFlow
- 8.1.8 深度学习模型评估
- 8.1.9 小结与思考
- 8.2 识别动物图像
- 8.2.1 计算机识别图像
- 8.2.2 学习数据
- 8.2.3 配置运行环境
- 8.2.4 通过Turi Create识别图像
- 8.2.5 卷积神经网络
- 8.2.6 小结与思考
- 8.3 寻找近似图像
- 8.3.1 近似图像的作用
- 8.3.2 数据与配置环境
- 8.3.3 通过Turi Create查找近似图像
- 8.3.4 迁移学习的原理
- 8.3.5 小结与思考
- 8.4 如何理解卷积神经网络
- 8.5 如何理解循环神经网络
- 8.6 循环神经网络实现中文文本分类
- 8.6.1 概念准备
- 8.6.2 数据环境
- 8.6.3 数据预处理
- 8.6.4 词嵌入矩阵
- 8.6.5 模型构建
- 8.6.6 分类效果讨论
- 8.6.7 小结与思考
- 8.7 循环神经网络预测严重交通拥堵
- 8.7.1 交通事件数据样例
- 8.7.2 数据准备与配置环境
- 8.7.3 训练模型与评估结果
- 8.7.4 小结与思考
- 8.8 用TensorFlow神经网络分类表格数据
- 8.8.1 深度学习框架正在发生变化
- 8.8.2 实验数据
- 8.8.3 实验环境配置
- 8.8.4 模型训练
- 8.8.5 疑惑
- 8.8.6 小结与思考
- 8.9 你的机器“不肯”学习,怎么办?
- 8.9.1 前情回顾
- 8.9.2 代码
- 8.9.3 归一化的重要性
- 8.9.4 新代码
- 8.9.5 小结与思考
- 第9章 机器学习进阶
- 9.1 二元分类任务
- 9.1.1 监督学习
- 9.1.2 机器学习的含义
- 9.1.3 结构化数据
- 9.1.4 图像信息学习
- 9.1.5 文本数据学习
- 9.1.6 调用模型实施
- 9.2 有效沟通机器学习结果
- 9.2.1 简单明了的解释
- 9.2.2 对机器学习的反思
- 9.2.3 解释学习结果的方法
- 9.2.4 小结与思考
- 9.3 机器学习中的训练集、验证集和测试集
- 9.3.1 准确率高就好吗
- 9.3.2 测试集
- 9.3.3 验证集
- 9.3.4 训练集
- 9.3.5 小结与思考
- 第10章 答疑时间
- 10.1 Python编程遇到问题怎么办?
- 10.1.1 遭遇编程错误
- 10.1.2 照葫芦画葫芦
- 10.1.3 照葫芦画瓢
- 10.1.4 找葫芦画瓢
- 10.1.5 小结与思考
- 10.2 如何高效学Python?
- 10.2.1 你是哪一类人
- 10.2.2 记忆与实践
- 10.3 如何高效学习数据科学?
- 10.3.1 学习的焦虑
- 10.3.2 以目标为导向的学习
- 10.3.3 学习的深度
- 10.3.4 协作的快乐
- 10.3.5 小结与思考
- 10.4 数据科学入门后,该做什么?
- 10.4.1 打开进阶之路
- 10.4.2 实践中学习
- 10.4.3 教学中学习
- 10.4.4 传播中学习
- 10.4.5 小结与思考
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。