展开全部

主编推荐语

详解数据抓取、数据处理和数据分析的整个流程。

内容简介

本书介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫程序开发的各个方面,包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共14章,分为基础篇、进阶篇、提高篇和实战篇四个部分,内容覆盖网络抓取与爬虫编程中的主要知识和技术。

同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。

目录

  • 版权信息
  • 面向新工科高等院校大数据专业系列教材编委会成员名单
  • 出版说明
  • 前言
  • 基础篇
  • 第1章 Python基础及网络爬虫
  • 1.1 了解Python语言
  • 1.1.1 Python是什么
  • 1.1.2 Python的应用现状
  • 1.2 配置安装Python开发环境
  • 1.2.1 在Windows上安装
  • 1.2.2 在Ubuntu和MacOS上安装
  • 1.2.3 IDE的使用:以PyCharm为例
  • 1.2.4 Jupyter Notebook简介
  • 1.3 Python基本语法介绍
  • 1.3.1 HelloWorld与数据类型
  • 1.3.2 逻辑语句
  • 1.3.3 Python中的函数与类
  • 1.3.4 更深入了解Python
  • 1.4 互联网、HTTP与HTML
  • 1.4.1 互联网与HTTP
  • 1.4.2 HTML
  • 1.5 Hello, Spider!
  • 1.5.1 编写第一个爬虫程序
  • 1.5.2 对爬虫的思考
  • 1.6 分析网站
  • 1.6.1 robots.txt与Sitemap简介
  • 1.6.2 网站技术分析
  • 1.6.3 网站所有者信息分析
  • 1.6.4 使用开发者工具检查网页
  • 1.7 本章小结
  • 1.8 实践:Python环境的配置与爬虫的运行
  • 1.8.1 需求说明
  • 1.8.2 实现思路及步骤
  • 1.9 习题
  • 第2章 数据采集与预处理
  • 2.1 数据
  • 2.1.1 数据的概念
  • 2.1.2 数据类型
  • 2.1.3 数据的存储形式
  • 2.1.4 数据的价值
  • 2.1.5 大数据时代
  • 2.2 数据分析过程
  • 2.3 数据采集
  • 2.3.1 数据采集的概念
  • 2.3.2 数据采集的数据源
  • 2.3.3 数据采集方法
  • 2.4 数据清洗
  • 2.4.1 数据清洗概述
  • 2.4.2 数据清洗的内容
  • 2.4.3 数据清洗的基本流程
  • 2.4.4 数据清洗的评价标准
  • 2.5 数据集成
  • 2.6 数据转换
  • 2.6.1 数据转换概念与策略
  • 2.6.2 平滑处理
  • 2.6.3 标准化处理
  • 2.7 数据脱敏
  • 2.7.1 数据脱敏的原则
  • 2.7.2 数据脱敏的方法
  • 2.8 本章小结
  • 2.9 实践:使用Python尝试数据的清洗
  • 2.9.1 需求说明
  • 2.9.2 实现思路及步骤
  • 2.10 习题
  • 第3章 静态网页采集
  • 3.1 从采集开始
  • 3.2 正则表达式
  • 3.2.1 什么是正则表达式
  • 3.2.2 正则表达式的简单使用
  • 3.3 BeautifulSoup爬虫
  • 3.3.1 安装BeautifulSoup
  • 3.3.2 BeautifulSoup的基本用法
  • 3.4 XPath与lxml
  • 3.4.1 XPath
  • 3.4.2 lxml与XPath的使用
  • 3.5 遍历页面
  • 3.5.1 抓取下一个页面
  • 3.5.2 完成爬虫
  • 3.6 使用API
  • 3.6.1 API简介
  • 3.6.2 API使用示例
  • 3.7 本章小结
  • 3.8 实践:哔哩哔哩直播间信息爬取练习
  • 3.8.1 需求说明
  • 3.8.2 实现思路及步骤
  • 3.9 习题
  • 第4章 数据存储
  • 4.1 Python中的文件
  • 4.1.1 Python的文件读写
  • 4.1.2 对象序列化
  • 4.2 Python中的字符串
  • 4.3 Python中的图片
  • 4.3.1 PIL与Pillow模块
  • 4.3.2 Python与OpenCV简介
  • 4.4 CSV
  • 4.4.1 CSV简介
  • 4.4.2 CSV的读写
  • 4.5 数据库的使用
  • 4.5.1 MySQL的使用
  • 4.5.2 SQLite3的使用
  • 4.5.3 SQLAlchemy的使用
  • 4.5.4 Redis的使用
  • 4.5.5 MongoDB的使用
  • 4.6 其他类型的文档
  • 4.7 本章小结
  • 4.8 实践:使用Python 3读写SQLite数据库
  • 4.8.1 需求说明
  • 4.8.2 实现思路及步骤
  • 4.9 习题
  • 进阶篇
  • 第5章 JavaScript与动态内容
  • 5.1 JavaScript与AJAX技术
  • 5.1.1 JavaScript语言
  • 5.1.2 AJAX
  • 5.2 抓取AJAX数据
  • 5.2.1 分析数据
  • 5.2.2 数据提取
  • 5.3 抓取动态内容
  • 5.3.1 动态渲染页面
  • 5.3.2 使用Selenium
  • 5.3.3 PyV8与Splash
  • 5.4 本章小结
  • 5.5 实践:爬取机械工业出版社新书上架信息
  • 5.5.1 需求说明
  • 5.5.2 实现思路及步骤
  • 5.6 习题
  • 第6章 模拟登录与验证码
  • 6.1 表单
  • 6.1.1 表单与POST
  • 6.1.2 POST发送表单数据
  • 6.2 Cookie
  • 6.2.1 Cookie简介
  • 6.2.2 在Python中Cookie的使用
  • 6.3 模拟登录网站
  • 6.3.1 分析网站
  • 6.3.2 Cookie方法的模拟登录
  • 6.4 验证码
  • 6.4.1 图片验证码
  • 6.4.2 滑动验证
  • 6.5 本章小结
  • 6.6 实践:通过Selenium模拟登录Gitee并保存Cookie
  • 6.6.1 需求说明
  • 6.6.2 实现思路及步骤
  • 6.7 习题
  • 第7章 爬虫数据的分析与处理
  • 7.1 Python与文本分析
  • 7.1.1 文本分析简介
  • 7.1.2 jieba与SnowNLP
  • 7.1.3 NLTK
  • 7.1.4 文本分类与聚类
  • 7.2 数据处理与科学计算
  • 7.2.1 从MATLAB到Python
  • 7.2.2 NumPy
  • 7.2.3 Pandas
  • 7.2.4 Matplotlib
  • 7.2.5 SciPy与SymPy
  • 7.3 本章小结
  • 7.4 实践:中国每年大学招生人数变化的可视化
  • 7.4.1 需求说明
  • 7.4.2 实现思路及步骤
  • 7.5 习题
  • 提高篇
  • 第8章 爬虫的灵活性和多样性
  • 8.1 爬虫的灵活性——以微信数据抓取为例
  • 8.1.1 用Selenium抓取Web微信信息
  • 8.1.2 基于Python的微信API工具
  • 8.2 爬虫的多样性
  • 8.2.1 在BeautifulSoup和XPath之外
  • 8.2.2 在线爬虫应用平台
  • 8.2.3 使用urllib
  • 8.3 爬虫的部署和管理
  • 8.3.1 使用服务器部署爬虫
  • 8.3.2 本地爬虫的编写
  • 8.3.3 爬虫的部署
  • 8.3.4 实时查看运行结果
  • 8.3.5 使用框架管理爬虫
  • 8.4 本章小结
  • 8.5 实践:基于PyQuery爬取菜鸟教程
  • 8.5.1 需求说明
  • 8.5.2 实现思路及步骤
  • 8.6 习题
  • 第9章 Selenium模拟浏览器与网站测试
  • 9.1 测试
  • 9.1.1 什么是测试
  • 9.1.2 什么是TDD
  • 9.2 Python的单元测试
  • 9.2.1 使用unittest
  • 9.2.2 其他方法
  • 9.3 使用Python爬虫测试网站
  • 9.4 使用Selenium测试
  • 9.4.1 Selenium测试常用的网站交互
  • 9.4.2 结合Selenium进行单元测试
  • 9.5 本章小结
  • 9.6 实践:使用Selenium爬取百度搜索“爬虫”的结果
  • 9.6.1 需求说明
  • 9.6.2 实现思路及步骤
  • 9.7 习题
  • 第10章 爬虫框架Scrapy与反爬虫
  • 10.1 爬虫框架
  • 10.1.1 Scrapy简介
  • 10.1.2 安装与学习Scrapy
  • 10.1.3 Scrapy爬虫编写
  • 10.1.4 其他爬虫框架
  • 10.2 网站反爬虫
  • 10.2.1 反爬虫策略简介
  • 10.2.2 伪装Headers
  • 10.2.3 代理IP的使用
  • 10.2.4 控制访问频率
  • 10.3 本章小结
  • 10.4 实践:使用反反爬虫策略抓取新浪体育频道热门新闻标题
  • 10.4.1 需求说明
  • 10.4.2 实现思路及步骤
  • 10.5 习题
  • 实战篇
  • 第11章 实战:根据关键词爬取新闻
  • 11.1 利用Web Scraper工具
  • 11.1.1 Web Scraper介绍
  • 11.1.2 利用Web Scraper爬取新华网新闻
  • 11.2 利用Selenium和XPath技术
  • 11.2.1 Selenium介绍
  • 11.2.2 XPath介绍
  • 11.2.3 根据关键词爬取新闻
  • 11.3 本章小结
  • 第12章 实战:爬取科研文献信息
  • 12.1 科研文献数据爬取
  • 12.1.1 网页URL分析
  • 12.1.2 网页响应内容获取
  • 12.1.3 数据持久化存储
  • 12.1.4 爬虫代码编写
  • 12.1.5 大数据量文献爬虫
  • 12.1.6 针对反爬虫的措施
  • 12.2 本章小结
  • 第13章 实战:蒸汽平台游戏数据爬取
  • 13.1 爬取蒸汽平台上最受好评的前100个游戏信息
  • 13.1.1 多线程
  • 13.1.2 搜索页面分析和爬虫实现
  • 13.1.3 游戏页面分析和爬虫实现
  • 13.1.4 信息存储和结果展示
  • 13.2 本章小结
  • 第14章 实战:Scrapy框架爬取股票信息
  • 14.1 任务介绍
  • 14.2 Scrapy项目实战
  • 14.2.1 新建Scrapy爬虫项目
  • 14.2.2 使用Scrapy shell抓取并查看页面
  • 14.2.3 爬虫代码编写
  • 14.2.4 运行并存储数据
  • 14.2.5 设置文件修改
  • 14.3 本章小结
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。