展开全部

主编推荐语

涵盖网络爬虫的核心概念、算法和技术实现,内容系统,案例丰富。

内容简介

本书是一本系统、全面地介绍Python网络爬虫的实战宝典。作者融合自己丰富的工程实践经验,紧密结合演示应用案例,内容覆盖了几乎所有网络爬虫涉及的核心技术。在内容编排上,一步步地剖析算法背后的概念与原理,提供大量简洁的代码实现,助你从零基础开始编程实现深度学习算法。

全书按照学习爬虫所涉及的核心技术从易到难,再到应用的顺序分为14章。

第1章介绍Python的安装配置和基础语法;第2章介绍爬虫类型、抓取策略以及网络基础知识;第3章介绍Python常用库;第4章介绍正则表达式的语法、匹配规则;第5章讲解PIL库、Tesseract库和TensorFlow库的语法、类型和识别方法;第6章介绍抓包利器Fiddler;第7章介绍数据存储;第8章介绍Scrapy爬虫框架;第9章介绍多线程爬虫;第10章介绍动态网页爬虫;第11章介绍分布式爬虫;第12章介绍电商网站商品信息爬虫项目;第13章介绍生活娱乐点评类信息爬虫;第14章介绍图片信息类爬虫项目。

目录

  • 版权信息
  • 前言
  • 第1章 Python环境搭建及基础学习
  • 1.1 Python 3.6的安装与配置
  • 1.1.1 Windows下的安装
  • 1.1.2 Linux下的安装
  • 1.1.3 macOS下的安装
  • 1.2 IDE工具:PyCharm的安装
  • 1.3 基础语法
  • 1.3.1 第一个Python程序
  • 1.3.2 Python命名规范
  • 1.3.3 行和缩进
  • 1.3.4 注释和续行
  • 1.3.5 Python输出
  • 1.4 字符串
  • 1.4.1 字符串运算符
  • 1.4.2 字符串内置函数
  • 1.5 数据结构
  • 1.5.1 列表
  • 1.5.2 元组
  • 1.5.3 集合
  • 1.5.4 字典
  • 1.6 控制语句
  • 1.6.1 条件表达式
  • 1.6.2 选择结构
  • 1.6.3 循环结构
  • 1.7 函数、模块和包
  • 1.7.1 函数
  • 1.7.2 模块
  • 1.7.3 包
  • 1.8 文件的读写操作
  • 1.8.1 文件读写步骤与打开模式
  • 1.8.2 文件的基本操作
  • 1.8.3 文件写入操作
  • 1.9 面向对象
  • 1.9.1 类和对象
  • 1.9.2 封装性
  • 1.9.3 继承性
  • 1.9.4 多态性
  • 1.10 本章小结
  • 练习题
  • 第2章 爬虫原理和网络基础
  • 2.1 爬虫是什么
  • 2.2 爬虫的意义
  • 2.3 爬虫的原理
  • 2.4 爬虫技术的类型
  • 2.4.1 聚焦爬虫技术
  • 2.4.2 通用爬虫技术
  • 2.4.3 增量爬虫技术
  • 2.4.4 深层网络爬虫技术
  • 2.5 爬虫抓取策略
  • 2.5.1 深度优先遍历策略
  • 2.5.2 广度优先遍历策略
  • 2.5.3 Partial PageRank策略
  • 2.5.4 大站优先策略
  • 2.5.5 反向链接数策略
  • 2.5.6 OPIC策略
  • 2.6 反爬虫和反反爬虫
  • 2.6.1 反爬虫
  • 2.6.2 反反爬虫
  • 2.7 网络基础
  • 2.7.1 网络体系结构
  • 2.7.2 网络协议
  • 2.7.3 Socket编程
  • 2.8 本章小结
  • 练习题
  • 第3章 Python常用库
  • 3.1 Python库的介绍
  • 3.1.1 常用标准库
  • 3.1.2 安装使用第三方库
  • 3.2 urllib库
  • 3.2.1 urlopen()函数用法
  • 3.2.2 urlretrieve()函数用法
  • 3.2.3 URL编码和URL解码
  • 3.2.4 urlparse()和urlsplit()函数用法
  • 3.3 request库
  • 3.3.1 request库的基本使用
  • 3.3.2 request库的高级用法
  • 3.4 lxml库
  • 3.4.1 lxml库的安装和使用
  • 3.4.2 XPath介绍
  • 3.4.3 XPath语法
  • 3.4.4 lxml和XPath的结合使用
  • 3.5 Beautiful Soup库
  • 3.5.1 Beautiful Soup库的安装和使用
  • 3.5.2 提取数据
  • 3.5.3 CSS选择器
  • 3.6 实战案例
  • 3.6.1 使用Beautiful Soup解析网页
  • 3.6.2 微信公众号爬虫
  • 3.6.3 爬取豆瓣读书TOP500
  • 3.6.4 使用urllib库爬取百度贴吧
  • 3.7 本章小结
  • 练习题
  • 第4章 正则表达式
  • 4.1 概念介绍
  • 4.2 正则表达式语法
  • 4.2.1 正则模式的字符
  • 4.2.2 运算符优先级
  • 4.3 匹配规则
  • 4.3.1 单字符匹配规则
  • 4.3.2 多字符匹配规则
  • 4.3.3 边界匹配
  • 4.3.4 分组匹配
  • 4.4 re模块常用函数
  • 4.4.1 re.match函数
  • 4.4.2 re.search函数
  • 4.4.3 re.compile函数
  • 4.4.4 re.sub函数
  • 4.4.5 re.findall函数
  • 4.4.6 re.finditer函数
  • 4.4.7 re.split函数
  • 4.5 本章小结
  • 练习题
  • 第5章 验证码
  • 5.1 PIL库
  • 5.1.1 PIL库的安装
  • 5.1.2 PIL库的常用函数
  • 5.1.3 PIL库的应用
  • 5.1.4 应用PIL到实际开发
  • 5.2 Tesseract库
  • 5.2.1 Tesseract库的安装
  • 5.2.2 Tesseract库的使用
  • 5.2.3 Tesseract库的识别训练
  • 5.3 TensorFlow库
  • 5.3.1 TensorFlow库的安装
  • 5.3.2 TensorFlow基本操作
  • 5.3.3 TensorFlow基础架构
  • 5.3.4 TensorFlow创建线性回归模型
  • 5.3.5 TensorFlow识别知乎验证码
  • 5.4 4种验证码的解决思路
  • 5.5 OCR处理验证码
  • 5.6 实战案例
  • 5.7 本章小结
  • 练习题
  • 第6章 抓包利器Fiddler
  • 6.1 Fiddler简介
  • 6.2 Fiddler的安装和配置
  • 6.2.1 Fiddler的安装
  • 6.2.2 Fiddler的配置
  • 6.3 Fiddler捕获会话
  • 6.4 QuickExec命令行的使用
  • 6.5 Fiddler断点功能
  • 6.6 Fiddler的实用工具
  • 6.7 实战案例
  • 6.7.1 使用Fiddler抓取数据并分析
  • 6.7.2 使用Fiddler抓取HTTPS流量
  • 6.7.3 使用Fiddler抓取手机应用
  • 6.8 本章小结
  • 练习题
  • 第7章 数据存储
  • 7.1 数据的基本存储
  • 7.1.1 数据存储至TXT
  • 7.1.2 数据存储至CSV
  • 7.1.3 数据存储至JSON
  • 7.2 数据存储至MySQL数据库
  • 7.2.1 配置MySQL服务
  • 7.2.2 安装PyMySQL
  • 7.2.3 创建示例项目
  • 7.2.4 PyMySQL基本操作
  • 7.3 数据存储至MongoDB数据库
  • 7.4 数据存储至XML
  • 7.5 常见数据存储方式的比较
  • 7.6 本章小结
  • 练习题
  • 第8章 Scrapy爬虫框架
  • 8.1 Scrapy框架介绍
  • 8.2 Scrapy框架详解
  • 8.2.1 框架内组件及作用
  • 8.2.2 Scrapy运行流程
  • 8.2.3 数据流向
  • 8.3 Scrapy框架中的Selector
  • 8.4 Beautiful Soup库的使用
  • 8.4.1 简单示例
  • 8.4.2 四大对象种类
  • 8.4.3 遍历文档树
  • 8.4.4 搜索文档树
  • 8.4.5 CSS选择器
  • 8.5 CrawlSpider的使用
  • 8.5.1 Spider的简单用法
  • 8.5.2 CrawlSpider概述
  • 8.5.3 使用CrawlSpider获取rules
  • 8.5.4 使用CrawlSpider进行模拟登录
  • 8.6 Scrapy Shell的使用
  • 8.6.1 启动Scrapy Shell
  • 8.6.2 功能函数
  • 8.6.3 Scrapy对象
  • 8.6.4 Scrapy Shell示例
  • 8.7 Scrapyrt的使用
  • 8.7.1 GET请求
  • 8.7.2 POST请求
  • 8.8 Scrapy对接Selenium
  • 8.9 实战案例
  • 8.9.1 Scrapy知乎信息爬取
  • 8.9.2 Scrapy微博信息爬取
  • 8.9.3 Scrapy机票信息爬取
  • 8.10 本章小结
  • 练习题
  • 第9章 多线程爬虫
  • 9.1 多线程和Threading模块
  • 9.1.1 多线程定义和特点
  • 9.1.2 Threading模块
  • 9.2 使用Thread类创建实例
  • 9.2.1 可传递函数的Thread类实例
  • 9.2.2 可调用的Thread类实例
  • 9.2.3 派生Thread子类
  • 9.3 多线程方法的使用
  • 9.3.1 多线程创建
  • 9.3.2 多线程冲突及解决
  • 9.3.3 使用Semaphore调度线程
  • 9.3.4 生产者-消费者模式
  • 9.3.5 共享全局变量及锁机制
  • 9.4 Queue线程安全队列
  • 9.5 实战案例
  • 9.5.1 多线程爬取糗事百科
  • 9.5.2 多线程爬取网站图片
  • 9.6 本章小结
  • 练习题
  • 第10章 动态网页爬虫
  • 10.1 浏览器开发者工具
  • 10.1.1 调试工具的介绍
  • 10.1.2 调试工具的使用示例
  • 10.2 异步加载技术
  • 10.2.1 异步加载技术介绍
  • 10.2.2 AJAX数据爬取
  • 10.3 表单交互与模拟登录
  • 10.3.1 表单交互
  • 10.3.2 模拟登录
  • 10.4 Selenium模拟浏览器
  • 10.4.1 Selenium操作浏览器
  • 10.4.2 Selenium和ChromeDriver的配合使用
  • 10.5 实战案例
  • 10.5.1 Selenium职位信息爬取
  • 10.5.2 Selenium直播平台数据爬取
  • 10.6 本章小结
  • 练习题
  • 第11章 分布式爬虫
  • 11.1 分布式爬虫概述
  • 11.1.1 主从分布式爬虫
  • 11.1.2 对等分布式爬虫
  • 11.2 Scrapy-redis分布式组件
  • 11.2.1 Scrapy-redis简介
  • 11.2.2 Scrapy-redis工作机制
  • 11.2.3 Scrapy-redis安装配置
  • 11.2.4 Scrapy-redis常用配置
  • 11.2.5 Scrapy-redis键名介绍
  • 11.2.6 Scrapy-redis简单示例
  • 11.3 redis数据库
  • 11.4 Scrapy-redis源码分析
  • 11.5 通过scrapy_redis实现分布式爬虫
  • 11.6 实战案例
  • 11.7 本章小结
  • 练习题
  • 第12章 电商网站商品信息爬虫项目
  • 12.1 商品信息爬虫功能分析
  • 12.1.1 商品信息爬虫接口分析
  • 12.1.2 商品信息爬虫页面分析
  • 12.2 商品信息爬虫实现思路
  • 12.2.1 Selenium环境配置
  • 12.2.2 pyquery环境配置
  • 12.3 电商网站商品信息编写实战
  • 12.3.1 获取电商网站商品信息列表
  • 12.3.2 电商网站商品信息列表解析
  • 12.3.3 保存爬取的商品信息
  • 12.3.4 电商网站商品信息的页码遍历
  • 12.4 pyquery解析电商网站商品信息
  • 12.4.1 pyquery调用CSS选择器
  • 12.4.2 pyquery使用parent()获取父节点
  • 12.4.3 pyquery遍历商品信息
  • 12.4.4 pyquery获取商品信息内部文本
  • 12.4.5 CSS选择器
  • 12.5 运行代码
  • 12.5.1 爬虫的Chrome Headless模式
  • 12.5.2 爬虫对接Firefox
  • 12.5.3 爬虫对接PhantomJS
  • 12.6 本章小结
  • 练习题
  • 第13章 生活娱乐点评类信息爬虫项目
  • 13.1 功能分析
  • 13.1.1 项目描述
  • 13.1.2 静态网页抓取
  • 13.1.3 动态网页抓取
  • 13.2 请求-响应关系
  • 13.2.1 请求对象
  • 13.2.2 请求方法
  • 13.3 请求头和请求体
  • 13.3.1 请求头
  • 13.3.2 响应
  • 13.3.3 保存响应结果
  • 13.4 通过Selenium模拟浏览器抓取
  • 13.4.1 Selenium的安装
  • 13.4.2 Selenium的实践案例
  • 13.4.3 Selenium获取文章的所有评论
  • 13.5 实战演练Scrapy框架实例
  • 13.5.1 编写spider
  • 13.5.2 编写item.py
  • 13.5.3 为items对象赋值
  • 13.5.4 编写piplines.py
  • 13.5.5 配置setting.py
  • 13.5.6 完整代码及结果
  • 13.6 调试与运行
  • 13.7 本章小结
  • 练习题
  • 第14章 图片信息类爬虫项目
  • 14.1 功能分析
  • 14.2 实现思路
  • 14.2.1 urllib模块的使用
  • 14.2.2 Scrapy框架的使用
  • 14.3 程序执行
  • 14.4 实战演练图片验证码
  • 14.4.1 开发环境与工具
  • 14.4.2 Anaconda3的安装
  • 14.4.3 问题步骤
  • 14.4.4 解决步骤
  • 14.4.5 图片预处理代码
  • 14.4.6 图片切割
  • 14.4.7 KNN训练
  • 14.4.8 CNN加载数据
  • 14.4.9 训练CNN模型
  • 14.4.10 CNN模型预测
  • 14.5 调试运行
  • 14.6 本章小结
  • 练习题
  • 练习题答案
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社有限公司

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。