计算机
类型
6.8
豆瓣评分
可以朗读
语音朗读
231千字
字数
2017-01-01
发行日期
展开全部
主编推荐语
《Scrapy爬虫框架实战》:从入门到高级探讨Python爬虫。
内容简介
本书讲解目前一个流行的开源python爬虫框架scrapy. 从快速入门以简单例子让读者对scrapy使用有个简单印象, 然后讲解scpray核心的每一个元素, 如spider, selecotr, item, link等等.基础部分完成后, 讲解爬虫高级话题, 如登录认证, 缓存下载, 执行javascript等等.
目录
- 封面页
- 书名页
- 版权页
- 内容简介
- 作者简介
- 前言
- 目录
- 第1章 初识Scrapy
- 1.1 网络爬虫是什么
- 1.2 Scrapy简介及安装
- 1.3 编写第一个Scrapy爬虫
- 1.3.1 项目需求
- 1.3.2 创建项目
- 1.3.3 分析页面
- 1.3.4 实现Spider
- 1.3.5 运行爬虫
- 1.4 本章小结
- 第2章 编写Spider
- 2.1 Scrapy框架结构及工作原理
- 2.2 Request和Response对象
- 2.2.1 Request对象
- 2.2.2 Response对象
- 2.3 Spider开发流程
- 2.3.1 继承scrapy.Spider
- 2.3.2 为Spider命名
- 2.3.3 设定起始爬取点
- 2.3.4 实现页面解析函数
- 2.4 本章小结
- 第3章 使用Selector提取数据
- 3.1 Selector对象
- 3.1.1 创建对象
- 3.1.2 选中数据
- 3.1.3 提取数据
- 3.2 Response内置Selector
- 3.3 XPath
- 3.3.1 基础语法
- 3.3.2 常用函数
- 3.4 CSS选择器
- 3.5 本章小结
- 第4章 使用Item封装数据
- 4.1 Item和Field
- 4.2 拓展Item子类
- 4.3 Field元数据
- 4.4 本章小结
- 第5章 使用Item Pipeline处理数据
- 5.1 Item Pipeline
- 5.1.1 实现Item Pipeline
- 5.1.2 启用Item Pipeline
- 5.2 更多例子
- 5.2.1 过滤重复数据
- 5.2.2 将数据存入MongoDB
- 5.3 本章小结
- 第6章 使用LinkExtractor提取链接
- 6.1 使用LinkExtractor
- 6.2 描述提取规则
- 6.3 本章小结
- 第7章 使用Exporter导出数据
- 7.1 指定如何导出数据
- 7.1.1 命令行参数
- 7.1.2 配置文件
- 7.2 添加导出数据格式
- 7.2.1 源码参考
- 7.2.2 实现Exporter
- 7.3 本章小结
- 第8章 项目练习
- 8.1 项目需求
- 8.2 页面分析
- 8.3 编码实现
- 8.4 本章小结
- 第9章 下载文件和图片
- 9.1 FilesPipeline和ImagesPipeline
- 9.1.1 FilesPipeline使用说明
- 9.1.2 ImagesPipeline使用说明
- 9.2 项目实战:爬取matplotlib例子源码文件
- 9.2.1 项目需求
- 9.2.2 页面分析
- 9.2.3 编码实现
- 9.3 项目实战:下载360图片
- 9.3.1 项目需求
- 9.3.2 页面分析
- 9.3.3 编码实现
- 9.4 本章小结
- 第10章 模拟登录
- 10.1 登录实质
- 10.2 Scrapy模拟登录
- 10.2.1 使用FormRequest
- 10.2.2 实现登录Spider
- 10.3 识别验证码
- 10.3.1 OCR识别
- 10.3.2 网络平台识别
- 10.3.3 人工识别
- 10.4 Cookie登录
- 10.4.1 获取浏览器Cookie
- 10.4.2 CookiesMiddleware源码分析
- 10.4.3 实现BrowserCookiesMiddleware
- 10.4.4 爬取知乎个人信息
- 10.5 本章小结
- 第11章 爬取动态页面
- 11.1 Splash渲染引擎
- 11.1.1 render.html端点
- 11.1.2 execute端点
- 11.2 在Scrapy中使用Splash
- 11.3 项目实战:爬取toscrape中的名人名言
- 11.3.1 项目需求
- 11.3.2 页面分析
- 11.3.3 编码实现
- 11.4 项目实战:爬取京东商城中的书籍信息
- 11.4.1 项目需求
- 11.4.2 页面分析
- 11.4.3 编码实现
- 11.5 本章小结
- 第12章 存入数据库
- 12.1 SQLite
- 12.2 MySQL
- 12.3 MongoDB
- 12.4 Redis
- 12.5 本章小结
- 第13章 使用HTTP代理
- 13.1 HttpProxyMiddleware
- 13.1.1 使用简介
- 13.1.2 源码分析
- 13.2 使用多个代理
- 13.3 获取免费代理
- 13.4 实现随机代理
- 13.5 项目实战:爬取豆瓣电影信息
- 13.5.1 项目需求
- 13.5.2 页面分析
- 13.5.3 编码实现
- 13.6 本章小结
- 第14章 分布式爬取
- 14.1 Redis的使用
- 14.1.1 安装Redis
- 14.1.2 Redis基本命令
- 14.1.3 Python访问Redis
- 14.2 scrapy-redis源码分析
- 14.2.1 分配爬取任务部分
- 14.2.2 汇总爬取数据部分
- 14.3 使用scrapy-redis进行分布式爬取
- 14.3.1 搭建环境
- 14.3.2 项目实战
- 14.4 本章小结
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。