展开全部

主编推荐语

《Scrapy爬虫框架实战》:从入门到高级探讨Python爬虫。

内容简介

本书讲解目前一个流行的开源python爬虫框架scrapy. 从快速入门以简单例子让读者对scrapy使用有个简单印象, 然后讲解scpray核心的每一个元素, 如spider, selecotr, item, link等等.基础部分完成后, 讲解爬虫高级话题, 如登录认证, 缓存下载, 执行javascript等等.

目录

  • 封面页
  • 书名页
  • 版权页
  • 内容简介
  • 作者简介
  • 前言
  • 目录
  • 第1章 初识Scrapy
  • 1.1 网络爬虫是什么
  • 1.2 Scrapy简介及安装
  • 1.3 编写第一个Scrapy爬虫
  • 1.3.1 项目需求
  • 1.3.2 创建项目
  • 1.3.3 分析页面
  • 1.3.4 实现Spider
  • 1.3.5 运行爬虫
  • 1.4 本章小结
  • 第2章 编写Spider
  • 2.1 Scrapy框架结构及工作原理
  • 2.2 Request和Response对象
  • 2.2.1 Request对象
  • 2.2.2 Response对象
  • 2.3 Spider开发流程
  • 2.3.1 继承scrapy.Spider
  • 2.3.2 为Spider命名
  • 2.3.3 设定起始爬取点
  • 2.3.4 实现页面解析函数
  • 2.4 本章小结
  • 第3章 使用Selector提取数据
  • 3.1 Selector对象
  • 3.1.1 创建对象
  • 3.1.2 选中数据
  • 3.1.3 提取数据
  • 3.2 Response内置Selector
  • 3.3 XPath
  • 3.3.1 基础语法
  • 3.3.2 常用函数
  • 3.4 CSS选择器
  • 3.5 本章小结
  • 第4章 使用Item封装数据
  • 4.1 Item和Field
  • 4.2 拓展Item子类
  • 4.3 Field元数据
  • 4.4 本章小结
  • 第5章 使用Item Pipeline处理数据
  • 5.1 Item Pipeline
  • 5.1.1 实现Item Pipeline
  • 5.1.2 启用Item Pipeline
  • 5.2 更多例子
  • 5.2.1 过滤重复数据
  • 5.2.2 将数据存入MongoDB
  • 5.3 本章小结
  • 第6章 使用LinkExtractor提取链接
  • 6.1 使用LinkExtractor
  • 6.2 描述提取规则
  • 6.3 本章小结
  • 第7章 使用Exporter导出数据
  • 7.1 指定如何导出数据
  • 7.1.1 命令行参数
  • 7.1.2 配置文件
  • 7.2 添加导出数据格式
  • 7.2.1 源码参考
  • 7.2.2 实现Exporter
  • 7.3 本章小结
  • 第8章 项目练习
  • 8.1 项目需求
  • 8.2 页面分析
  • 8.3 编码实现
  • 8.4 本章小结
  • 第9章 下载文件和图片
  • 9.1 FilesPipeline和ImagesPipeline
  • 9.1.1 FilesPipeline使用说明
  • 9.1.2 ImagesPipeline使用说明
  • 9.2 项目实战:爬取matplotlib例子源码文件
  • 9.2.1 项目需求
  • 9.2.2 页面分析
  • 9.2.3 编码实现
  • 9.3 项目实战:下载360图片
  • 9.3.1 项目需求
  • 9.3.2 页面分析
  • 9.3.3 编码实现
  • 9.4 本章小结
  • 第10章 模拟登录
  • 10.1 登录实质
  • 10.2 Scrapy模拟登录
  • 10.2.1 使用FormRequest
  • 10.2.2 实现登录Spider
  • 10.3 识别验证码
  • 10.3.1 OCR识别
  • 10.3.2 网络平台识别
  • 10.3.3 人工识别
  • 10.4 Cookie登录
  • 10.4.1 获取浏览器Cookie
  • 10.4.2 CookiesMiddleware源码分析
  • 10.4.3 实现BrowserCookiesMiddleware
  • 10.4.4 爬取知乎个人信息
  • 10.5 本章小结
  • 第11章 爬取动态页面
  • 11.1 Splash渲染引擎
  • 11.1.1 render.html端点
  • 11.1.2 execute端点
  • 11.2 在Scrapy中使用Splash
  • 11.3 项目实战:爬取toscrape中的名人名言
  • 11.3.1 项目需求
  • 11.3.2 页面分析
  • 11.3.3 编码实现
  • 11.4 项目实战:爬取京东商城中的书籍信息
  • 11.4.1 项目需求
  • 11.4.2 页面分析
  • 11.4.3 编码实现
  • 11.5 本章小结
  • 第12章 存入数据库
  • 12.1 SQLite
  • 12.2 MySQL
  • 12.3 MongoDB
  • 12.4 Redis
  • 12.5 本章小结
  • 第13章 使用HTTP代理
  • 13.1 HttpProxyMiddleware
  • 13.1.1 使用简介
  • 13.1.2 源码分析
  • 13.2 使用多个代理
  • 13.3 获取免费代理
  • 13.4 实现随机代理
  • 13.5 项目实战:爬取豆瓣电影信息
  • 13.5.1 项目需求
  • 13.5.2 页面分析
  • 13.5.3 编码实现
  • 13.6 本章小结
  • 第14章 分布式爬取
  • 14.1 Redis的使用
  • 14.1.1 安装Redis
  • 14.1.2 Redis基本命令
  • 14.1.3 Python访问Redis
  • 14.2 scrapy-redis源码分析
  • 14.2.1 分配爬取任务部分
  • 14.2.2 汇总爬取数据部分
  • 14.3 使用scrapy-redis进行分布式爬取
  • 14.3.1 搭建环境
  • 14.3.2 项目实战
  • 14.4 本章小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。