展开全部

主编推荐语

本书以任务为导向,较为全面地介绍了不同场景下Python爬取网络数据的方法。

内容简介

全书共分为7个项目。

第1个项目介绍了爬虫与反爬虫的基本概念,以及Python爬虫环境的配置;

第2个项目介绍了爬取过程中涉及的网页前端基础知识;

第3个项目介绍了在静态网页中爬取数据的过程;

第4个项目介绍了在动态网页中爬取数据的过程;

第5个项目介绍了对登录后才能访问的网页进行模拟登录的方法;

第6个项目介绍了爬取PC客户端、App的数据的方法;

第7个项目介绍了使用Scrapy爬虫框架爬取数据的过程。

本书可以作为大数据技术爱好者的自学用书,也可作为高校大数据技术类专业的教材。

目录

  • 版权信息
  • 内容提要
  • 大数据技术精品系列教材专家委员会
  • 前言
  • 项目1 了解爬虫与Python爬虫环境
  • 项目背景
  • 学习目标
  • 思维导图
  • 任务1.1 认识爬虫
  • 任务1.2 认识反爬虫
  • 任务1.3 配置Python爬虫环境
  • 小结
  • 实训
  • 思考题
  • 课后习题
  • 项目2 爬虫基础知识准备
  • 项目背景
  • 学习目标
  • 思维导图
  • 任务2.1 了解网页基础
  • 任务2.2 认识HTTP
  • 小结
  • 实训
  • 思考题
  • 课后习题
  • 项目3 简单静态网页爬取——获取某企业官网基本信息
  • 项目背景
  • 学习目标
  • 思维导图
  • 任务3.1 实现HTTP请求
  • 任务3.2 解析网页
  • 任务3.3 存储数据
  • 小结
  • 实训
  • 思考题
  • 课后习题
  • 项目4 爬取动态网页——获取图书基本信息
  • 项目背景
  • 学习目标
  • 思维导图
  • 任务4.1 使用逆向分析爬取动态网页
  • 任务4.2 使用Selenium库爬取动态网页
  • 任务4.3 存储数据至MongoDB数据库
  • 小结
  • 实训
  • 思考题
  • 课后习题
  • 项目5 模拟登录——登录某企业官网
  • 项目背景
  • 学习目标
  • 思维导图
  • 任务5.1 使用表单登录方法实现模拟登录
  • 任务5.2 使用Cookie登录方法实现模拟登录
  • 小结
  • 实训
  • 思考题
  • 课后习题
  • 项目6 终端协议分析——爬取某音乐PC客户端和App客户端数据
  • 项目背景
  • 学习目标
  • 思维导图
  • 任务6.1 分析PC客户端抓包
  • 任务6.2 分析App客户端抓包
  • 小结
  • 实训
  • 思考题
  • 课后习题
  • 项目7 使用Scrapy爬虫——爬取某企业官网新闻动态
  • 项目背景
  • 学习目标
  • 思维导图
  • 任务7.1 认识Scrapy
  • 任务7.2 通过Scrapy爬取文本信息
  • 任务7.3 定制中间件
  • 小结
  • 实训
  • 思考题
  • 课后习题
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。