互联网
类型
可以朗读
语音朗读
126千字
字数
2019-04-01
发行日期
展开全部
主编推荐语
以任务为导向,介绍了不同场景下Python爬取网络数据的方法。
内容简介
全书共7章,第1章介绍了爬虫与反爬虫的基本概念;第2章介绍了爬虫过程中涉及的网页前端基础;第3章和第4章分别介绍了静态网页和动态网页爬取数据的过程;5章介绍了对于登录后才能访问的网页进行模拟登录的方法;第6章介绍了爬取PC客户端、APP的数据的方法;第7章介绍了使用Scrapy爬虫框架爬取数据的过程。
目录
- 版权信息
- 内容提要
- 大数据专业系列图书编写委员会
- 序
- 前言
- 第1章 Python爬虫环境与爬虫简介
- 任务1.1 认识爬虫
- 1.1.1 爬虫的概念
- 1.1.2 爬虫的原理
- 1.1.3 爬虫的合法性与robot.txt协议
- 任务1.2 认识反爬虫
- 1.2.1 网站反爬虫的目的与手段
- 1.2.2 爬取策略制定
- 任务1.3 配置Python爬虫环境
- 1.3.1 Python爬虫相关库介绍与配置
- 1.3.2 配置MySQL数据库
- 1.3.3 配置MongoDB数据库
- 小结
- 实训 Python爬虫环境配置
- 课后习题
- 第2章 网页前端基础
- 任务2.1 认识Python网络编程
- 2.1.1 了解Python网络编程Socket库
- 2.1.2 使用Socket库进行TCP编程
- 2.1.3 使用Socket库进行UDP编程
- 任务2.2 认识HTTP
- 2.2.1 熟悉HTTP请求方法与过程
- 2.2.2 熟悉常见HTTP状态码
- 2.2.3 熟悉HTTP头部信息
- 2.2.4 熟悉Cookie
- 小结
- 实训 使用Socket库连接百度首页
- 课后习题
- 第3章 简单静态网页爬取
- 任务3.1 实现HTTP请求
- 3.1.1 使用urllib 3库实现
- 3.1.2 使用Requests库实现
- 任务3.2 解析网页
- 3.2.1 使用Chrome开发者工具查看网页
- 3.2.2 使用正则表达式解析网页
- 3.2.3 使用Xpath解析网页
- 3.2.4 使用Beautiful Soup库解析网页
- 任务3.3 数据存储
- 3.3.1 将数据存储为JSON文件
- 3.3.2 将数据存储到MySQL数据库
- 小结
- 实训
- 实训1 生成GET请求并获取指定网页内容
- 实训2 搜索目标节点并提取文本内容
- 实训3 在数据库中建立新表并导入数据
- 课后习题
- 第4章 常规动态网页爬取
- 任务4.1 逆向分析爬取动态网页
- 4.1.1 了解静态网页和动态网页的区别
- 4.1.2 逆向分析爬取动态网页
- 任务4.2 使用Selenium库爬取动态网页
- 4.2.1 安装Selenium库及下载浏览器补丁
- 4.2.2 打开浏览对象并访问页面
- 4.2.3 页面等待
- 4.2.4 页面操作
- 4.2.5 元素选取
- 4.2.6 预期条件
- 任务4.3 存储数据至MongoDB数据库
- 4.3.1 了解MongoDB数据库和MySQL数据库的区别
- 4.3.2 将数据存储到MongoDB数据库
- 小结
- 实训
- 实训1 爬取网页“http://www.ptpress.com.cn”的推荐图书信息
- 实训2 爬取某网页的Java图书信息
- 实训3 将数据存储到MongoDB数据库中
- 课后习题
- 第5章 模拟登录
- 任务5.1 使用表单登录方法实现模拟登录
- 5.1.1 查找提交入口
- 5.1.2 查找并获取需要提交的表单数据
- 5.1.3 使用POST请求方法登录
- 任务5.2 使用Cookie登录方法实现模拟登录
- 5.2.1 使用浏览器Cookie登录
- 5.2.2 基于表单登录的Cookie登录
- 小结
- 实训
- 实训1 使用表单登录方法模拟登录数睿思论坛
- 实训2 使用浏览器Cookie模拟登录数睿思论坛
- 实训3 基于表单登录后的Cookie模拟登录数睿思论坛
- 课后习题
- 第6章 终端协议分析
- 任务6.1 分析PC客户端抓包
- 6.1.1 了解HTTP Analyzer工具
- 6.1.2 爬取千千音乐PC客户端数据
- 任务6.2 分析App抓包
- 6.2.1 了解Fiddler工具
- 6.2.2 分析人民日报App
- 小结
- 实训
- 实训1 抓取千千音乐PC客户端的推荐歌曲信息
- 实训2 爬取人民日报App的旅游模块信息
- 课后习题
- 第7章 Scrapy爬虫
- 任务7.1 认识Scarpy
- 7.1.1 了解Scrapy爬虫的框架
- 7.1.2 熟悉Scrapy的常用命令
- 任务7.2 通过Scrapy爬取文本信息
- 7.2.1 创建Scrapy爬虫项目
- 7.2.2 修改items/pipelines脚本
- 7.2.3 编写spider脚本
- 7.2.4 修改settings脚本
- 任务7.3 定制中间件
- 7.3.1 定制下载器中间件
- 7.3.2 定制Spider中间件
- 小结
- 实训
- 实训1 爬取“http://www.tipdm.org”的所有新闻动态
- 实训2 定制BdRaceNews爬虫项目的中间件
- 课后习题
- 附录A
- 附录B
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。