展开全部

主编推荐语

Python3网络爬虫技术全景介绍,适合初学者。

内容简介

本书介绍了Python3网络爬虫的常见技术。首先介绍了网页的基础知识,然后介绍了urllib、Requests请求库以及XPath、Beautiful Soup等解析库,接着介绍了selenium对动态网站的爬取和Scrapy爬虫框架,最后介绍了Linux基础,便于读者自主部署编写好的爬虫脚本。

本书主要面向对网络爬虫感兴趣的初学者。

目录

  • 版权信息
  • 前言
  • 第1章 HTML与CSS基础
  • 1.1 概述引导
  • 1.2 Hbuilder软件下载与使用
  • 1.3 HTML基础
  • 1.3.1 基本架构
  • 1.3.2 标题和段落标签
  • 1.3.3 文字标签
  • 1.3.4 图像标签
  • 1.3.5 超链接标签
  • 1.3.6 块标签
  • 1.3.7 列表标签
  • 1.3.8 音频视频标签
  • 1.3.9 表格标签
  • 1.3.10 表单标签
  • 1.3.11 框架标签
  • 1.4 免费网页部署
  • 1.5 为什么要使用CSS框架
  • 1.6 选择器
  • 1.6.1 标签选择器
  • 1.6.2 类选择器
  • 1.6.3 ID选择器
  • 1.6.4 全局选择器
  • 1.6.5 属性选择器
  • 1.6.6 包含选择器
  • 1.6.7 选择器的综合使用
  • 1.7 CSS和HTML的结合方式
  • 1.7.1 行内样式
  • 1.7.2 内嵌样式
  • 1.7.3 链接样式
  • 1.7.4 导入样式
  • 1.7.5 优先级
  • 1.8 CSS的常见属性
  • 1.8.1 字体属性
  • 1.8.2 文本属性
  • 1.8.3 尺寸属性
  • 1.8.4 背景属性
  • 1.8.5 制作照片墙
  • 1.9 作业习题
  • 1.9.1 HTML作业习题
  • 1.9.2 CSS作业习题
  • 第2章 urllib、Requests基础与实战
  • 2.1 urllib的使用
  • 2.1.1 urlopen网址请求
  • 2.1.2 网页的保存和异常处理
  • 2.1.3 构造请求对象Requests
  • 2.1.4 添加请求头
  • 2.1.5 SSL认证
  • 2.2 万能视频下载
  • 2.3 Requests中get的使用
  • 2.3.1 Requests基础:代码获取
  • 2.3.2 Requests基础:构建请求
  • 2.3.3 获取cookie
  • 2.3.4 添加请求头
  • 2.3.5 二进制数据获取
  • 2.4 Requests中post的使用
  • 2.4.1 提交数据表单
  • 2.4.2 添加请求头
  • 2.4.3 提交json
  • 2.4.4 普通文件上传
  • 2.5 Requests进阶
  • 2.5.1 URLError和HTTPError
  • 2.5.2 Fiddler的下载与简单使用
  • 2.5.3 登录网站
  • 2.5.4 代理设置
  • 2.6 实战演练
  • 2.6.1 获取某搜索的代码
  • 2.6.2 下载图片到本地
  • 2.6.3 下载视频到本地
  • 2.6.4 爬取翻译网站
  • 第3章 正则表达式基础与实战
  • 3.1 正则表达式的定义
  • 3.2 Python中的正则表达式
  • 3.3 正则表达式函数
  • 3.3.1 findall()函数
  • 3.3.2 search()函数
  • 3.3.3 split()函数
  • 3.3.4 sub()函数
  • 3.3.5 compile函数
  • 3.4 特殊字符的使用
  • 3.4.1 列表符
  • 3.4.2 点符号
  • 3.4.3 开始符和结束符
  • 3.4.4 星号
  • 3.4.5 加号
  • 3.4.6 集合符号
  • 3.4.7 或符号
  • 3.5 特殊序列
  • 3.5.1 匹配指定字符
  • 3.5.2 匹配开头、结尾和中间
  • 3.5.3 匹配数字与非数字
  • 3.5.4 空格与非空格匹配
  • 3.5.5 数字与字母的匹配
  • 3.5.6 贪婪模式与非贪婪模式
  • 3.6 集合练习
  • 3.6.1 指定的符号匹配
  • 3.6.2 匹配任意范围内的小写字母
  • 3.7 匹配对象
  • 3.8 正则实战:段子爬取
  • 3.9 作业习题
  • 第4章 XPath基础与实战
  • 4.1 开始使用XPath
  • 4.1.1 常见的HTML操作
  • 4.1.2 常见的XML操作
  • 4.1.3 浏览器使用XPath调试
  • 4.1.4 谷歌插件的安装与XPath Helper的使用
  • 4.1.5 浏览器复制XPath
  • 4.2 属性的匹配
  • 4.2.1 根据具体属性匹配
  • 4.2.2 通过属性值的字段匹配
  • 4.2.3 属性值获取
  • 4.3 XPath处理HTML常用方法
  • 4.4 实战学习:房产网站爬取
  • 4.5 多线程爬虫
  • 4.5.1 进程和线程
  • 4.5.2 Python中的多线程与单线程
  • 4.5.3 单线程修改为多线程
  • 4.6 作业习题
  • 第5章 Beautiful Soup基础与实战
  • 5.1 什么是Beautiful Soup
  • 5.2 解析器
  • 5.3 解析库的基本使用
  • 5.3.1 代码的排版
  • 5.3.2 网页文档处理
  • 5.3.3 获取节点中的文本
  • 5.3.4 根据属性匹配
  • 5.4 find all方法搜索节点
  • 5.4.1 基本使用
  • 5.4.2 通过标签搜索
  • 5.4.3 非参数搜索
  • 5.4.4 CSS搜索
  • 5.4.5 通过文本搜索
  • 5.4.6 返回数量限制
  • 5.5 find方法搜索节点
  • 5.6 CSS选择器
  • 5.6.1 通过标签名查找
  • 5.6.2 通过标签的类名查找
  • 5.6.3 通过标签的id查找
  • 5.6.4 通过属性查找
  • 5.7 实战一:爬取诗词网站
  • 5.8 实战二:爬取求职网站
  • 第6章 selenium自动化测试与实战
  • 6.1 环境搭建
  • 6.2 单个元素定位
  • 6.2.1 id定位
  • 6.2.2 name定位
  • 6.2.3 class_name定位
  • 6.2.4 link_text定位
  • 6.2.5 tag_name定位
  • 6.2.6 XPath定位
  • 6.2.7 通过CSS定位
  • 6.2.8 使用By类定位
  • 6.2.9 总结
  • 6.3 元素等待
  • 6.3.1 强制等待
  • 6.3.2 显示等待
  • 6.3.3 隐式等待
  • 6.4 浏览器控制
  • 6.4.1 控制浏览器大小
  • 6.4.2 控制浏览器前进后退与刷新
  • 6.4.3 文本输入输出与表单提交
  • 6.5 鼠标控制
  • 6.5.1 鼠标事件右键
  • 6.5.2 鼠标双击
  • 6.6 键盘控制
  • 6.7 多个元素定位
  • 6.8 文件上传
  • 6.9 获取cookie
  • 6.9.1 手动获取cookie
  • 6.9.2 扫码自动获取cookie
  • 6.10 窗口截图
  • 6.11 策略补充
  • 6.11.1 去除Chrome正受到自动测试软件的控制
  • 6.11.2 添加代理IP和请求头
  • 6.11.3 无头模式
  • 6.11.4 其他一些选项的添加
  • 6.12 字符验证码
  • 6.12.1 pytesseract介绍
  • 6.12.2 安装
  • 6.12.3 中文支持
  • 6.12.4 英文识别
  • 6.12.5 简单的数字识别
  • 6.12.6 中文识别
  • 6.12.7 ddddocr模块的使用
  • 6.12.8 彩色图片识别应用
  • 6.13 自动发送QQ邮箱
  • 6.13.1 获取授权码
  • 6.13.2 发送文本和附件
  • 第7章 Scrapy框架与实战
  • 7.1 框架介绍
  • 7.2 Scrapy入门
  • 7.2.1 创建项目文件
  • 7.2.2 确定目标
  • 7.2.3 定制Item
  • 7.2.4 setting配置修改与使用
  • 7.2.5 数据提取
  • 7.2.6 实战教学
  • 7.2.7 数据存储
  • 7.2.8 Item Pipeline管道
  • 7.2.9 Pipelines图片保存
  • 7.3 实战一:图片多页下载
  • 7.4 实战二:视频分析
  • 7.4.1 基本搭建
  • 7.4.2 数据提取
  • 7.4.3 Pipelines保存数据
  • 7.5 实战三:文字爬取
  • 7.5.1 基本搭建
  • 7.5.2 数据提取
  • 7.5.3 Pipelines保存数据
  • 7.6 Pipelines的多文件执行
  • 7.7 日志记录
  • 7.7.1 logging的语法
  • 7.7.2 简单使用
  • 7.8 使用选择器
  • 7.8.1 Scrapy shell基本使用
  • 7.8.2 使用XPath选择器
  • 7.8.3 CSS选择器的语法
  • 7.8.4 使用CSS选择器
  • 7.8.5 嵌套选择器
  • 7.8.6 正则选择器
  • 7.8.7 使用相对XPaths
  • 7.9 CrawlSpider的使用
  • 7.9.1 爬取规则
  • 7.9.2 setting配置修改
  • 7.9.3 应用案例一:某宠物网站爬取
  • 7.9.4 应用案例二:某读书网站爬取
  • 7.10 内置图片下载器
  • 7.10.1 基本搭建
  • 7.10.2 数据提取
  • 7.10.3 同步下载
  • 7.10.4 异步下载
  • 7.11 存储到数据库
  • 7.11.1 同步存储
  • 7.11.2 异步存储
  • 第8章 Linux基础
  • 8.1 为什么学习Linux?
  • 8.2 安装虚拟机
  • 8.2.1 本地安装虚拟机(推荐)
  • 8.2.2 免费在线Linux服务器
  • 8.3 文件管理
  • 8.3.1 查看目录
  • 8.3.2 创建文件夹
  • 8.3.3 切换目录
  • 8.3.4 创建文件
  • 8.3.5 删除文件和文件夹
  • 8.3.6 复制文件
  • 8.3.7 移动文件
  • 8.3.8 编写文件内容
  • 8.3.9 查看文件内容
  • 8.3.10 搜索文件内容
  • 8.3.11 查看文件权限
  • 8.3.12 更改权限
  • 8.4 进程管理
  • 8.5 定时任务
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。