展开全部

主编推荐语

Python 3.7正成为目前流行的编程语言,而网络爬虫又是Python网络应用中的重要技术,二者的碰撞产生了巨大的火花。

内容简介

本书在这个背景下编写而成,详细介绍Python 3.7网络爬虫技术。 本书分为11章,分别介绍Python 3.7爬虫开发相关的基础知识、lxml模块、BeautifulSoup模块、正则表达式、文件处理、多线程爬虫、图形识别、Scrapy框架、PyQuery模块等。基本上每一章都配有众多小范例程序与一个大实战案例。作者还为每一章分别录制教学视频供读者自学参考。本书内容详尽、示例丰富,是有志于学习Python网络爬虫技术初学者必备的参考书,同时也可作为Python爱好者拓宽知识领域、提升编程技术的参考书。

目录

  • 版权信息
  • 内容简介
  • 前言
  • 本书涉及的技术或框架
  • 本书涉及的范例和案例
  • 本书特点
  • 代码与教学视频下载
  • 本书读者
  • 第1章 简识Python
  • 1.1 了解Python
  • 1.1.1 Python的概念
  • 1.1.2 有趣的Python程序
  • 1.2 集成开发环境
  • 1.2.1 安装Python 3.7
  • 1.2.2 从IDLE启动Python
  • 1.3 编写自己的第一个Python程序:一个简单的问候
  • 1.4 小结
  • 第2章 Python语法速览
  • 2.1 数据类型与变量
  • 2.1.1 数据类型
  • 2.1.2 变量
  • 2.2 运算符
  • 2.2.1 算术运算符
  • 2.2.2 比较运算符
  • 2.2.3 赋值运算符
  • 2.2.4 逻辑运算符
  • 2.2.5 位运算符
  • 2.2.6 成员运算符
  • 2.2.7 身份运算符
  • 2.2.8 运算符的优先级
  • 2.3 使用复合类型
  • 2.3.1 列表
  • 2.3.2 元组
  • 2.3.3 字典
  • 2.3.4 集合
  • 2.4 流程控制结构
  • 2.4.1 选择结构
  • 2.4.2 重复结构(循环结构)
  • 2.5 小结
  • 第3章 函数
  • 3.1 认识函数
  • 3.1.1 什么是函数
  • 3.1.2 创建函数
  • 3.2 使用函数
  • 3.2.1 参数
  • 3.2.2 返回值
  • 3.2.3 函数的递归
  • 3.3 实践一下
  • 3.3.1 实践一:编写一个函数
  • 3.3.2 实践二:遍历与计数
  • 3.4 小结
  • 第4章 lxml模块和XPath语法
  • 4.1 lxml模块
  • 4.1.1 什么是模块
  • 4.1.2 关于lxml模块
  • 4.1.3 lxml模块的安装
  • 4.1.4 lxml库的用法
  • 4.2 XPath语法
  • 4.2.1 基本语法
  • 4.2.2 基本操作
  • 4.2.3 lxml库的用法
  • 4.2.4 XPath范例程序测试
  • 4.3 爬虫lxml解析实战
  • 4.3.1 爬取豆瓣网站
  • 4.3.2 爬取电影天堂
  • 4.3.3 爬取猫眼电影
  • 4.3.4 爬取腾讯招聘网
  • 4.3.5 关于HTML
  • 4.4 小结
  • 第5章 BeautifulSoup库
  • 5.1 简识BeautifulSoup 4
  • 5.1.1 安装与配置
  • 5.1.2 基本用法
  • 5.2 BeautifulSoup对象
  • 5.2.1 创建BeautifulSoup对象
  • 5.2.2 4类对象
  • 5.2.3 遍历文档树
  • 5.2.4 搜索文档树
  • 5.3 方法和CSS选择器
  • 5.3.1 find类方法
  • 5.3.2 CSS选择器
  • 5.4 爬取示范:使用BeautifulSoup爬取电影天堂
  • 5.4.1 基本思路
  • 5.4.2 实际爬取
  • 5.5 小结
  • 第6章 正则表达式
  • 6.1 了解正则表达式
  • 6.1.1 基本概念
  • 6.1.2 re模块
  • 6.1.3 compile()方法
  • 6.1.4 match()方法
  • 6.1.5 group()和groups()方法
  • 6.1.6 search()方法
  • 6.1.7 findall()方法
  • 6.1.8 finditer()方法
  • 6.1.9 split()方法
  • 6.1.10 sub()方法
  • 6.2 抓取
  • 6.2.1 抓取标签间的内容
  • 6.2.2 抓取tr d标签间的内容
  • 6.2.3 抓取标签中的参数
  • 6.2.4 字符串处理及替换
  • 6.3 爬取实战
  • 6.3.1 获取数据
  • 6.3.2 筛选数据
  • 6.3.3 保存数据
  • 6.3.4 显示数据
  • 6.4 总结
  • 第7章 JSON文件处理、CSV文件处理和 MySQL数据库操作
  • 7.1 简识JSON
  • 7.1.1 什么是JSON
  • 7.1.2 字典和列表转JSON
  • 7.1.3 将JSON数据转储到文件中
  • 7.1.4 将一个JSON字符串加载为Python对象
  • 7.1.5 从文件中读取JSON
  • 7.2 CSV文件处理
  • 7.2.1 读取CSV文件
  • 7.2.2 把数据写入CSV文件
  • 7.2.3 练习
  • 7.3 MySQL数据库
  • 7.3.1 MySQL数据库的安装
  • 7.3.2 安装MySQL模块
  • 7.3.3 连接MySQL
  • 7.3.4 执行SQL语句
  • 7.3.5 创建表
  • 7.3.6 插入数据
  • 7.3.7 查看数据
  • 7.3.8 修改数据
  • 7.3.9 删除数据
  • 7.3.10 实践操作
  • 7.4 小结
  • 第8章 多线程爬虫
  • 8.1 关于多线程
  • 8.1.1 基本知识
  • 8.1.2 多线程的适用范围
  • 8.2 多线程的实现
  • 8.2.1 使用_thread模块创建多线程
  • 8.2.2 关于Threading模块
  • 8.2.3 使用函数方式创建线程
  • 8.2.4 传递可调用的类的实例来创建线程
  • 8.2.5 派生子类并创建子类的实例
  • 8.3 使用多进程
  • 8.3.1 创建子进程
  • 8.3.2 将进程定义为类
  • 8.3.3 创建多个进程
  • 8.4 爬取示范:多线程爬取豆瓣电影
  • 8.4.1 使用多进程进行爬取
  • 8.4.2 使用多线程进行爬取
  • 8.5 小结
  • 第9章 图形验证识别技术
  • 9.1 图像识别开源库:Tesseract
  • 9.1.1 安装Tesseract
  • 9.1.2 设置环境变量
  • 9.1.3 验证安装
  • 9.2 对网络验证码的识别
  • 9.2.1 读取网络验证码并识别
  • 9.2.2 对验证码进行转化
  • 9.3 小结
  • 第10章 Scrapy框架
  • 10.1 了解Scrapy
  • 10.1.1 Scrapy框架概述
  • 10.1.2 安装
  • 10.2 开发Scrapy的过程
  • 10.2.1 Scrapy开发步骤
  • 10.2.2 Scrapy保存信息的格式
  • 10.2.3 项目中各个文件的作用
  • 10.3 爬虫范例
  • 10.3.1 Scrapy爬取美剧天堂
  • 10.3.2 Scrapy爬取豆瓣网
  • 10.3.3 Scrapy爬取豆瓣网II
  • 10.4 总结
  • 第11章 PyQuery模块
  • 11.1 PyQuery模块
  • 11.1.1 什么是PyQuery模块
  • 11.1.2 PyQuery模块的安装
  • 11.2 PyQuery模块用法
  • 11.2.1 使用字符串初始化PyQuery对象
  • 11.2.2 使用文件初始化PyQuery对象
  • 11.2.3 使用URL初始化PyQuery对象
  • 11.3 CSS筛选器的使用
  • 11.3.1 基本CSS选择器
  • 11.3.2 查找节点
  • 11.3.3 遍历结果并输出
  • 11.3.4 获取文本信息
  • 11.4 爬虫PyQuery解析实战
  • 11.4.1 爬取猫眼票房
  • 11.4.2 爬取微博热搜
  • 11.5 小结
展开全部

评分及书评

评分不足
2个评分
  • 用户头像
    给这本书评了
    3.0

    框架部分写的一般吧,案例过少

      转发
      评论

    出版方

    清华大学出版社

    清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。