展开全部

主编推荐语

本书从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python实现网络爬虫开发应该掌握的技术。

内容简介

全书共分19章,内容包括初识网络爬虫、了解Web前端、请求模块urllib、请求模块urllib3、请求模块requests、高级网络请求模块、正则表达式、XPath解析、解析数据的BeautifulSoup、爬取动态渲染的信息、多线程与多进程爬虫、数据处理、数据存储、数据可视化、App抓包工具、识别验证码、Scrapy爬虫框架、Scrapy_Redis分布式爬虫、数据侦探。

书中所有知识都结合具体实例进行介绍,涉及的程序代码给出了详细的注释,读者可轻松领会网络爬虫程序开发的精髓,快速提高开发技能。

目录

  • 版权信息
  • 内容简介
  • 前言
  • 第1篇 基础知识
  • 第1章 初识网络爬虫
  • 1.1 网络爬虫概述
  • 1.2 网络爬虫的分类
  • 1.3 网络爬虫的基本原理
  • 1.4 搭建开发环境
  • 1.5 小结
  • 第2章 了解Web前端
  • 2.1 HTTP基本原理
  • 2.2 HTML语言
  • 2.3 CSS层叠样式表
  • 2.4 JavaScript动态脚本语言
  • 2.5 小结
  • 第3章 请求模块urllib
  • 3.1 urllib简介
  • 3.2 使用urlopen()方法发送请求
  • 3.3 复杂的网络请求
  • 3.4 异常处理
  • 3.5 解析链接
  • 3.6 小结
  • 第4章 请求模块urllib3
  • 4.1 urllib3简介
  • 4.2 发送网络请求
  • 4.3 复杂请求的发送
  • 4.4 上传文件
  • 4.5 小结
  • 第5章 请求模块requests
  • 5.1 请求方式
  • 5.2 复杂的网络请求
  • 5.3 代理服务
  • 5.4 小结
  • 第6章 高级网络请求模块
  • 6.1 Requests-Cache的安装与测试
  • 6.2 缓存的应用
  • 6.3 强大的Requests-HTML模块
  • 6.4 小结
  • 第2篇 核心技术
  • 第7章 正则表达式
  • 7.1 正则表达式基础
  • 7.2 使用match()进行匹配
  • 7.3 使用search()进行匹配
  • 7.4 使用findall()进行匹配
  • 7.5 字符串处理
  • 7.6 案例:爬取编程e学网视频
  • 7.7 小结
  • 第8章 XPath解析
  • 8.1 XPath概述
  • 8.2 XPath的解析操作
  • 8.3 案例:爬取豆瓣电影Top 250
  • 8.4 小结
  • 第9章 解析数据的BeautifulSoup模块
  • 9.1 使用BeautifulSoup解析数据
  • 9.2 获取节点内容
  • 9.3 方法获取内容
  • 9.4 CSS选择器
  • 9.5 小结
  • 第10章 爬取动态渲染的信息
  • 10.1 Ajax数据的爬取
  • 10.2 使用Selenium爬取动态加载的信息
  • 10.3 Splash的爬虫应用
  • 10.4 小结
  • 第11章 多线程与多进程爬虫
  • 11.1 什么是线程
  • 11.2 创建线程
  • 11.3 线程间通信
  • 11.4 什么是进程
  • 11.5 创建进程的常用方式
  • 11.6 进程间通信
  • 11.7 多进程爬虫
  • 11.8 小结
  • 第12章 数据处理
  • 12.1 初识Pandas
  • 12.2 Series对象
  • 12.3 DataFrame对象
  • 12.4 数据的增、删、改、查
  • 12.5 数据清洗
  • 12.6 数据转换
  • 12.7 导入外部数据
  • 12.8 数据排序与排名
  • 12.9 简单的数据计算
  • 12.10 数据分组统计
  • 12.11 日期数据处理
  • 12.12 小结
  • 第13章 数据存储
  • 13.1 文件的存取
  • 13.2 SQLite数据库
  • 13.3 MySQL数据库
  • 13.4 小结
  • 第3篇 高级应用
  • 第14章 数据可视化
  • 14.1 Matplotlib概述
  • 14.2 图表的常用设置
  • 14.3 常用图表的绘制
  • 14.4 案例:可视化二手房数据查询系统
  • 14.5 小结
  • 第15章 App抓包工具
  • 15.1 Charles工具的下载与安装
  • 15.2 SSL证书的安装
  • 15.3 小结
  • 第16章 识别验证码
  • 16.1 字符验证码
  • 16.2 第三方验证码识别
  • 16.3 滑动拼图验证码
  • 16.4 小结
  • 第17章 Scrapy爬虫框架
  • 17.1 了解Scrapy爬虫框架
  • 17.2 搭建Scrapy爬虫框架
  • 17.3 Scrapy的基本应用
  • 17.4 编写Item Pipeline
  • 17.5 自定义中间件
  • 17.6 文件下载
  • 17.7 小结
  • 第18章 Scrapy_Redis分布式爬虫
  • 18.1 安装Redis数据库
  • 18.2 Scrapy-Redis模块
  • 18.3 分布式爬取中文日报新闻数据
  • 18.4 自定义分布式爬虫
  • 18.5 小结
  • 第4篇 项目实战
  • 第19章 数据侦探
  • 19.1 需求分析
  • 19.2 系统设计
  • 19.3 系统开发必备
  • 19.4 主窗体的UI设计
  • 19.5 设计数据库表结构
  • 19.6 爬取数据
  • 19.7 主窗体的数据展示
  • 19.8 外设产品热卖榜
  • 19.9 商品预警
  • 19.10 系统功能
  • 19.11 小结
展开全部

评分及书评

4.7
3个评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。