展开全部

主编推荐语

本书主要介绍如何使用Python语言进行网络爬虫程序的开发。

内容简介

本书从Python语言的基本特性入手,详细介绍Python网络爬虫开发的多个方面,涉及HTTP、HTML、正则表达式、JavaScript、自然语言处理、数据处理与科学计算等不同领域的内容。

全书共12章,包括基础篇、进阶篇、提高篇和实战篇4个部分。

基础篇包括第1、2、3章,分别为Python基础及网络爬虫、静态网页抓取、数据存储。

进阶篇包括第4、5、6章,分别为JavaScript与动态内容、模拟登录与验证码、爬虫数据的分析与处理。

提高篇包括第7、8、9章,分别为爬虫的灵活性和多样性、Selenium模拟浏览器与网站测试、爬虫框架Scrapy与反爬虫。

实战篇提供了3个实战项目供读者学习参考。

本书内容覆盖网络数据抓取与爬虫编程中的主要知识和前沿技术。同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示爬虫程序编写的核心流程,将理论与实践结合,力求提高读者的网络爬虫实操技能。

目录

  • 版权信息
  • 内容提要
  • 前言
  • 基础篇
  • 第1章 Python基础及网络爬虫
  • 1.1 了解Python语言
  • 1.2 配置安装Python开发环境
  • 1.3 Python基础知识
  • 1.4 互联网、HTTP与HTML
  • 1.5 Hello Spider
  • 1.6 分析网站
  • 章节实训:Python环境的配置与爬虫的运行
  • 思考与练习
  • 第2章 静态网页抓取
  • 2.1 从抓取开始
  • 2.2 正则表达式
  • 2.3 BeautifulSoup爬虫
  • 2.4 XPath与lxml
  • 2.5 遍历页面
  • 2.6 使用API
  • 章节实训:哔哩哔哩直播间信息抓取练习
  • 思考与练习
  • 第3章 数据存储
  • 3.1 Python中的文件
  • 3.2 Python中的字符串
  • 3.3 Python中的图片
  • 3.4 CSV文件
  • 3.5 数据库的使用
  • 3.6 其他类型的文档
  • 章节实训:使用Python 3读写SQLite 3数据库
  • 思考与练习
  • 进阶篇
  • 第4章 JavaScript与动态内容
  • 4.1 JavaScript与AJAX技术
  • 4.2 抓取AJAX数据
  • 4.3 抓取动态内容
  • 章节实训:抓取人民邮电出版社热销图书信息
  • 思考与练习
  • 第5章 模拟登录与验证码
  • 5.1 表单
  • 5.2 Cookie
  • 5.3 模拟登录网站
  • 5.4 验证码
  • 章节实训:通过Selenium模拟登录Gitee并保存Cookie
  • 思考与练习
  • 第6章 爬虫数据的分析与处理
  • 6.1 Python与文本分析
  • 6.2 数据处理与科学计算
  • 章节实训:美国新冠疫情每日新增人数的可视化
  • 思考与练习
  • 提高篇
  • 第7章 爬虫的灵活性和多样性
  • 7.1 爬虫的灵活性——以微信数据抓取为例
  • 7.2 爬虫的多样性
  • 7.3 爬虫的部署和管理
  • 章节实训:基于PyQuery抓取菜鸟教程
  • 思考与练习
  • 第8章 Selenium模拟浏览器与网站测试
  • 8.1 测试
  • 8.2 Python的单元测试
  • 8.3 使用Python网络爬虫测试网站
  • 8.4 使用Selenium测试
  • 章节实训:使用Selenium抓取百度搜索引擎中关于“爬虫”的结果
  • 思考与练习
  • 第9章 爬虫框架Scrapy与反爬虫
  • 9.1 爬虫框架
  • 9.2 网站反爬虫
  • 章节实训:使用“反反爬虫”策略抓取某日报网头版的标题内容
  • 思考与练习
  • 实战篇
  • 第10章 实战:保存感兴趣的图片
  • 10.1 豆瓣网分析与爬虫设计
  • 10.2 编写爬虫程序
  • 第11章 实战:抓取二手房数据并绘制热力图
  • 11.1 数据抓取
  • 11.2 绘制热力图
  • 第12章 实战:北京大兴国际机场航班出发时间数据抓取
  • 12.1 程序设计
  • 12.2 爬虫编写
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。