展开全部

主编推荐语

本书采用简洁强大的Python语言,全面介绍网页抓取技术,解答诸多常见问题,是掌握从数据爬取到数据清洗全流程的系统实践指南。

内容简介

本书采用简洁强大的Python 语言,介绍了网页抓取,并为抓取新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网页抓取的基本原理:如何用Python 从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。

目录

  • 版权信息
  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 业界评论
  • 前言
  • 什么是网页抓取
  • 为什么要做网页抓取
  • 关于本书
  • 排版约定
  • 使用代码示例
  • O'Reilly Safari
  • 联系我们
  • 致谢
  • 电子书
  • 第一部分 创建爬虫
  • 第1章 初见网络爬虫
  • 1.1 网络连接
  • 1.2 BeautifulSoup简介
  • 第2章 复杂 HTML 解析
  • 2.1 不是一直都要用锤子
  • 2.2 再端一碗BeautifulSoup
  • 2.3 正则表达式
  • 2.4 正则表达式和BeautifulSoup
  • 2.5 获取属性
  • 2.6 Lambda表达式
  • 第3章 编写网络爬虫
  • 3.1 遍历单个域名
  • 3.2 抓取整个网站
  • 3.3 在互联网上抓取
  • 第4章 网络爬虫模型
  • 4.1 规划和定义对象
  • 4.2 处理不同的网站布局
  • 4.3 结构化爬虫
  • 4.4 关于网络爬虫模型的思考
  • 第5章 Scrapy
  • 5.1 安装Scrapy
  • 5.2 创建一个简易爬虫
  • 5.3 带规则的抓取
  • 5.4 创建item
  • 5.5 输出item
  • 5.6 item管线组件
  • 5.7 Scrapy日志管理
  • 5.8 更多资源
  • 第6章 存储数据
  • 6.1 媒体文件
  • 6.2 把数据存储到CSV
  • 6.3 MySQL
  • 6.4 Email
  • 第二部分 高级网页抓取
  • 第7章 读取文档
  • 7.1 文档编码
  • 7.2 纯文本
  • 7.3 CSV
  • 7.4 PDF
  • 7.5 微软Word和.docx
  • 第8章 数据清洗
  • 8.1 编写代码清洗数据
  • 8.2 数据存储后再清洗
  • 第9章 自然语言处理
  • 9.1 概括数据
  • 9.2 马尔可夫模型
  • 9.3 自然语言工具包
  • 9.4 其他资源
  • 第10章 穿越网页表单与登录窗口进行抓取
  • 10.1 Python Requests库
  • 10.2 提交一个基本表单
  • 10.3 单选按钮、复选框和其他输入
  • 10.4 提交文件和图像
  • 10.5 处理登录和cookie
  • 10.6 其他表单问题
  • 第11章 抓取 JavaScript
  • 11.1 JavaScript简介
  • 11.2 Ajax和动态HTML
  • 11.3 处理重定向
  • 11.4 关于JavaScript的最后提醒
  • 第12章 利用 API 抓取数据
  • 12.1 API概述
  • 12.2 解析JSON数据
  • 12.3 无文档的API
  • 12.4 API与其他数据源结合
  • 12.5 再说一点API
  • 第13章 图像识别与文字处理
  • 13.1 OCR库概述
  • 13.2 处理格式规范的文字
  • 13.3 读取验证码与训练Tesseract
  • 13.4 获取验证码并提交答案
  • 第14章 避开抓取陷阱
  • 14.1 道德规范
  • 14.2 让网络机器人看着像人类用户
  • 14.3 常见表单安全措施
  • 14.4 问题检查表
  • 第15章 用爬虫测试网站
  • 15.1 测试简介
  • 15.2 Python单元测试
  • 15.3 Selenium单元测试
  • 15.4 单元测试与Selenium单元测试的选择
  • 第16章 并行网页抓取
  • 16.1 进程与线程
  • 16.2 多线程抓取
  • 16.3 多进程抓取
  • 16.4 多进程抓取的另一种方法
  • 第17章 远程抓取
  • 17.1 为什么要用远程服务器
  • 17.2 Tor代理服务器
  • 17.3 远程主机
  • 17.4 其他资源
  • 第18章 网页抓取的法律与道德约束
  • 18.1 商标、版权、专利
  • 18.2 侵害动产
  • 18.3 计算机欺诈与滥用法
  • 18.4 robots.txt和服务协议
  • 18.5 3个网络爬虫
  • 18.6 勇往直前
  • 关于作者
  • 关于封面
  • 看完了
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社·图灵出品

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。