科技
类型
7.4
豆瓣评分
可以朗读
语音朗读
255千字
字数
2019-04-01
发行日期
展开全部
主编推荐语
本书采用简洁强大的Python语言,全面介绍网页抓取技术,解答诸多常见问题,是掌握从数据爬取到数据清洗全流程的系统实践指南。
内容简介
本书采用简洁强大的Python 语言,介绍了网页抓取,并为抓取新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网页抓取的基本原理:如何用Python 从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。
目录
- 版权信息
- 版权声明
- O'Reilly Media, Inc. 介绍
- 业界评论
- 前言
- 什么是网页抓取
- 为什么要做网页抓取
- 关于本书
- 排版约定
- 使用代码示例
- O'Reilly Safari
- 联系我们
- 致谢
- 电子书
- 第一部分 创建爬虫
- 第1章 初见网络爬虫
- 1.1 网络连接
- 1.2 BeautifulSoup简介
- 第2章 复杂 HTML 解析
- 2.1 不是一直都要用锤子
- 2.2 再端一碗BeautifulSoup
- 2.3 正则表达式
- 2.4 正则表达式和BeautifulSoup
- 2.5 获取属性
- 2.6 Lambda表达式
- 第3章 编写网络爬虫
- 3.1 遍历单个域名
- 3.2 抓取整个网站
- 3.3 在互联网上抓取
- 第4章 网络爬虫模型
- 4.1 规划和定义对象
- 4.2 处理不同的网站布局
- 4.3 结构化爬虫
- 4.4 关于网络爬虫模型的思考
- 第5章 Scrapy
- 5.1 安装Scrapy
- 5.2 创建一个简易爬虫
- 5.3 带规则的抓取
- 5.4 创建item
- 5.5 输出item
- 5.6 item管线组件
- 5.7 Scrapy日志管理
- 5.8 更多资源
- 第6章 存储数据
- 6.1 媒体文件
- 6.2 把数据存储到CSV
- 6.3 MySQL
- 6.4 Email
- 第二部分 高级网页抓取
- 第7章 读取文档
- 7.1 文档编码
- 7.2 纯文本
- 7.3 CSV
- 7.4 PDF
- 7.5 微软Word和.docx
- 第8章 数据清洗
- 8.1 编写代码清洗数据
- 8.2 数据存储后再清洗
- 第9章 自然语言处理
- 9.1 概括数据
- 9.2 马尔可夫模型
- 9.3 自然语言工具包
- 9.4 其他资源
- 第10章 穿越网页表单与登录窗口进行抓取
- 10.1 Python Requests库
- 10.2 提交一个基本表单
- 10.3 单选按钮、复选框和其他输入
- 10.4 提交文件和图像
- 10.5 处理登录和cookie
- 10.6 其他表单问题
- 第11章 抓取 JavaScript
- 11.1 JavaScript简介
- 11.2 Ajax和动态HTML
- 11.3 处理重定向
- 11.4 关于JavaScript的最后提醒
- 第12章 利用 API 抓取数据
- 12.1 API概述
- 12.2 解析JSON数据
- 12.3 无文档的API
- 12.4 API与其他数据源结合
- 12.5 再说一点API
- 第13章 图像识别与文字处理
- 13.1 OCR库概述
- 13.2 处理格式规范的文字
- 13.3 读取验证码与训练Tesseract
- 13.4 获取验证码并提交答案
- 第14章 避开抓取陷阱
- 14.1 道德规范
- 14.2 让网络机器人看着像人类用户
- 14.3 常见表单安全措施
- 14.4 问题检查表
- 第15章 用爬虫测试网站
- 15.1 测试简介
- 15.2 Python单元测试
- 15.3 Selenium单元测试
- 15.4 单元测试与Selenium单元测试的选择
- 第16章 并行网页抓取
- 16.1 进程与线程
- 16.2 多线程抓取
- 16.3 多进程抓取
- 16.4 多进程抓取的另一种方法
- 第17章 远程抓取
- 17.1 为什么要用远程服务器
- 17.2 Tor代理服务器
- 17.3 远程主机
- 17.4 其他资源
- 第18章 网页抓取的法律与道德约束
- 18.1 商标、版权、专利
- 18.2 侵害动产
- 18.3 计算机欺诈与滥用法
- 18.4 robots.txt和服务协议
- 18.5 3个网络爬虫
- 18.6 勇往直前
- 关于作者
- 关于封面
- 看完了
展开全部
出版方
人民邮电出版社·图灵出品
图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。