计算机
类型
可以朗读
语音朗读
98千字
字数
2020-01-01
发行日期
展开全部
主编推荐语
以Java为开发语言,系统讲解网络爬虫理论、工具和开源框架,适合初学者和进阶者。
内容简介
本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic.本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的大学生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。
目录
- 封面
- 版权
- 前言
- 文前
- 目录
- 第1章 网络爬虫概述与原理
- 1.1 网络爬虫简介
- 1.2 网络爬虫分类
- 1.3 网络爬虫流程
- 1.4 网络爬虫的采集策略
- 1.5 学习网络爬虫的建议
- 1.6 本章小结
- 第2章 网络爬虫涉及的Java基础知识
- 2.1 开发环境的搭建
- 2.1.1 JDK的安装及环境变量配置
- 2.1.2 Eclipse的下载
- 2.2 基本数据类型
- 2.3 数组
- 2.4 条件判断与循环
- 2.5 集合
- 2.5.1 List和Set集合
- 2.5.2 Map集合
- 2.5.3 Queue集合
- 2.6 对象与类
- 2.7 String类
- 2.8 日期和时间处理
- 2.9 正则表达式
- 2.10 Maven工程的创建
- 2.11 log4j的使用
- 2.12 本章小结
- 第3章 HTTP协议基础与网络抓包
- 3.1 HTTP协议简介
- 3.2 URL
- 3.3 报文
- 3.4 HTTP请求方法
- 3.5 HTTP状态码
- 3.5.1 状态码2XX
- 3.5.2 状态码3XX
- 3.5.3 状态码4XX
- 3.5.4 状态码5XX
- 3.6 HTTP信息头
- 3.6.1 通用头
- 3.6.2 请求头
- 3.6.3 响应头
- 3.6.4 实体头
- 3.7 HTTP响应正文
- 3.7.1 HTML
- 3.7.2 XML
- 3.7.3 JSON
- 3.8 网络抓包
- 3.8.1 简介
- 3.8.2 使用情境
- 3.8.3 浏览器实现网络抓包
- 3.8.4 其他网络抓包工具推荐
- 3.9 本章小结
- 第4章 网页内容获取
- 4.1 Jsoup的使用
- 4.1.1 jar包的下载
- 4.1.2 请求URL
- 4.1.3 设置头信息
- 4.1.4 提交请求参数
- 4.1.5 超时设置
- 4.1.6 代理服务器的使用
- 4.1.7 响应转输出流(图片、PDF等的下载)
- 4.1.8 HTTPS请求认证
- 4.1.9 大文件内容获取问题
- 4.2 HttpClient的使用
- 4.2.1 jar包的下载
- 4.2.2 请求URL
- 4.2.3 EntityUtils类
- 4.2.4 设置头信息
- 4.2.5 POST提交表单
- 4.2.6 超时设置
- 4.2.7 代理服务器的使用
- 4.2.8 文件下载
- 4.2.9 HTTPS请求认证
- 4.2.10 请求重试
- 4.2.11 多线程执行请求
- 4.3 URLConnection与HttpURLConnection
- 4.3.1 实例化
- 4.3.2 获取网页内容
- 4.3.3 GET请求
- 4.3.4 模拟提交表单(POST请求)
- 4.3.5 设置头信息
- 4.3.6 连接超时设置
- 4.3.7 代理服务器的使用
- 4.3.8 HTTPS请求认证
- 4.4 本章小结
- 第5章 网页内容解析
- 5.1 HTML解析
- 5.1.1 CSS选择器
- 5.1.2 Xpath语法
- 5.1.3 Jsoup解析HTML
- 5.1.4 HtmlCleaner解析HTML
- 5.1.5 HTMLParser解析HTML
- 5.2 XML解析
- 5.3 JSON解析
- 5.3.1 JSON校正
- 5.3.2 org.json解析JSON
- 5.3.3 Gson解析JSON
- 5.3.4 Fastjson解析JSON
- 5.3.5 网络爬虫实战演练
- 5.4 本章小结
- 第6章 网络爬虫数据存储
- 6.1 输入流与输出流
- 6.1.1 简介
- 6.1.2 File类
- 6.1.3 文件字节流
- 6.1.4 文件字符流
- 6.1.5 缓冲流
- 6.1.6 网络爬虫下载图片实战
- 6.1.7 网络爬虫文本存储实战
- 6.2 Excel存储
- 6.2.1 Jxl的使用
- 6.2.2 POI的使用
- 6.2.3 爬虫案例
- 6.3 MySQL数据存储
- 6.3.1 数据库的基本概念
- 6.3.2 SQL语句基础
- 6.3.3 Java操作数据库
- 6.3.4 爬虫案例
- 6.4 本章小结
- 第7章 网络爬虫实战项目
- 7.1 新闻数据采集
- 7.1.1 采集的网页
- 7.1.2 框架介绍
- 7.1.3 程序编写
- 7.2 企业信息采集
- 7.2.1 采集的网页
- 7.2.2 框架介绍
- 7.2.3 第一层信息采集
- 7.2.4 第二层信息采集
- 7.3 股票信息采集
- 7.3.1 采集的网页
- 7.3.2 框架介绍
- 7.3.3 程序设计
- 7.3.4 Quartz实现定时调度任务
- 7.4 本章小结
- 第8章 Selenium的使用
- 8.1 Selenium简介
- 8.2 Java Selenium环境搭建
- 8.3 浏览器的操控
- 8.4 元素定位
- 8.4.1 id定位
- 8.4.2 name定位
- 8.4.3 class定位
- 8.4.4 tag name定位
- 8.4.5 link text定位
- 8.4.6 Xpath定位
- 8.4.7 CSS选择器定位
- 8.5 模拟登录
- 8.6 动态加载JavaScript数据(操作滚动条)
- 8.7 隐藏浏览器
- 8.8 截取验证码
- 8.9 本章小结
- 第9章 网络爬虫开源框架
- 9.1 Crawler4j的使用
- 9.1.1 Crawler4j简介
- 9.1.2 jar包的下载
- 9.1.3 入门案例
- 9.1.4 相关配置
- 9.1.5 图片的采集
- 9.1.6 数据采集入库
- 9.2 WebCollector的使用
- 9.2.1 WebCollector简介
- 9.2.2 jar包的下载
- 9.2.3 入门案例
- 9.2.4 相关配置
- 9.2.5 HTTP请求扩展
- 9.2.6 翻页数据采集
- 9.2.7 图片的采集
- 9.2.8 数据采集入库
- 9.3 WebMagic的使用
- 9.3.1 WebMagic简介
- 9.3.2 jar包的下载
- 9.3.3 入门案例(翻页数据采集)
- 9.3.4 相关配置
- 9.3.5 数据存储方式
- 9.3.6 数据采集入库
- 9.3.7 图片的采集
- 9.4 本章小结
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。