展开全部

主编推荐语

以Java为开发语言,系统讲解网络爬虫理论、工具和开源框架,适合初学者和进阶者。

内容简介

本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic.本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的大学生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。

目录

  • 封面
  • 版权
  • 前言
  • 文前
  • 目录
  • 第1章 网络爬虫概述与原理
  • 1.1 网络爬虫简介
  • 1.2 网络爬虫分类
  • 1.3 网络爬虫流程
  • 1.4 网络爬虫的采集策略
  • 1.5 学习网络爬虫的建议
  • 1.6 本章小结
  • 第2章 网络爬虫涉及的Java基础知识
  • 2.1 开发环境的搭建
  • 2.1.1 JDK的安装及环境变量配置
  • 2.1.2 Eclipse的下载
  • 2.2 基本数据类型
  • 2.3 数组
  • 2.4 条件判断与循环
  • 2.5 集合
  • 2.5.1 List和Set集合
  • 2.5.2 Map集合
  • 2.5.3 Queue集合
  • 2.6 对象与类
  • 2.7 String类
  • 2.8 日期和时间处理
  • 2.9 正则表达式
  • 2.10 Maven工程的创建
  • 2.11 log4j的使用
  • 2.12 本章小结
  • 第3章 HTTP协议基础与网络抓包
  • 3.1 HTTP协议简介
  • 3.2 URL
  • 3.3 报文
  • 3.4 HTTP请求方法
  • 3.5 HTTP状态码
  • 3.5.1 状态码2XX
  • 3.5.2 状态码3XX
  • 3.5.3 状态码4XX
  • 3.5.4 状态码5XX
  • 3.6 HTTP信息头
  • 3.6.1 通用头
  • 3.6.2 请求头
  • 3.6.3 响应头
  • 3.6.4 实体头
  • 3.7 HTTP响应正文
  • 3.7.1 HTML
  • 3.7.2 XML
  • 3.7.3 JSON
  • 3.8 网络抓包
  • 3.8.1 简介
  • 3.8.2 使用情境
  • 3.8.3 浏览器实现网络抓包
  • 3.8.4 其他网络抓包工具推荐
  • 3.9 本章小结
  • 第4章 网页内容获取
  • 4.1 Jsoup的使用
  • 4.1.1 jar包的下载
  • 4.1.2 请求URL
  • 4.1.3 设置头信息
  • 4.1.4 提交请求参数
  • 4.1.5 超时设置
  • 4.1.6 代理服务器的使用
  • 4.1.7 响应转输出流(图片、PDF等的下载)
  • 4.1.8 HTTPS请求认证
  • 4.1.9 大文件内容获取问题
  • 4.2 HttpClient的使用
  • 4.2.1 jar包的下载
  • 4.2.2 请求URL
  • 4.2.3 EntityUtils类
  • 4.2.4 设置头信息
  • 4.2.5 POST提交表单
  • 4.2.6 超时设置
  • 4.2.7 代理服务器的使用
  • 4.2.8 文件下载
  • 4.2.9 HTTPS请求认证
  • 4.2.10 请求重试
  • 4.2.11 多线程执行请求
  • 4.3 URLConnection与HttpURLConnection
  • 4.3.1 实例化
  • 4.3.2 获取网页内容
  • 4.3.3 GET请求
  • 4.3.4 模拟提交表单(POST请求)
  • 4.3.5 设置头信息
  • 4.3.6 连接超时设置
  • 4.3.7 代理服务器的使用
  • 4.3.8 HTTPS请求认证
  • 4.4 本章小结
  • 第5章 网页内容解析
  • 5.1 HTML解析
  • 5.1.1 CSS选择器
  • 5.1.2 Xpath语法
  • 5.1.3 Jsoup解析HTML
  • 5.1.4 HtmlCleaner解析HTML
  • 5.1.5 HTMLParser解析HTML
  • 5.2 XML解析
  • 5.3 JSON解析
  • 5.3.1 JSON校正
  • 5.3.2 org.json解析JSON
  • 5.3.3 Gson解析JSON
  • 5.3.4 Fastjson解析JSON
  • 5.3.5 网络爬虫实战演练
  • 5.4 本章小结
  • 第6章 网络爬虫数据存储
  • 6.1 输入流与输出流
  • 6.1.1 简介
  • 6.1.2 File类
  • 6.1.3 文件字节流
  • 6.1.4 文件字符流
  • 6.1.5 缓冲流
  • 6.1.6 网络爬虫下载图片实战
  • 6.1.7 网络爬虫文本存储实战
  • 6.2 Excel存储
  • 6.2.1 Jxl的使用
  • 6.2.2 POI的使用
  • 6.2.3 爬虫案例
  • 6.3 MySQL数据存储
  • 6.3.1 数据库的基本概念
  • 6.3.2 SQL语句基础
  • 6.3.3 Java操作数据库
  • 6.3.4 爬虫案例
  • 6.4 本章小结
  • 第7章 网络爬虫实战项目
  • 7.1 新闻数据采集
  • 7.1.1 采集的网页
  • 7.1.2 框架介绍
  • 7.1.3 程序编写
  • 7.2 企业信息采集
  • 7.2.1 采集的网页
  • 7.2.2 框架介绍
  • 7.2.3 第一层信息采集
  • 7.2.4 第二层信息采集
  • 7.3 股票信息采集
  • 7.3.1 采集的网页
  • 7.3.2 框架介绍
  • 7.3.3 程序设计
  • 7.3.4 Quartz实现定时调度任务
  • 7.4 本章小结
  • 第8章 Selenium的使用
  • 8.1 Selenium简介
  • 8.2 Java Selenium环境搭建
  • 8.3 浏览器的操控
  • 8.4 元素定位
  • 8.4.1 id定位
  • 8.4.2 name定位
  • 8.4.3 class定位
  • 8.4.4 tag name定位
  • 8.4.5 link text定位
  • 8.4.6 Xpath定位
  • 8.4.7 CSS选择器定位
  • 8.5 模拟登录
  • 8.6 动态加载JavaScript数据(操作滚动条)
  • 8.7 隐藏浏览器
  • 8.8 截取验证码
  • 8.9 本章小结
  • 第9章 网络爬虫开源框架
  • 9.1 Crawler4j的使用
  • 9.1.1 Crawler4j简介
  • 9.1.2 jar包的下载
  • 9.1.3 入门案例
  • 9.1.4 相关配置
  • 9.1.5 图片的采集
  • 9.1.6 数据采集入库
  • 9.2 WebCollector的使用
  • 9.2.1 WebCollector简介
  • 9.2.2 jar包的下载
  • 9.2.3 入门案例
  • 9.2.4 相关配置
  • 9.2.5 HTTP请求扩展
  • 9.2.6 翻页数据采集
  • 9.2.7 图片的采集
  • 9.2.8 数据采集入库
  • 9.3 WebMagic的使用
  • 9.3.1 WebMagic简介
  • 9.3.2 jar包的下载
  • 9.3.3 入门案例(翻页数据采集)
  • 9.3.4 相关配置
  • 9.3.5 数据存储方式
  • 9.3.6 数据采集入库
  • 9.3.7 图片的采集
  • 9.4 本章小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。