展开全部

主编推荐语

本书适合爬虫技术初学者、爱好者及高等院校的相关学生,也适合数据爬虫工程师作为参考读物,同时也适合各大Python数据分析的培训机构作为教材使用。

内容简介

Python是数据分析的首选语言,而网络中的数据和信息很多,如何从中获取需要的数据和信息呢?最简单、直接的方法就是用爬虫技术来解决。本书是一本教初学者学习如何爬取网络数据和信息的入门读物。书中不仅有Python的相关内容,而且还有数据处理和数据挖掘等方面的内容。本书内容非常实用,讲解时穿插了22个爬虫实战案例,可以大大提高读者的实际动手能力。全书共分12章,核心主题包括Python零基础语法入门、爬虫原理和网页构造、第壹个爬虫程序、正则表达式、Lxml库与Xpath语法、使用API、数据库存储、多进程爬虫、异步加载、表单交互与模拟登录、Selenium模拟浏览器、Scrapy爬虫框架。此外,书中通过一些典型爬虫案例,讲解了有经纬信息的地图图表和词云的制作方法,让读者体验数据背后的乐趣。

目录

  • 版权信息
  • 前言
  • 第1章 Python零基础语法入门
  • 1.1 Python与PyCharm安装
  • 1.1.1 Python安装(Windows、Mac和Linux)
  • 1.1.2 PyCharm安装
  • 1.2 变量和字符串
  • 1.2.1 变量
  • 1.2.2 字符串的“加法”和“乘法”
  • 1.2.3 字符串的切片和索引
  • 1.2.4 字符串方法
  • 1.3 函数与控制语句
  • 1.3.1 函数
  • 1.3.2 判断语句
  • 1.3.3 循环语句
  • 1.4 Python数据结构
  • 1.4.1 列表
  • 1.4.2 字典
  • 1.4.3 元组和集合
  • 1.5 Python文件操作
  • 1.5.1 打开文件
  • 1.5.2 读写文件
  • 1.5.3 关闭文件
  • 1.6 Python面向对象
  • 1.6.1 定义类
  • 1.6.2 实例属性
  • 1.6.3 实例方法
  • 1.6.4 类的继承
  • 第2章 爬虫原理和网页构造
  • 2.1 爬虫原理
  • 2.1.1 网络连接
  • 2.1.2 爬虫原理
  • 2.2 网页构造
  • 2.2.1 Chrome浏览器的安装
  • 2.2.2 网页构造
  • 2.2.3 查询网页信息
  • 第3章 我的第一个爬虫程序
  • 3.1 Python第三方库
  • 3.1.1 Python第三方库的概念
  • 3.1.2 Python第三方库的安装方法
  • 3.1.3 Python第三方库的使用方法
  • 3.2 爬虫三大库
  • 3.2.1 Requests库
  • 3.2.2 BeautifulSoup库
  • 3.2.3 Lxml库
  • 3.3 综合案例1——爬取北京地区短租房信息
  • 3.3.1 爬虫思路分析
  • 3.3.2 爬虫代码及分析
  • 3.4 综合案例2——爬取酷狗TOP500的数据
  • 3.4.1 爬虫思路分析
  • 3.4.2 爬虫代码及分析
  • 第4章 正则表达式
  • 4.1 正则表达式常用符号
  • 4.1.1 一般字符
  • 4.1.2 预定义字符集
  • 4.1.3 数量词
  • 4.1.4 边界匹配
  • 4.2 re模块及其方法
  • 4.2.1 search()函数
  • 4.2.2 sub()函数
  • 4.2.3 findall()函数
  • 4.2.4 re模块修饰符
  • 4.3 综合案例1——爬取《斗破苍穹》全文小说
  • 4.3.1 爬虫思路分析
  • 4.3.2 爬虫代码及分析
  • 4.4 综合案例2——爬取糗事百科网的段子信息
  • 4.4.1 爬虫思路分析
  • 4.4.2 爬虫代码及分析
  • 第5章 Lxml库与Xpath语法
  • 5.1 Lxml库的安装与使用方法
  • 5.1.1 Lxml库的安装(Mac、Linux)
  • 5.1.2 Lxml库的使用
  • 5.2 Xpath语法
  • 5.2.1 节点关系
  • 5.2.2 节点选择
  • 5.2.3 使用技巧
  • 5.2.4 性能对比
  • 5.3 综合案例1——爬取豆瓣网图书TOP250的数据
  • 5.3.1 将数据存储到CSV文件中
  • 5.3.2 爬虫思路分析
  • 5.3.3 爬虫代码及分析
  • 5.4 综合案例2——爬取起点中文网小说信息
  • 5.4.1 将数据存储到Excel文件中
  • 5.4.2 爬虫思路分析
  • 5.4.3 爬虫代码及分析
  • 第6章 使用API
  • 6.1 API的使用
  • 6.1.1 API概述
  • 6.1.2 API使用方法
  • 6.1.3 API验证
  • 6.2 解析JSON数据
  • 6.2.1 JSON解析库
  • 6.2.2 斯必克API调用
  • 6.2.3 百度地图API调用
  • 6.3 综合案例1——爬取PEXELS图片
  • 6.3.1 图片爬取方法
  • 6.3.2 爬虫思路分析
  • 6.3.3 爬虫代码及分析
  • 6.4 综合案例2——爬取糗事百科网的用户地址信息
  • 6.4.1 地图的绘制
  • 6.4.2 爬取思路分析
  • 6.4.3 爬虫代码及分析
  • 第7章 数据库存储
  • 7.1 MongoDB数据库
  • 7.1.1 NoSQL概述
  • 7.1.2 MongoDB的安装
  • 7.1.3 MongoDB的使用
  • 7.2 MySQL数据库
  • 7.2.1 关系型数据库概述
  • 7.2.2 MySQL的安装
  • 7.2.3 MySQL的使用
  • 7.3 综合案例1——爬取豆瓣音乐TOP250的数据
  • 7.3.1 爬虫思路分析
  • 7.3.2 爬虫代码及分析
  • 7.4 综合案例2——爬取豆瓣电影TOP250的数据
  • 7.4.1 爬虫思路分析
  • 7.4.2 爬虫代码及分析
  • 第8章 多进程爬虫
  • 8.1 多线程与多进程
  • 8.1.1 多线程和多进程概述
  • 8.1.2 多进程使用方法
  • 8.1.3 性能对比
  • 8.2 综合案例1——爬取简书网热评文章
  • 8.2.1 爬虫思路分析
  • 8.2.2 爬虫代码及分析
  • 8.3 综合案例2——爬取转转网二手市场商品信息
  • 8.3.1 爬虫思路分析
  • 8.3.2 爬虫代码及分析
  • 第9章 异步加载
  • 9.1 异步加载技术与爬虫方法
  • 9.1.1 异步加载技术概述
  • 9.1.2 异步加载网页示例
  • 9.1.3 逆向工程
  • 9.2 综合案例1——爬取简书网用户动态信息
  • 9.2.1 爬虫思路分析
  • 9.2.2 爬虫代码及分析
  • 9.3 综合案例2——爬取简书网7日热门信息
  • 9.3.1 爬虫思路分析
  • 9.3.2 爬虫代码及分析
  • 第10章 表单交互与模拟登录
  • 10.1 表单交互
  • 10.1.1 POST方法
  • 10.1.2 查看网页源代码提交表单
  • 10.1.3 逆向工程提交表单
  • 10.2 模拟登录
  • 10.2.1 Cookie概述
  • 10.2.2 提交Cookie模拟登录
  • 10.3 综合案例1——爬取拉勾网招聘信息
  • 10.3.1 爬虫思路分析
  • 10.3.2 爬虫代码及分析
  • 10.4 综合案例2——爬取新浪微博好友圈信息
  • 10.4.1 词云制作
  • 10.4.2 爬虫思路分析
  • 10.4.3 爬虫代码及分析
  • 第11章 Selenium模拟浏览器
  • 11.1 Selenium和PhantomJS
  • 11.1.1 Selenium的概念和安装
  • 11.1.2 浏览器的选择和安装
  • 11.2 Selenium和PhantomJS的配合使用
  • 11.2.1 模拟浏览器操作
  • 11.2.2 获取异步加载数据
  • 11.3 综合案例1——爬取QQ空间好友说说
  • 11.3.1 CSV文件读取
  • 11.3.2 爬虫思路分析
  • 11.3.3 爬虫代码及分析
  • 11.4 综合案例2——爬取淘宝商品信息
  • 11.4.1 爬虫思路分析
  • 11.4.2 爬虫代码及分析
  • 第12章 Scrapy爬虫框架
  • 12.1 Scrapy的安装和使用
  • 12.1.1 Scrapy的安装
  • 12.1.2 创建Scrapy项目
  • 12.1.3 Scrapy文件介绍
  • 12.1.4 Scrapy爬虫编写
  • 12.1.5 Scrapy爬虫运行
  • 12.2 综合案例1——爬取简书网热门专题信息
  • 12.2.1 爬虫思路分析
  • 12.2.2 爬虫代码及分析
  • 12.3 综合案例2——爬取知乎网Python精华话题
  • 12.3.1 爬虫思路分析
  • 12.3.2 爬虫代码及分析
  • 12.4 综合案例3——爬取简书网专题收录文章
  • 12.4.1 爬虫思路分析
  • 12.4.2 爬虫代码及分析
  • 12.5 综合案例4——爬取简书网推荐信息
  • 12.5.1 爬虫思路分析
  • 12.5.2 爬虫代码及分析
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社有限公司

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。