4.9 用户推荐指数
互联网
类型
可以朗读
语音朗读
217千字
字数
2021-06-01
发行日期
展开全部
主编推荐语
本书面向零基础读者,从如何合法使用爬虫和Python编辑环境的安装开始到不同类型爬虫程序的开发都进行了详尽的讲解。
内容简介
在大数据时代的今天,无论是产品开始还是精准化营销越来越离不开大数据的支持,如何从浩瀚的网络中获取自己想要的大数据?这就需要网络爬虫,而是世界上80%的爬虫都是基于Python开发出来的,所以python爬虫技术是大数据挖掘、分析与可视化的基础。
本书面向零基础读者,从如何合法使用爬虫和Python编辑环境的安装开始到不同类型爬虫程序的开发都进行了详尽的讲解,从Python基础语法到Requests库、正则表达式、Scrapy框架、Beautiful Soup一个都不少。同时在相关地方也讲解了部分数据挖掘和数据分析的基础内容。
目录
- 版权信息
- 作者简介
- 前言
- 本书学习资源
- 第1章 Python基础
- 1.1 Python快速上手
- 1.1.1 安装Python
- 1.1.2 编写第一个Python程序
- 1.1.3 PyCharm的安装与使用
- 1.1.4 Jupyter Notebook的使用
- 1.2 Python语法基础知识
- 1.2.1 变量、行、缩进与注释
- 1.2.2 数据类型:数字与字符串
- 1.2.3 数据类型:列表与字典、元组与集合
- 1.2.4 运算符
- 1.3 Python语句
- 1.3.1 if条件语句
- 1.3.2 for循环语句
- 1.3.3 while循环语句
- 1.3.4 try/except异常处理语句
- 1.4 函数与库
- 1.4.1 函数的定义与调用
- 1.4.2 函数的返回值与变量的作用域
- 1.4.3 常用内置函数介绍
- 1.4.4 库的导入与安装
- ★ 课后习题
- 第2章 爬虫第一步:获取网页源代码
- 2.1 爬虫核心库1:Requests库
- 2.1.1 如何查看网页源代码
- 2.1.2 用Requests库获取网页源代码:百度新闻
- 2.1.3 Requests库的“软肋”
- 2.2 爬虫核心库2:Selenium库
- 2.2.1 模拟浏览器及Selenium库的安装
- 2.2.2 用Selenium库获取网页源代码:新浪财经股票信息
- 2.3 网页结构分析
- 2.3.1 网页结构基础
- 2.3.2 网页结构进阶
- ★ 课后习题
- 第3章 爬虫第二步:数据解析与提取
- 3.1 用正则表达式解析和提取数据
- 3.1.1 正则表达式基础1:findall()函数
- 3.1.2 正则表达式基础2:非贪婪匹配之“(.*?)”
- 3.1.3 正则表达式基础3:非贪婪匹配之“.*?”
- 3.1.4 正则表达式基础4:自动考虑换行的修饰符re.S
- 3.1.5 正则表达式基础5:知识点补充
- 3.1.6 案例实战:提取百度新闻的标题、网址、日期和来源
- 3.2 用BeautifulSoup库解析和提取数据
- 3.2.1 解析特定标签的网页元素
- 3.2.2 解析特定属性的网页元素
- 3.2.3 提取<a>标签中的网址
- 3.2.4 案例实战:新浪新闻标题和网址爬取
- 3.3 百度新闻爬取进阶探索
- 3.3.1 批量爬取多家公司的新闻
- 3.3.2 将爬取结果保存为文本文件
- 3.3.3 异常处理及24小时不间断爬取
- 3.3.4 批量爬取多页内容
- 3.4 证券日报网爬取实战
- 3.4.1 用正则表达式爬取
- 3.4.2 用BeautifulSoup库爬取
- 3.5 中证网爬取实战
- 3.6 新浪微博爬取实战
- 3.7 上海证券交易所上市公司PDF文件下载
- 3.7.1 用Requests库下载文件的基本方法
- 3.7.2 初步尝试下载上海证券交易所上市公司PDF文件
- 3.8 豆瓣电影Top 250排行榜海报图片下载
- 3.8.1 爬取单页
- 3.8.2 爬取多页
- ★ 课后习题
- 第4章 爬虫神器Selenium库深度讲解
- 4.1 Selenium库进阶知识
- 4.2 新浪财经股票行情数据爬取
- 4.2.1 用Selenium库爬取股票行情数据
- 4.2.2 用新浪财经API爬取股票行情数据
- 4.3 东方财富网数据爬取
- 4.3.1 上市公司股吧帖子爬取
- 4.3.2 上市公司新闻爬取
- 4.3.3 上市公司研报PDF文件下载
- 4.4 上海证券交易所问询函信息爬取及PDF文件下载
- 4.4.1 批量下载单个页面上的PDF文件
- 4.4.2 批量下载多个页面上的PDF文件
- 4.4.3 汇总问询函信息并导出为Excel工作簿
- 4.5 银行间拆借利率爬取
- 4.6 雪球股票评论信息爬取
- 4.7 京东商品评价信息爬取
- 4.7.1 用Selenium库爬取
- 4.7.2 用Requests库爬取
- 4.8 淘宝天猫商品销量数据爬取
- 4.9 Selenium库趣味案例:网页自动投票
- ★ 课后习题
- 第5章 数据处理与可视化
- 5.1 数据清洗与优化技巧
- 5.1.1 常用的数据清洗手段及日期格式的统一
- 5.1.2 文本内容过滤——剔除噪声数据
- 5.1.3 数据乱码问题处理
- 5.1.4 数据爬后处理之舆情评分
- 5.2 数据可视化分析——词云图绘制
- 5.2.1 用jieba库实现中文分词
- 5.2.2 用wordcloud库绘制词云图
- 5.2.3 案例实战:新浪微博词云图绘制
- ★ 课后习题
- 第6章 数据结构化与数据存储
- 6.1 数据结构化神器——pandas库
- 6.1.1 用read_html()函数快速爬取网页表格数据
- 6.1.2 pandas库在爬虫领域的核心代码知识
- 6.2 新浪财经——资产负债表获取
- 6.3 百度新闻——文本数据结构化
- 6.3.1 将单家公司的新闻导出为Excel工作簿
- 6.3.2 将多家公司的新闻导出为Excel工作簿
- 6.4 百度爱企查——股权穿透研究
- 6.4.1 单层股权结构爬取
- 6.4.2 多层股权结构爬取
- 6.5 天天基金网——股票型基金信息爬取
- 6.5.1 爬取基金信息表格
- 6.5.2 爬取基金的详情页面网址
- 6.6 集思录——可转债信息爬取
- 6.7 东方财富网——券商研报信息爬取
- 6.7.1 爬取券商研报信息表格
- 6.7.2 爬取研报的详情页面网址
- 6.8 数据存储——MySQL快速入门
- 6.8.1 MySQL的安装
- 6.8.2 MySQL的基本操作
- 6.9 用Python操控数据库
- 6.9.1 用PyMySQL库操控数据库
- 6.9.2 案例实战:百度新闻数据爬取与存储
- 6.9.3 用pandas库操控数据库
- ★ 课后习题
- 第7章 Python多线程和多进程爬虫
- 7.1 理解线程与进程
- 7.1.1 计算机硬件结构基础知识
- 7.1.2 线程与进程
- 7.1.3 单线程、多线程与多进程
- 7.1.4 爬虫任务中的多线程与多进程
- 7.2 Python多线程爬虫编程实战
- 7.2.1 Python多线程编程基础知识
- 7.2.2 Python多线程编程进阶知识
- 7.2.3 案例实战:多线程爬取百度新闻
- 7.3 Python多进程爬虫编程实战
- 7.3.1 Python多进程编程基础知识
- 7.3.2 Python多进程编程进阶知识
- 7.3.3 案例实战:多进程爬取百度新闻
- ★ 课后习题
- 第8章 IP代理使用技巧与实战
- 8.1 结合Requests库使用IP代理
- 8.1.1 IP代理基础知识
- 8.1.2 IP代理的使用
- 8.2 IP代理实战1:用Requests库爬取公众号文章
- 8.2.1 直接用Requests库爬取
- 8.2.2 添加IP代理进行爬取
- 8.2.3 添加智能IP切换系统
- 8.3 结合Selenium库使用IP代理
- 8.4 IP代理实战2:用Selenium库爬取公众号文章
- 8.4.1 直接用Selenium库爬取
- 8.4.2 添加IP代理进行爬取
- 8.4.3 添加智能IP切换系统
- ★ 课后习题
- 后记
展开全部
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。