科技
                       类型
                        7.6
                       豆瓣评分
                        可以朗读
                       语音朗读
                        173千字
                       字数
                        2019-05-01
                       发行日期
                    展开全部
                    
主编推荐语
带你了解特征工程的完整过程,使机器学习更加系统、高效。
内容简介
从理解数据开始——机器学习模型的成功取决于如何利用不同类型的特征,例如连续特征、类属特征等。你将了解何时纳入一项特征、何时忽略一项特征,以及其中的原因。你会学习将问题陈述转换为有用的新特征,还会学习如何提供商业需求驱动的特征以及数学见解。最后,你将学习如何在自己的机器上进行机器学习,自动学习数据中令人惊叹的特征。
目录
- 版权信息
 - 前言
 - 目标读者
 - 本书内容
 - 阅读须知
 - 下载示例代码
 - 下载本书彩色图片
 - 排版约定
 - 联系我们
 - 评论
 - 电子书
 - 第1章 特征工程简介
 - 1.1 激动人心的例子:AI驱动的聊天
 - 1.2 特征工程的重要性
 - 1.3 特征工程是什么
 - 数据和机器学习的基础知识
 - 1.4 机器学习算法和特征工程的评估
 - 1.4.1 特征工程的例子:真的有人能预测天气吗
 - 1.4.2 特征工程的评估步骤
 - 1.4.3 评估监督学习算法
 - 1.4.4 评估无监督学习算法
 - 1.5 特征理解:我的数据集里有什么
 - 1.6 特征增强:清洗数据
 - 1.7 特征选择:对坏属性说不
 - 1.8 特征构建:能生成新特征吗
 - 1.9 特征转换:数学显神通
 - 1.10 特征学习:以AI促AI
 - 1.11 小结
 - 第2章 特征理解:我的数据集里有什么
 - 2.1 数据结构的有无
 - 非结构化数据的例子:服务器日志
 - 2.2 定量数据和定性数据
 - 按工作分类的工资
 - 2.3 数据的4个等级
 - 2.3.1 定类等级
 - 2.3.2 定序等级
 - 2.3.3 定距等级
 - 2.3.4 定比等级
 - 2.4 数据等级总结
 - 2.5 小结
 - 第3章 特征增强:清洗数据
 - 3.1 识别数据中的缺失值
 - 3.1.1 皮马印第安人糖尿病预测数据集
 - 3.1.2 探索性数据分析
 - 3.2 处理数据集中的缺失值
 - 3.2.1 删除有害的行
 - 3.2.2 填充缺失值
 - 3.2.3 在机器学习流水线中填充值
 - 3.3 标准化和归一化
 - 3.3.1 分数标准化
 - 3.3.2 min-max标准化
 - 3.3.3 行归一化
 - 3.3.4 整合起来
 - 3.4 小结
 - 第4章 特征构建:我能生成新特征吗
 - 4.1 检查数据集
 - 4.2 填充分类特征
 - 4.2.1 自定义填充器
 - 4.2.2 自定义分类填充器
 - 4.2.3 自定义定量填充器
 - 4.3 编码分类变量
 - 4.3.1 定类等级的编码
 - 4.3.2 定序等级的编码
 - 4.3.3 将连续特征分箱
 - 4.3.4 创建流水线
 - 4.4 扩展数值特征
 - 4.4.1 根据胸部加速度计识别动作的数据集
 - 4.4.2 多项式特征
 - 4.5 针对文本的特征构建
 - 4.5.1 词袋法
 - 4.5.2 CountVectorizer
 - 4.5.3 TF-IDF向量化器
 - 4.5.4 在机器学习流水线中使用文本
 - 4.6 小结
 - 第5章 特征选择:对坏属性说不
 - 5.1 在特征工程中实现更好的性能
 - 案例分析:信用卡逾期数据集
 - 5.2 创建基准机器学习流水线
 - 5.3 特征选择的类型
 - 5.3.1 基于统计的特征选择
 - 5.3.2 基于模型的特征选择
 - 5.4 选用正确的特征选择方法
 - 5.5 小结
 - 第6章 特征转换:数学显神通
 - 6.1 维度缩减:特征转换、特征选择与特征构建
 - 6.2 主成分分析
 - 6.2.1 PCA的工作原理
 - 6.2.2 鸢尾花数据集的PCA——手动处理
 - 6.2.3 scikit-learn的PCA
 - 6.2.4 中心化和缩放对PCA的影响
 - 6.2.5 深入解释主成分
 - 6.3 线性判别分析
 - 6.3.1 LDA的工作原理
 - 6.3.2 在scikit-learn中使用LDA
 - 6.4 LDA与PCA:使用鸢尾花数据集
 - 6.5 小结
 - 第7章 特征学习:以AI促AI
 - 7.1 数据的参数假设
 - 7.1.1 非参数谬误
 - 7.1.2 本章的算法
 - 7.2 受限玻尔兹曼机
 - 7.2.1 不一定降维
 - 7.2.2 受限玻尔兹曼机的图
 - 7.2.3 玻尔兹曼机的限制
 - 7.2.4 数据重建
 - 7.2.5 MNIST数据集
 - 7.3 伯努利受限玻尔兹曼机
 - 7.3.1 从MNIST中提取PCA主成分
 - 7.3.2 从MNIST中提取RBM特征
 - 7.4 在机器学习流水线中应用RBM
 - 7.4.1 对原始像素值应用线性模型
 - 7.4.2 对提取的PCA主成分应用线性模型
 - 7.4.3 对提取的RBM特征应用线性模型
 - 7.5 学习文本特征:词向量
 - 7.5.1 词嵌入
 - 7.5.2 两种词嵌入方法:Word2vec和GloVe
 - 7.5.3 Word2vec:另一个浅层神经网络
 - 7.5.4 创建Word2vec词嵌入的gensim包
 - 7.5.5 词嵌入的应用:信息检索
 - 7.6 小结
 - 第8章 案例分析
 - 8.1 案例1:面部识别
 - 8.1.1 面部识别的应用
 - 8.1.2 数据
 - 8.1.3 数据探索
 - 8.1.4 应用面部识别
 - 8.2 案例2:预测酒店评论数据的主题
 - 8.2.1 文本聚类的应用
 - 8.2.2 酒店评论数据
 - 8.2.3 数据探索
 - 8.2.4 聚类模型
 - 8.2.5 SVD与PCA主成分
 - 8.2.6 潜在语义分析
 - 8.3 小结
 - 看完了
 
                        展开全部
                        
出版方
人民邮电出版社·图灵出品
图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。
