人工智能
类型
6.2
豆瓣评分
可以朗读
语音朗读
313千字
字数
2018-02-01
发行日期
展开全部
主编推荐语
深度学习理论与工具解析,涵盖视觉、语音、NLP及高级话题。
内容简介
首先从模型、隐层、训练优化等方面讲解基本的深度学习理论;然后讲解目前最热门的深度学习开源工具,包括Torch、Theano、Caffe、TensorFlow等;然后从视觉、语音、NLP三面应用进一步解释深度学习;最后是一些比较高级的深度学习话题,比如多任务学习,多模学习、迁移学习、模型压缩、RCNN、FCNN等。
目录
- 封面
- 版权页
- 前言
- 目录
- 第1部分 深度学习基础篇
- 1 概述
- 1.1 人工智能
- 1.1.1 人工智能的分类
- 1.1.2 人工智能发展史
- 1.2 机器学习
- 1.2.1 机器学习的由来
- 1.2.2 机器学习发展史
- 1.2.3 机器学习方法分类
- 1.2.4 机器学习中的基本概念
- 1.3 神经网络
- 1.3.1 神经网络发展史
- 参考文献
- 2 神经网络
- 2.1 在神经科学中对生物神经元的研究
- 2.1.1 神经元激活机制
- 2.1.2 神经元的特点
- 2.2 神经元模型
- 2.2.1 线性神经元
- 2.2.2 线性阈值神经元
- 2.2.3 Sigmoid神经元
- 2.2.4 Tanh神经元
- 2.2.5 ReLU
- 2.2.6 Maxout
- 2.2.7 Softmax
- 2.2.8 小结
- 2.3 感知机
- 2.3.1 感知机的提出
- 2.3.2 感知机的困境
- 2.4 DNN
- 2.4.1 输入层、输出层及隐层
- 2.4.2 目标函数的选取
- 2.4.3 前向传播
- 2.4.4 后向传播
- 2.4.5 参数更新
- 2.4.6 神经网络的训练步骤
- 参考文献
- 3 初始化模型
- 3.1 受限玻尔兹曼机
- 3.1.1 能量模型
- 3.1.2 带隐藏单元的能量模型
- 3.1.3 受限玻尔兹曼机基本原理
- 3.1.4 二值RBM
- 3.1.5 对比散度
- 3.2 自动编码器
- 3.2.1 稀疏自动编码器
- 3.2.2 降噪自动编码器
- 3.2.3 栈式自动编码器
- 3.3 深度信念网络
- 参考文献
- 4 卷积神经网络
- 4.1 卷积算子
- 4.2 卷积的特征
- 4.3 卷积网络典型结构
- 4.3.1 基本网络结构
- 4.3.2 构成卷积神经网络的层
- 4.3.3 网络结构模式
- 4.4 卷积网络的层
- 4.4.1 卷积层
- 4.4.2 池化层
- 参考文献
- 5 循环神经网络
- 5.1 循环神经网络简介
- 5.2 RNN、LSTM和GRU
- 5.3 双向RNN
- 5.4 RNN语言模型的简单实现
- 参考文献
- 6 深度学习优化算法
- 6.1 SGD
- 6.2 Momentum
- 6.3 NAG
- 6.4 Adagrad
- 6.5 RMSProp
- 6.6 Adadelta
- 6.7 Adam
- 6.8 AdaMax
- 6.9 Nadam
- 6.10 关于优化算法的使用
- 参考文献
- 7 深度学习训练技巧
- 7.1 数据预处理
- 7.2 权重初始化
- 7.3 正则化
- 7.3.1 提前终止
- 7.3.2 数据增强
- 7.3.3 L2/L1参数正则化
- 7.3.4 集成
- 7.3.5 Dropout
- 参考文献
- 8 深度学习框架
- 8.1 Theano
- 8.1.1 Theano
- 8.1.2 安装
- 8.1.3 计算图
- 8.2 Torch
- 8.2.1 概述
- 8.2.2 安装
- 8.2.3 核心结构
- 8.2.4 小试牛刀
- 8.3 PyTorch
- 8.3.1 概述
- 8.3.2 安装
- 8.3.3 核心结构
- 8.3.4 小试牛刀
- 8.4 Caffe
- 8.4.1 概述
- 8.4.2 安装
- 8.4.3 核心组件
- 8.4.4 小试牛刀
- 8.5 TensorFlow
- 8.5.1 概述
- 8.5.2 安装
- 8.5.3 核心结构
- 8.5.4 小试牛刀
- 8.6 MXNet
- 8.6.1 概述
- 8.6.2 安装
- 8.6.3 核心结构
- 8.6.4 小试牛刀
- 8.7 Keras
- 8.7.1 概述
- 8.7.2 安装
- 8.7.3 模块介绍
- 8.7.4 小试牛刀
- 参考文献
- 第2部分 计算机视觉篇
- 9 计算机视觉背景
- 9.1 传统计算机视觉
- 9.2 基于深度学习的计算机视觉
- 9.3 参考文献
- 10 图像分类模型
- 10.1 LeNet-5
- 10.2 AlexNet
- 10.3 VGGNet
- 10.3.1 网络结构
- 10.3.2 配置
- 10.3.3 讨论
- 10.3.4 几组实验
- 10.4 GoogLeNet
- 10.4.1 NIN
- 10.4.2 GoogLeNet的动机
- 10.4.3 网络结构细节
- 10.4.4 训练方法
- 10.4.5 后续改进版本
- 10.5 ResNet
- 10.5.1 基本思想
- 10.5.2 网络结构
- 10.6 DenseNet
- 10.7 DPN
- 参考文献
- 11 目标检测
- 11.1 相关研究
- 11.1.1 选择性搜索
- 11.1.2 OverFeat
- 11.2 基于区域提名的方法
- 11.2.1 R-CNN
- 11.2.2 SPP-net
- 11.2.3 Fast R-CNN
- 11.2.4 Faster R-CNN
- 11.2.5 R-FCN
- 11.3 端到端的方法
- 11.3.1 YOLO
- 11.3.2 SSD
- 11.4 小结
- 参考文献
- 12 语义分割
- 12.1 全卷积网络
- 12.1.1 FCN
- 12.1.2 DeconvNet
- 12.1.3 SegNet
- 12.1.4 DilatedConvNet
- 12.2 CRF/MRF的使用
- 12.2.1 DeepLab
- 12.2.2 CRFasRNN
- 12.2.3 DPN
- 12.3 实例分割
- 12.3.1 Mask R-CNN
- 参考文献
- 13 图像检索的深度哈希编码
- 13.1 传统哈希编码方法
- 13.2 CNNH
- 13.3 DSH
- 13.4 小结
- 参考文献
- 第3部分 语音识别篇
- 14 传统语音识别基础
- 14.1 语音识别简介
- 14.2 HMM简介
- 14.2.1 HMM是特殊的混合模型
- 14.2.2 转移概率矩阵
- 14.2.3 发射概率
- 14.2.4 Baum-Welch算法
- 14.2.5 后验概率
- 14.2.6 前向-后向算法
- 14.3 HMM梯度求解
- 14.3.1 梯度算法1
- 14.3.2 梯度算法2
- 14.3.3 梯度求解的重要性
- 14.4 孤立词识别
- 14.4.1 特征提取
- 14.4.2 孤立词建模
- 14.4.3 GMM-HMM
- 14.5 连续语音识别
- 14.6 Viterbi解码
- 14.7 三音素状态聚类
- 14.8 判别式训练
- 参考文献
- 15 基于WFST的语音解码
- 15.1 有限状态机
- 15.2 WFST及半环定义
- 15.2.1 WFST
- 15.2.2 半环(Semiring)
- 15.3 自动机操作
- 15.3.1 自动机基本操作
- 15.3.2 转换器基本操作
- 15.3.3 优化操作
- 15.4 基于WFST的语音识别系统
- 15.4.1 声学模型WFST
- 15.4.2 三音素WFST
- 15.4.3 发音字典WFST
- 15.4.4 语言模型WFST
- 15.4.5 WFST组合和优化
- 15.4.6 组合和优化实验
- 15.4.7 WFST解码
- 参考文献
- 16 深度语音识别
- 16.1 CD-DNN-HMM
- 16.2 TDNN
- 16.3 CTC
- 16.4 EESEN
- 16.5 Deep Speech
- 16.6 Chain
- 参考文献
- 17 CTC解码
- 17.1 序列标注
- 17.2 序列标注任务的解决办法
- 17.2.1 序列分类
- 17.2.2 分割分类
- 17.2.3 时序分类
- 17.3 隐马模型
- 17.4 CTC基本定义
- 17.5 CTC前向算法
- 17.6 CTC后向算法
- 17.7 CTC目标函数
- 17.8 CTC解码基本原理
- 17.8.1 最大概率路径解码
- 17.8.2 前缀搜索解码
- 17.8.3 约束解码
- 参考文献
- 第4部分 自然语言处理篇
- 18 自然语言处理简介
- 18.1 NLP的难点
- 18.2 NLP的研究范围
- 19 词性标注
- 19.1 传统词性标注模型
- 19.2 基于神经网络的词性标注模型
- 19.3 基于Bi-LSTM的神经网络词性标注模型
- 参考文献
- 20 依存句法分析
- 20.1 背景
- 20.2 SyntaxNet技术要点
- 20.2.1 Transition-based系统
- 20.2.2 “模板化”技术
- 20.2.3 Beam Search
- 参考文献
- 21 word2vec
- 21.1 背景
- 21.1.1 词向量
- 21.1.2 统计语言模型
- 21.1.3 神经网络语言模型
- 21.1.4 Log-linear模型
- 21.1.5 Log-bilinear模型
- 21.1.6 层次化Log-bilinear模型
- 21.2 CBOW模型
- 21.3 Skip-gram模型
- 21.4 Hierarchical Softmax与Negative Sampling
- 21.5 fastText
- 21.6 GloVe
- 21.7 小结
- 参考文献
- 22 神经网络机器翻译
- 22.1 机器翻译简介
- 22.2 神经网络机器翻译基本模型
- 22.3 基于Attention的神经网络机器翻译
- 22.4 谷歌机器翻译系统GNMT
- 22.5 基于卷积的机器翻译
- 22.6 小结
- 参考文献
- 第5部分 深度学习研究篇
- 23 Batch Normalization
- 23.1 前向与后向传播
- 23.1.1 前向传播
- 23.1.2 后向传播
- 23.2 有效性分析
- 23.2.1 内部协移
- 23.2.2 梯度流
- 23.3 使用与优化方法
- 23.4 小结
- 参考文献
- 24 Attention
- 24.1 从简单RNN到RNN+Attention
- 24.2 Soft Attention与Hard Attention
- 24.3 Attention的应用
- 24.4 小结
- 参考文献
- 25 多任务学习
- 25.1 背景
- 25.2 什么是多任务学习
- 25.3 多任务分类与其他分类概念的关系
- 25.3.1 二分类
- 25.3.2 多分类
- 25.3.3 多标签分类
- 25.3.4 相关关系
- 25.4 多任务学习如何发挥作用
- 25.4.1 提高泛化能力的潜在原因
- 25.4.2 多任务学习机制
- 25.4.3 后向传播多任务学习如何发现任务是相关的
- 25.5 多任务学习被广泛应用
- 25.5.1 使用未来预测现在
- 25.5.2 多种表示和度量
- 25.5.3 时间序列预测
- 25.5.4 使用不可操作特征
- 25.5.5 使用额外任务来聚焦
- 25.5.6 有序迁移
- 25.5.7 多个任务自然地出现
- 25.5.8 将输入变成输出
- 25.6 多任务深度学习应用
- 25.6.1 脸部特征点检测
- 25.6.2 DeepID2
- 25.6.3 Fast R-CNN
- 25.6.4 旋转人脸网络
- 25.6.5 实例感知语义分割的MNC
- 25.7 小结
- 参考文献
- 26 模型压缩
- 26.1 模型压缩的必要性
- 26.2 较浅的网络
- 26.3 剪枝
- 26.4 参数共享
- 26.5 紧凑网络
- 26.6 二值网络
- 26.7 小结
- 参考文献
- 27 增强学习
- 27.1 什么是增强学习
- 27.2 增强学习的数学表达形式
- 27.2.1 MDP
- 27.2.2 策略函数
- 27.2.3 奖励与回报
- 27.2.4 价值函数
- 27.2.5 贝尔曼方程
- 27.2.6 最优策略性质
- 27.3 用动态规划法求解增强学习问题
- 27.3.1 Agent的目标
- 27.3.2 策略评估
- 27.3.3 策略改进
- 27.3.4 策略迭代
- 27.3.5 策略迭代的例子
- 27.3.6 价值迭代
- 27.3.7 价值迭代的例子
- 27.3.8 策略函数和价值函数的关系
- 27.4 无模型算法
- 27.4.1 蒙特卡罗法
- 27.4.2 时序差分法
- 27.4.3 Q-Learning
- 27.5 Q-Learning的例子
- 27.6 AlphaGo原理剖析
- 27.6.1 围棋与机器博弈
- 27.6.2 Alpha-Beta树
- 27.6.3 MCTS
- 27.6.4 UCT
- 27.6.5 AlphaGo的训练策略
- 27.6.6 AlphaGo的招式搜索算法
- 27.6.7 围棋的对称性
- 27.7 AlphaGo Zero
- 参考文献
- 28 GAN
- 28.1 生成模型
- 28.2 生成对抗模型的概念
- 28.3 GAN实战
- 28.4 InfoGAN——探寻隐变量的内涵
- 28.5 Image-Image Translation
- 28.6 WGAN(Wasserstein GAN)
- 28.6.1 GAN目标函数的弱点
- 28.6.2 Wasserstein度量的优势
- 28.6.3 WGAN的目标函数
- 参考文献
- A 本书涉及的开源资源列表
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。