科技
类型
可以朗读
语音朗读
220千字
字数
2018-09-01
发行日期
展开全部
主编推荐语
大数据下观点挖掘研究与挑战
内容简介
本书共分十二个章节。概述了大数据视角下的观点挖掘的相关研究与不足,提出了大数据环境下所面临的规模跨度、领域跨度以及语言跨度等挑战,从而引出了本书的研究问题。论述了大数据环境下观点挖掘的研究方法,揭示了本书的研究思路和研究框架,包括多领域多语言网络评论的下载、虚假评论的识别、产品名称和属性的识别、观点的极性判断、观点挖掘的领域适配、观点挖掘的语言适配、观点挖掘的规模适配、观点摘要、观点主题分析及可视化展示等。论述了虚假评论的识别问题。从评论利益相关者内容与行为特征相结合的角度出发,提出了一种基于个人、群体和商户的主体关系模型,包括虚假评论识别的行为指标体系、虚假评论者的主体关系建模、模型的参数确定、有效性评估以及模型的适应性分析等,并进行了相应的实证研究。
目录
- 目录
- 第一章 导论
- 第一节 观点挖掘:研究的兴起
- 第二节 从小数据到大数据:观点挖掘所面临的挑战
- 第三节 大数据环境下的规模跨度问题
- 一 潜在语义索引方法
- 二 佩奇排名方法
- 三 映射/规约架构
- 四 SQL与Hadoop相结合的方法
- 第四节 大数据环境下的领域跨度问题
- 一 共同特征选择
- 二 目标领域文档选择
- 三 查询词扩充
- 四 迁移学习
- 第五节 大数据环境下的语言跨度问题
- 一 多语词典构建
- 二 语料库对齐
- 三 用户反馈和用户行为
- 四 领域知识库对齐
- 第六节 本章结语
- 第二章 大数据环境下的观点挖掘研究方法
- 第一节 观点挖掘的形式化定义与研究思路
- 第二节 多领域多语言网络评论的下载
- 第三节 评论的过滤与分类
- 第四节 产品名称和产品属性识别
- 一 关联规则法
- 二 点互信息法
- 三 概率潜在语义分析法
- 四 潜在狄利克雷分布法
- 五 相关主题模型法
- 六 最大熵原理法
- 第五节 观点极性判断
- 一 基于WordNet的方法
- 二 基于连接词的方法
- 三 基于点互信息的方法
- 四 松弛标记法
- 五 条件随机场法
- 第六节 领域跨度下的观点挖掘
- 第七节 语言跨度下的观点挖掘
- 第八节 规模跨度下的观点挖掘
- 第九节 观点摘要、主题分析与可视化展示
- 第十节 本章结语
- 第三章 虚假评论识别
- 第一节 虚假评论识别的意义
- 第二节 虚假评论识别的相关研究
- 第三节 虚假评论识别的行为指标体系
- 一 评论个人行为的指标体系
- 二 评论者群体行为的指标体系
- 三 商家行为的指标体系
- 第四节 虚假评论识别的主体关系建模
- 一 商户—个人(M-U)关系模型
- 二个人—群体(U-G)关系模型
- 三 群体—商家(G-M)关系模型
- 四 虚假度迭代流程
- 第五节 虚假评论识别的实证研究
- 一 实验数据
- 二 参数确定及有效性评估
- 三 实验分析
- 四 与其他方法的对比分析
- 第六节 本章结语
- 第四章 产品名称识别
- 第一节 产品名称识别的问题描述
- 第二节 基于最大熵模型的产品名称识别
- 一 最大熵模型的理论基础
- 二 最大熵模型的参数估计算法
- 三 实验数据准备
- 四 最大熵模型的特征构建
- 五 最大熵模型的特征模板
- 六 特征生成
- 七 训练与测试
- 八 实验结果与分析
- 第三节 基于条件随机场模型的产品名称识别
- 一 利用条件随机场模型为产品名称识别问题建模
- 二 参数估计
- 三 模型求解
- 四 软件工具的选择
- 五 语料库构建
- 六 选取特征与特征模板
- 七 模型训练与测试
- 八 模板对产品名称识别效果的分析
- 九 语料库对产品名称识别效果的分析
- 十 与其他模型的识别效果比较
- 第四节 本章结语
- 第五章 产品属性识别
- 第一节 产品属性识别的问题描述
- 第二节 基于自组织映射的产品属性识别
- 一 自组织映射的原理
- 二 自定义的属性叠加矩阵及其原理
- 三 基于属性叠加矩阵的产品属性识别
- 四 网络数据收集
- 五 分词与词性标注
- 六 SOM输入矩阵的构造
- 七 SOM训练
- 八 SOM的输出分析
- 第三节 基于LDA模型的产品属性识别
- 一 LDA模型的原理
- 二 基于LDA模型的评论热点识别
- 三 数据预处理
- 四 输入向量的构造
- 五 模型求解
- 六 实验结果与分析
- 第四节 基于SVM模型的产品属性分类
- 一 支持向量机的原理
- 二 基于支持向量机的产品属性识别
- 三 网络数据收集
- 四 分词与词性标注
- 五 主观性标注与产品属性标注
- 六 输入矩阵的构建
- 七 模型的训练
- 八 实验结果及评价
- 第五节 本章结语
- 第六章 观点的情感分析
- 第一节 观点极性分析的问题描述
- 一 特征选择及特征权重的研究
- 二 基于统计与基于规则的情感分类方法
- 第二节 基于改进的TF-IDF权重算法的情感分类
- 一 特征选择方法
- 二 数据集
- 三 评价标准
- 四 数据预处理
- 五 使用支持向量机的情感分类结果
- 第三节 基于情感词典和规则的情感分类
- 一 情感类别
- 二 情感辞典的构建
- 三 分类规则
- 四 使用规则组合的情感分类实验
- 第四节 本章结语
- 第七章 观点挖掘的领域适配
- 第一节 相关研究
- 一 跨领域情感分析
- 二 循环神经网络
- 第二节 研究问题与方法
- 一 研究问题的形式化定义
- 二 CD-DRNN模型结构
- 三 对比方法
- 第三节 试验及分析
- 一 数据集
- 二 实验结果
- 三 讨论
- 第四节 本章结语
- 第八章 观点挖掘的语言适配
- 第一节 研究现状
- 一 基于机器翻译的方法
- 二 基于特征概率分布的方法
- 三 基于平行语料的方法
- 四 基于深度学习的方法
- 第二节 研究问题、模型与方法
- 一 研究问题及相关定义
- 二 先验特征的获取
- 三 模型结构
- 四 模型训练方式
- 第三节 实验及分析
- 一 数据集
- 二 比较方法
- 三 参数设置
- 四 实验结果
- 第四节 本章结语
- 第九章 观点挖掘的规模适配
- 第一节 规模适配问题的提出
- 第二节 规模适配平台
- 一 Hadoop平台
- 二 Spark平台
- 第三节 规模适配算法
- 一 并行决策树算法
- 二 并行逻辑回归算法
- 三 并行朴素贝叶斯算法
- 四 并行随机森林算法
- 五 并行支持向量机算法
- 第四节 实验及分析
- 一 数据集与实验环境设置
- 二 评价指标
- 三 实验结果
- 四 讨论
- 第五节 本章结语
- 第十章 观点摘要
- 第一节 信息抽取方法
- 一 图模型方法
- 二 篇章分析方法
- 三 结构模板方法
- 第二节 主题与语义分析方法
- 第三节 统计机器学习方法
- 第四节 深度学习方法
- 一 序列到序列神经网络模型
- 二 注意力机制
- 三 先验知识
- 四 语义相关性
- 第五节 本章结语
- 第十一章 观点主题分析
- 第一节 研究问题
- 第二节 相关研究
- 一 微博主题分析
- 二 微博时序分析
- 三 微博可视化分析
- 第三节 主题演化模式和时序趋势的方法设计
- 第四节 实验过程与结果分析
- 一 数据描述和预处理
- 二 英文埃博拉微博的主题分析
- 三 中文埃博拉微博的主题分析
- 第五节 本章结语
- 第十二章 总结与展望
- 参考文献
展开全部
出版方
中国社会科学出版社
中国社会科学出版社成立于1978年6月,是由中国社会科学院创办并主管的以出版人文社会科学学术著作为主的国家级出版社。1993年和1998年先后荣获中共中央宣传部和国家新闻出版总署授予的全国优秀出版社称号。1993年第一批荣获中共中央宣传部和国家新闻出版署授予的全国优秀出版社称号。