展开全部

主编推荐语

本书深入浅出、案例丰富,适合数据集成等方向的研究生阅读,也能为相关领域研究人员和开发人员提供重要参考。

内容简介

本书基于作者多年对数据集成的相关研究工作,从多角度阐述实体识别技术,主要包括相似度计算算法、实体识别的分块技术、典型的基于机器学习的实体识别技术和基于关系的实体记录识别技术,以及新型的实体识别技术(包括基于时间的实体识别技术、基于众包的实体识别、隐私保护下的实体识别)等内容。

目录

  • 版权信息
  • 丛书前言
  • 前言
  • 第1章 概述
  • 1.1 实体识别问题的提出
  • 1.2 实体识别研究的发展历史
  • 1.3 实体识别问题的描述
  • 1.4 实体识别的处理流程
  • 1.5 实体识别的挑战
  • 1.5.1 相似度衡量问题
  • 1.5.2 计算效率问题
  • 1.5.3 机器学习方法的应用问题
  • 1.5.4 关联对象的识别问题
  • 1.5.5 一些新的挑战
  • 1.5.6 实体识别评估
  • 1.6 实体识别的应用
  • 1.6.1 医疗卫生
  • 1.6.2 人口普查
  • 1.6.3 客户关系管理
  • 1.6.4 网购比价
  • 1.6.5 犯罪及欺诈侦查
  • 1.6.6 关联的开放数据
  • 1.6.7 引文数据库
  • 1.7 本章小结
  • 参考文献
  • 第2章 相似度计算算法
  • 2.1 基于字段的相似度算法
  • 2.1.1 Jaccard相似度算法
  • 2.1.2 基于TF-IDF的相似度算法
  • 2.1.3 基于q-grams的相似度算法
  • 2.2 基于编辑距离的相似度算法
  • 2.2.1 Levenshtein距离算法
  • 2.2.2 Jaro和Jaro-Winkler距离算法
  • 2.3 混合的相似度算法
  • 2.3.1 扩展的Jaccard相似度算法
  • 2.3.2 Monge-Elkan相似度算法
  • 2.3.3 Soft TF-IDF相似度算法
  • 2.4 数值型数据相似度算法
  • 2.4.1 数字型相似度算法
  • 1.精确距离算法
  • 2.范围距离算法
  • 2.4.2 日期型相似度算法
  • 2.4.3 价格型相似度算法
  • 2.5 本章小结
  • 参考文献
  • 第3章 实体识别的分块技术
  • 3.1 引言
  • 3.1.1 数据分块技术的应用
  • 3.1.2 实体识别数据分块问题定义与算法分类
  • 1.数据分块问题定义
  • 2.数据分块算法分类
  • 3.2 分块键
  • 3.2.1 分块键的定义
  • 1.属性相似性分类
  • 2.影响分块键定义的要素
  • 3.分块键定义的方法
  • 3.2.2 分块键的编码
  • 3.3 基于等值匹配的分块算法
  • 3.3.1 标准分块方法
  • 3.3.2 基于学习的分块键定义
  • 3.4 基于相似性的分块算法
  • 3.4.1 基于排序的分块方法
  • 1.基于排序分块方法的原理
  • 2.改进的基于排序分块方法
  • 3.4.2 基于字符串分割的分块方法
  • 1.基于q-grams的分块方法
  • 2.基于后缀队列的分块方法
  • 3.4.3 基于MinHash的分块方法
  • 1.MinHash方法原理
  • 2.基于MinHash的记录分块
  • 3.4.4 基于Canopy聚类的分块方法
  • 1.Canopy聚类分块方法原理
  • 2.Canopy聚类分块方法的两种策略对比
  • 3.4.5 基于前缀过滤的分块方法
  • 1.基于前缀过滤分块方法的原理
  • 2.基于前缀过滤分块方法的改进
  • 3.5 本章小结
  • 参考文献
  • 第4章 基于机器学习的实体识别方法
  • 4.1 基于分类器的实体识别方法
  • 4.1.1 基于决策树的实体识别方法
  • 1.一个实例
  • 2.基于决策树的实体识别算法
  • 4.1.2 基于贝叶斯分类器的实体识别方法
  • 1.一个实例
  • 2.基于贝叶斯分类器的实体识别算法
  • 4.1.3 基于SVM的实体识别方法
  • 1.一个实例
  • 2.基于SVM的实体识别算法
  • 4.1.4 基于主动学习的实体识别方法
  • 1.一个实例
  • 2.基于主动学习的实体识别算法
  • 4.1.5 其他方法
  • 4.2 基于概率图模型的实体识别方法
  • 4.2.1 基于马尔可夫逻辑网络的实体识别方法
  • 1.一个实例
  • 2.基于马尔可夫逻辑网络的实体识别算法
  • 4.2.2 基于条件随机场的实体识别方法
  • 1.一个实例
  • 2.基于条件随机场的实体识别算法
  • 4.3 本章小结
  • 参考文献
  • 第5章 基于关系的实体识别方法
  • 5.1 引言
  • 5.2 联合式实体识别方法
  • 5.2.1 基于关系聚类的联合式实体识别方法
  • 1.一个实例
  • 2.基于关系聚类的、迭代的联合式实体识别方法
  • 5.2.2 复杂信息空间中的联合式实体识别方法
  • 1.一个实例
  • 2.面向复杂信息空间的联合式实体识别方法
  • 5.3 基于实体关系的消歧方法
  • 5.3.1 基于社交关系的名字消歧方法
  • 5.3.2 基于实体关系的实体消歧方法
  • 1.一个实例
  • 2.相关概念
  • 3.基于实体关系的实体消歧方法——RelDC
  • 5.3.3 基于异构实体关系的实体消歧方法
  • 1.一个实例
  • 2.基于异构实体关系的实体消歧方法——DISTINCT
  • 5.4 本章小结
  • 参考文献
  • 第6章 新型的实体识别技术
  • 6.1 引言
  • 6.2 基于时间模型的实体识别技术
  • 6.2.1 一个实例
  • 6.2.2 时间模型
  • 1.时间衰减模型
  • 2.实体突变模型
  • 3.条件概率模型
  • 4.属性值转换模型
  • 6.2.3 基于时间模型的实体识别算法
  • 1.基于时间衰减模型的实体识别算法
  • 2.基于条件概率模型的实体识别算法
  • 3.基于属性值转换模型的实体识别算法
  • 6.3 基于众包的实体识别技术
  • 6.3.1 一个实例
  • 6.3.2 基于众包的实体识别框架
  • 1.基于众包的基本实体识别框架
  • 2.结合多众包处理步骤的实体识别框架
  • 6.3.3 基于众包的实体识别的核心问题
  • 1.候选匹配对选择
  • 2.众包策略选择
  • 3.匹配结果确定
  • 6.3.4 基于众包的实体识别方法的特点
  • 1.高准确率
  • 2.高代价
  • 3.适应性好
  • 6.4 隐私保护下的实体识别技术
  • 6.4.1 实体匹配中隐私保护的分类
  • 1.数据扰乱技术
  • 2.数据重构技术
  • 3.数据加密技术
  • 6.4.2 实体识别隐私保护算法的评估
  • 1.隐私保护程度评估
  • 2.实体识别结果评估
  • 6.5 本章小结
  • 参考文献
  • 第7章 实体识别评估
  • 7.1 基于记录对的精确性评价 ——准确率、召回率和F测度
  • 7.2 分块技术评价
  • 7.3 常用数据集
  • 7.3.1 真实数据集
  • 7.3.2 数据生成工具
  • 7.4 本章小结
  • 参考文献
  • 第8章 总结与展望
  • 8.1 实体识别研究总结
  • 8.2 新型实体识别研究展望
  • 8.2.1 基于时间模型的实体识别
  • 8.2.2 基于众包的实体识别
  • 1.在任务生成方面
  • 2.在任务分解方面
  • 3.在任务结果处理方面
  • 8.2.3 隐私保护下的实体识别
  • 1.现有PPRL方法可扩展性差,无法应用于大数据集
  • 2.现有PPRL方法容错性差
  • 3.现有PPRL方法还只局限于两个数据源
  • 8.3 研究挑战
  • 1.数据缺失处理
  • 2.多数据源的识别
  • 3.分布式实体识别
展开全部

评分及书评

评分不足
1个评分
  • 用户头像
    给这本书评了
    5.0

    在大数据时代,数据驱动的数据分析与挖掘已成为各领域决策的客观依据。然而,由于不同的数据源有不同的描述实体的方式,并且可能存在拼写错误、缩写方式不同、描述格式不同、属性值缺失、属性值随着时间演化等特点,导致描述真实世界同一实体的不同数据对象存在差异。实体识别将一个或多个数据源中描述真实世界同一实体的数据对象识别出来,提升集成的大数据资源的质量。

      转发
      评论

    出版方

    机械工业出版社有限公司

    机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。