展开全部

主编推荐语

2600行代码,真实体验搜索引擎的开发过程!

内容简介

《自制搜索引擎》聚焦于Google和Yahoo!等Web搜索服务幕后的搜索引擎系统,首先讲解了搜索引擎的基础知识和原理,接着以现实中的开源搜索引擎Senna/Groonga为示例,使用该引擎的源代码引导读者亲自体验搜索引擎的开发过程。这部分讲解涉及了倒排索引的制作和压缩、检索的处理流程以及搜索引擎的优化等内容。又简单介绍了一些更加专业的搜索引擎的知识和要点,为读者今后进一步学习打下了基础。

目录

  • 版权信息
  • 版权声明
  • 声明
  • 译者序
  • 前言
  • 第1章 搜索引擎是如何工作的
  • 1-1 理解搜索引擎的构成
  • 1-2 实现了快速全文搜索的索引结构
  • 1-3 深入理解倒排索引
  • 1-4 制作中文文档的倒排索引
  • 1-5 实现倒排索引
  • 1-6 使用倒排索引进行检索
  • 1-7 构建倒排索引
  • 1-8 准备要检索的文档
  • 第2章 准备全文搜索引擎的检索样本
  • 2-1 全文搜索引擎 wiser
  • 2-2 安装 wiser
  • 2-3 运行 wiser
  • 第3章 构建倒排索引
  • 3-1 复习有关倒排索引的知识
  • 3-2 构建倒排索引
  • 第4章 开始检索吧
  • 4-1 检索处理的大致流程
  • 4-2 使用倒排索引进行检索
  • 第5章 压缩倒排索引
  • 5-1 压缩的基础知识
  • 5-2 实现wiser 中的压缩功能
  • 第6章 挑战wiser的优化及参数的调整
  • 6-1 提高检索处理的效率
  • 6-2 禁用短语检索
  • 6-3 改变检索结果的输出顺序
  • 6-4 让1 个字符的查询也能检索出结果
  • 6-5 调整控制倒排索引更新的缓冲区容量
  • 6-6 调整只有英文字母的词元的分割方法
  • 6-7 确认压缩的效果
  • 第7章 为今后更加深入的学习做准备
  • 7-1 wiser 没能实现的功能
  • 7-2 全文搜索引擎 Groonga 的特点
  • 7-3 实现出考虑到用户意图的搜索引擎
  • 7-4 收集、提取文档时的要点
  • 附录
  • A-1 深度话题
  • A-2 wiser 中的文本提取和存储
  • 后记
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社·图灵出品

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。