什么是词项索引（Inverted Index）

AI解读 14小时前硕雀

4 0 0

什么是词项索引（Inverted Index）

一、基本定义

词项索引（Inverted Index），又称倒排索引、反向索引或倒排文件，是一种用于高效检索文档中特定词汇的数据结构。它的核心思想是将每个词项映射到包含该词项的文档列表，与传统的"文档→词项"的正向索引相反。

二、核心原理

索引类型	映射关系	特点
正向索引	文档ID → 词项列表	适合获取文档的全部内容
倒排索引	词项 → 文档ID列表	适合按关键词快速查找文档

倒排索引将传统的"文档-词汇"顺序索引倒过来，形成"词汇-文档"的对照表。例如：

传统索引：文档A包含[快速、棕色、狐狸]
倒排索引：[快速 → 文档A, 文档B]，[棕色 → 文档A, 文档C]

三、结构组成

倒排索引主要由两个部分组成：

┌─────────────────────────────────────┐
│       倒排索引结构                   │
├─────────────────────────────────────┤
│ 词典 (Dictionary)                   │
│ ┌─────────┐    倒排列表 (Posting)   │
│ │ apple   │ → [doc1, doc3, doc5]    │
│ │ banana  │ → [doc2, doc4]          │
│ │ cherry  │ → [doc5, doc7, doc9]    │
└─────────┴───────────────────────────┘

词典（Dictionary）‍：存储所有唯一的词项
倒排列表（Posting List）‍：存储每个词项出现的文档ID列表，通常还包含词项在文档中的位置信息

四、构建过程

倒排索引的构建通常包括三个核心步骤：

文档集合
    ↓
【1. 文本预处理】→ 去除停用词、大小写统一、词干提取等
    ↓
【2. 分词】→ 将文本分割成独立的词项
    ↓
【3. 建立词典和倒排记录表】→ 构建最终索引

示例：假设有三个文档

Doc1: "quick brown fox"
Doc2: "lazy dog"
Doc3: "quick brown dog"

构建后得到：

"quick" → [1, 3]
"brown" → [1, 3]
"fox" → [1]
"lazy" → [2]
"dog" → [2, 3]

五、类型分类

倒排索引有多种表现形式：

类型	格式	说明
倒排文件索引	{词项，文档ID列表}	最基础形式
完整倒排索引	{词项，(文档ID, 位置)}	包含词项在文档中的具体位置
带词频的倒排索引	{词项，(文档ID, 词频)}	包含词频信息，用于相关性排序

六、应用场景

倒排索引是搜索引擎和全文检索系统的核心技术：

搜索引擎：Google、Bing等搜索引擎的核心数据结构
全文检索系统：Elasticsearch、Solr等
数据库搜索：SQL数据库中的全文搜索功能
电商搜索：商品搜索、筛选等功能
信息检索系统：学术论文检索、文档管理系统

七、优势与特点

检索速度快：无需遍历整个文档集合，直接定位包含关键词的文档
存储效率高：只存储词项与文档的关系，无需重复存储文档内容
支持布尔查询：便于实现AND、OR等组合查询
支持相关性排序：可通过词频（TF）、文档频率（DF）等计算词项权重

八、实际示例

以三个英文文档为例：

T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"

倒排索引结果为：

"a"     → {2}
"banana" → {2}
"is"    → {0, 1, 2}
"it"    → {0, 1, 2}
"what"  → {0, 1}

当用户查询"what is it"时，系统只需对{0,1} ∩ {0,1,2} ∩ {0,1,2} = {0,1}求交集即可得到结果。

九、总结

词项索引（倒排索引）是信息检索领域最重要的数据结构之一。它通过"词项→文档"的映射方式，解决了大规模文档集合中关键词快速定位的问题，是现代搜索引擎不可或缺的基础技术。其设计思想简单而高效，在Web搜索、电商推荐、数据分析等众多领域都有广泛应用。

Inverted Index 倒排索引反向索引词项索引

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是词项索引（Inverted Index）