第一章——布尔检索
1.2 构建倒序索引
- 建立索引的主要步骤如下:
a. 收集需要建立索引的文档。
b. 将每篇文档转换成一系列词条 10 (token)的列表,这个过程通常称为词条化(tokenization)。
c. 进行语言学预处理,产生归一化的词条来做为词项。
d. 对所有文档按照其出现的词项来建立倒排索引,索引中包括一部词典和一个全体倒排记录表。
(ps:建立索引最核心的步骤是将这个词条列表按照词项的字母顺序进行排序。)
文档频率:出现该词项的文档数目。
通过排序和合并建立倒排索引的过程:(下图)

词典和倒排记录表都有存储开销。前者往往放在内存中,而后者由于规模大得多,通常放在磁盘上。
对于内存中的一个倒排记录表,可以采用两种好的存储方法,一个是单链表,另一个是变长数组。
本文详细介绍了布尔检索中的倒排索引构建过程,包括文档收集、词条化、语言学预处理和排序合并。倒排索引是搜索引擎关键技术,其中文档频率是重要概念。内存中的倒排记录表常采用单链表或变长数组存储。此技术对信息技术领域的信息检索至关重要。
&spm=1001.2101.3001.5002&articleId=123236664&d=1&t=3&u=56c23255f9074912b689fea6ee17fad7)
2257

被折叠的 条评论
为什么被折叠?



