本文节选自《这就是搜索引擎:核心技术详解》第三章
3.4建立索引
正如前述章节所述,索引结构如果建立好了,可以增加搜索的速度,那么给定一个文档集合,索引是如何建立起来的呢?建立索引的方式有很多种,本节叙述比较实用的三种建立索引的方法。
3.4.1两遍文档遍历法(2-Pass In-Memory Inversion)
顾名思义,此种方法需要对文档集合进行两遍扫描,图3-11是这种方法的示意图。值得注意的一点是:此种方法完全是在内存里完成索引的创建过程的,而另外两种方法则是通过内存和磁盘相互配合来完成索引建立任务。


本文介绍了搜索引擎如何建立索引,主要包括两遍文档遍历法、排序法和归并法。两遍遍历法在内存中完成,适用于内存充足的情况。排序法分配固定内存,适合任意大小的文档集合,但需要对中间结果进行排序和合并。归并法每次将包括词典在内的所有中间结果写入磁盘,避免内存限制问题。
1万+

被折叠的 条评论
为什么被折叠?



