TOP K问题

最新推荐文章于 2025-06-26 15:53:37 发布

原创最新推荐文章于 2025-06-26 15:53:37 发布 · 253 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#TOP K #算法

本文探讨了从海量数据中选取前K个最大数值的多种算法，包括暴力法、局部淘汰法、Hash法及最小堆法，对比了各种方法的时间与空间复杂度，提出了一种优化方案，即将数据分组处理后再合并结果。

问题：从大量数据中取出前K个数

堆解决方案：先拿10000个数建堆，然后一次添加剩余元素，如果大于堆顶的数（10000中最小的），将这个数替换堆顶，并调整结构使之仍然是一个最小堆，这样，遍历完后，堆中的10000个数就是所需的最大的10000个。
优化：可以把所有10亿个数据分组存放，比如分别放在1000个文件中。这样处理就可以分别在每个文件的10^6个数据中找出最大的10000个数，合并到一起在再找出最终的结果。
解决方法：
1、暴力法。将数据全部排序，然后在排序后的集合中进行查找，最快的排序算法的时间复杂度一般为O（nlogn），如快速排序。一般不采用，内存损失太多，不然就是时间复杂度很高。

2、局部淘汰法，该方法与排序方法类似，用一个容器保存前10000个数，然后将剩余的所有数字——与容器内的最小数字相比，如果所有后续的元素都比容器内的10000个数还小，那么容器内这个10000个数就是最大10000个数。如果某一后续元素比容器内最小数字大，则删掉容器内最小元素，并将该元素插入容器，最后遍历完这1亿个数，得到的结果容器中保存的数即为最终结果了。此时的时间复杂度为O（n+m^2），其中m为容器的大小，即10000。

3、Hash法（适用于重复数多的情况）。如果这1亿个书里面有很多重复的数，先通过Hash法，把这1亿个数字去重复，这样如果重复率很高的话，会减少很大的内存用量，从而缩小运算空间，然后通过最小堆法查找最大的10000个数。

4、、最小堆法。首先读入前10000个数来创建大小为10000的最小堆，建堆的时间复杂度为O（m）（自下而上的构建，m为数组的大小即为10000），然后遍历后续的数字，并于堆顶（最小）数字进行比较。如果比最小的数小，则继续读取后续数字；如果比堆顶数字大，则替换堆顶元素并重新调整堆为最小堆。整个过程直至1亿个数全部遍历完为止。然后按照中序遍历的方式输出当前堆中的所有10000个数字。该算法的时间复杂度为O（n^2），空间复杂度是10000（常数）。