算法问题

最新推荐文章于 2023-02-07 07:15:00 发布

最新推荐文章于 2023-02-07 07:15:00 发布 · 178 阅读

·

0

·

linus 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一种快速求两个大型文本文件交集的方法。通过使用Unix命令如uniq、sort和uniq -d，可以在极短的时间内找出两个文件的共同元素。

今天碰到了一个问题：

有两个文本文件，一个有二百万的数据，一个有一百万的数据，我怎样求两个文本文件数据的交集呢？

1：我的思路首先是这样的，那少的数据（一百万的数据）逐个跟二百万的数据相比，相等的拿出来，然后我写了个小程序

跑了三个多小时，才出来五百多个。显然不能这样搞。

然后我们老大想了个算法，我真的很佩服：

1：首先把这两个数据去重，linus命令如下：uniq one.txt >one_uniq.txt, uniq two.txt>two_uniq.txt.

2: 然后把one_uniq.txt,two_uniq.txt放到一起取重复的，命令如下： cat one_uniq.txt two_uniq.txt|sort|uniq -d>result.txt

result.txt里的数据即为结果，一共花了不到五秒钟的时间，这就是差距啊。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。