海量数据实战 从50亿数据中找出相同的URL
**问题:**给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?
目录:
文章目录
Step 1 产生50亿 URL
Step 2 将50亿URL大文件哈希为10000个小文件
Step 2.1 字符串哈希函数BKDRHash
Step 2.2 获取文件大小
Step 2.3 获取某一目录下指定后缀的所有文件
Step 3 使用set将小文件进行求交操作,最终得到相同URL
方案1:每个文..





