Universal Hashing全域哈希原理与python实现，减少hash冲突/碰撞！

最新推荐文章于 2025-08-11 07:37:03 发布

原创

最新推荐文章于 2025-08-11 07:37:03 发布 · 置顶 · 6.2k 阅读

标签

#python #哈希 #hashing #universal #算法

收录于

本文深入探讨了全域哈希的原理与应用，介绍了hash函数的基本概念，详细解析了全域哈希法如何通过随机选择hash函数来降低碰撞概率，确保hash表中元素分布的均匀性。同时，提供了python实现代码，帮助读者理解全域哈希的实际操作。

全域哈希原理与实现

1-hash哈希介绍

hash函数 $y = h (k)$ ，把任意长度的输入 $k$ 通过散列算法 $h$ 变换成固定长度的输出 $y$ ，该输出就是散列值¹。一种常见的hash函数是 $y=H(k)=(a\cdot k+b) \mod m$ ， $m$ 一般取素数。
设hash函数的定义域为 $K$ ，值域为 $Y$ ，一般来说， $∣ K ∣ > ∣ Y ∣$ ，这样hash函数容易出现碰撞，如下图， $h(k_5)=h(k_2)=h(k_7)$ ， $k_5,k_2,k_7$ 在一条链上（碰撞）：

在这里插入图片描述
对于hash函数，基本上都能找到一组输入，使得它们的hash值都相同，导致它们在一条链上，有时甚至会比线性查找的复杂度还要高，因为比线性查找多了hash的时间。

2-Universal hashing全域哈希法

思路：解决上述问题的一种方法就是随机。随机从一组hash函数（a family of hash functions）中选择一个。这样选的话，攻击者就没办法针对特定的hash函数构造一组输入，使得hash函数效率很低。

定义1： $\mathcal{U}$ 是定义域， $\mathcal{H}$ 是hash函数的集合，能够将 $\mathcal{U}$ 映射到 ${0, 1, ..., m-1\}$ ，即 $h:\mathcal{U}\rightarrow\{0, 1, ..., m-1\}, h\in \mathcal{H}$ .