1. 介绍
感知哈希算法(Perceptual Hash Algorithm,简称pHash) 是哈希算法的一种,主要可以用来做以图搜索/相似图片搜索工作。
2. 原理
感知哈希算法(pHash)首先将原图像缩小成一个固定大小的像素图像,然后将图像转换为灰度图像,通过使用离散余弦变换(DCT)来获取频域信息。然后,根据DCT系数的均值生成一组哈希值。最后,利用两组图像的哈希值的汉明距离来评估图像的相似度。
魔法: 概括地讲,感知哈希算法一共可细分八步:
- 缩小图像: 将目标图像缩小为一个固定的大小,通常为32x32像素。作用是去除各种图像尺寸和图像比例的差异,只保留结构、明暗等基本信息,目的是确保图像的一致性,降低计算的复杂度。
- 图像灰度化: 将缩小的图像转换为灰度图像。
- 离散余弦变换(DCT): 感知哈希算法的核心是应用离散余弦变换。DCT将图像从空间域(像素级别)转换为频域,得到32×32的DCT变换系数矩阵,以捕获图像的低频信息。
- 缩小DCT: 经过DCT变换后,图像的频率特征集中在图像的左上角,保留系数矩阵左上角的8×8系数子矩阵(因为虽然DCT的结果是32×32大小的矩阵,但左上角8×8的矩阵呈现了图片中的最低频率)。
- 计算灰度均值: 计算DCT变换后图像块的均值,以便后面确定每个块的明暗情况。
- 生成二进制哈希值: 如果块的DCT系数高于均值,表示为1,否则表示为0(由于我们只提取了DCT矩阵左上角的8×8系数子矩阵,所以,最后会得到一个64位的二进制值(8x8像素的灰度图像))。
- 生成哈希值: 由于64位二进制值太长,所以按每4个字符为1组,由2进制转成16进制。这样就转为一个长度为16的字符串。这个字符串也就是这个图像可识别的哈希值,也叫图像指纹,即这个图像所包含的特征。
- 哈希值比较: 通过比较两个图像的哈希值的汉明距离(Hamming Distance),就可以评估图像的相似度,距离越小表示图像越相似。
3. 实验
第一步:缩小图像
将目标图像缩小为一个固定的大小,通常为32x32像素。作用是去除各种图像尺寸和图像比例的差异,只保留结构、明暗等基本信息,目的是确保图像的一致性,降低计算的复杂度。
1)读取原图
# 测试图片路径
img_path = 'img_test/apple-01.jpg'
# 通过OpenCV加载图像
img = cv2.imread(img_path)
# 通道重排,从BGR转换为RGB
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

2)缩放原图
使用 OpenCV 的 resize 函数将图像缩放为32x32像素。
# 缩小图像:使用OpenCV的resize函数将图像缩放为32x32像素,采用Cubic插值方法进行图像重采样
img_32 = cv2.resize(img, (32, 32), cv2.INTER_CUBIC)

OpenCV 的 cv2.resize() 函数提供了4种插值方法,以根据图像的尺寸变化来进行图像重采样。
- cv2.INTER_NEAREST: 最近邻插值,也称为最近邻算法。它简单地使用最接近目标像素的原始像素的值。虽然计算速度快,但可能导致图像质量下降。
- cv2.INTER_LINEAR: 双线性插值,通过对最近的4个像素进行线性加权来估计目标像素的值。比最近邻插值更精确,但计算成本略高。
- cv2.INTER_CUBIC: 双三次插值,使用16个最近像素的加权平均值来估计目标像素的值。通常情况下,这是一个不错的插值方法,适用于图像缩小。
- cv2.INTER_LANCZOS4: Lanczos插值,一种高质量的插值方法,使用Lanczos窗口函数。通常用于缩小图像,以保留图像中的细节和纹理。
第二步:图像灰度化
将缩小的图像转换为灰度图像。
# 图像灰度化:将彩色图像转换为灰度图像。
img_gray = cv2.cvtColor(img_32, cv2.COLOR_BGR2GRAY)
print(f"缩放32x32的图像中每个像素的颜色=\n{
img_gray}")
输出打印:
缩放32x32的图像中每个像素的颜色=
[[253 253 253 ... 253 253 253]
[253 253 253 ... 253 253 253]
[253 253 253 ... 253 253 253]
...
[253 253 253 ... 253 253 253]
[253 253 253 ... 253 253 253]
[253 253 253 ... 253 253 253]]

第三步:离散余弦变换(DCT)
感知哈希算法的核心是应用离散余弦变换。DCT将图像从空间域(像素级别)转换为频域,得到32×32的DCT变换系数矩阵,以捕获图像的低频信息。这里我们使用 OpenCV 的 cv2.dct 函数来执行DCT。
# 离散余弦变换(DCT):计算图像的DCT变换,得到32×32的DCT变换系数矩阵
img_dct = cv2.dct(np.float32(img_gray))
print(f"灰度图像离散余弦变换(DCT)={
img_dct}")
这行代码执行了离散余弦变换(DCT),它将图像数据从空间域(像素级别)转换为频域,以便在频域上分析图像。
- cv2.dct: 这是 OpenCV 库中的函数,用于执行离散余弦变换。DCT是一种数学变换,类似于傅里叶变换,它将图像分解为不同频率的分量。
- np.float32(img_gray): 这是将灰度图像 img_gray 转换为32位浮点数的操作。DCT通常需要浮点数作为输入。
- img_dct: 这是存储DCT变换后结果的变量。在执行DCT后,img_dct 将包含图像的频域表示。
基于DCT的图像感知哈希算法是一种能够有效感知图像全局特征的算法,将图片认为是一个二维信号,包含了表现大范围内的亮度变化小的低频部分与局部范围亮度变化剧烈的高频部分,而高频部分一般存在大量的冗余和相关性。通过DCT变换,可以将高能量信息集中到图像的左上角区域。可以理解为图像的特征频率区域。
# 离散余弦变换(DCT):计算图像的DCT变换,得到32×32的DCT变换系数矩阵
img_dct = cv2.dct(np.float32(img_gray))
print(f"灰度图像离散余弦变换(DCT)={
img_dct}")
# 缩放DCT系数
dct_scaled = cv2.normalize(img_dct, None, 0, 255, cv2.NORM_MINMAX)
img_dct_scaled = dct_scaled.astype(np.uint8)
# 显示DCT系数的图像
plt.imshow(img_dct_scaled, cmap='gray')
plt.show()
如下图,将图像进行DCT后得到其变换结果,图像左上角变化明显,而右下角几乎没有变化。

第四步:缩小DCT
经过DCT变换后,图像的频率特征集中在图像的左上角,保留系数矩阵左上角的8×8系数子矩阵(因为虽然DCT的结果是32×32大小的矩阵,但左上角8×8的矩阵呈现了图片中的最低频率)。
备注: 这里为什么要缩放DCT?以及其它缩放方式有哪些?不同缩放方式结果有何不同?不进行缩放DCT会怎么样?等等问题,我们在文末对比解答。
# 离散余弦变换(DCT):计算图像的DCT变换,得到32×32的DCT变换系数矩阵
img_dct = cv2.dct(np.float32(img_gray))
# print(f"灰度图像离散余弦变换(DCT)={img_dct}")
# 缩放DCT:将DCT系数的大小显式地调整为8x8,然后它计算调整后的DCT系数的均值,并生成哈希值。
img_dct.resize(8, 8)
# 缩放DCT系数
dct_scaled = cv2.normalize(dct_roi, None, 0, 255, cv2.NORM_MINMAX)
img_dct_scaled = dct_scaled.astype(np.uint8)
# 显示DCT系数的图像
plt.imshow(img_dct_scaled, cmap='gray')
plt.show()

第五步:计算灰度均值
计算DCT变换后图像块的均值,以便后面确定每个块的明暗情况。
# 计算灰度均值:计算DCT变换后图像块的均值
img_avg = np.mean(img_dct)
print(f"DCT变换后图像块的均值={
img_avg}")
输出打印:
DCT变换后图像块的均值=7.814879417419434
第六步:生成二进制哈希值
如果块的DCT系数高于均值,表示为1,否则表示为0。
由于我们只提取了DCT矩阵左上角的8×8系数子矩阵(图片特征频率区域),所以,最后会得到一个64位的二进制值(8x8像素的灰度图像)。
# 生成二进制哈希值
img_hash_str = ''
for i in range(8):
for j in range(8):
if img_dct[i, j] > img_avg:
img_hash_str += '1'
else:
img_hash_str += '0'
print


1万+

被折叠的 条评论
为什么被折叠?



