kornia库ssim使用，Invalid image shape

原创

已于 2024-03-22 17:22:15 修改 · 1.1k 阅读

标签

#python #opencv #计算机视觉

收录于

于 2024-03-22 10:17:19 首次发布

文章讲述了在深度学习和计算机视觉中，为何需要将图像张量转换为四维张量，以适应批量处理和神经网络的输入需求。还提及了`Invalidimageshape`错误及如何使用kornia库进行四维张量处理，以及如何使用SSIM函数比较图片的示例代码。

一、图像张量转四维

将图像张量转换为四维张量的原因-训练神经网络 - 知乎

img1 = cv2.imread('OCT3.png') #读入一张图像
img1 = cv2.resize(img1,(256,256)) #修改尺寸为256*256
img1 = np.array(img1)
tensor = transforms.ToTensor()
img_tensor = tensor(img1) #转化成张量形式，此时的shape是（3，256，256）
img_tensor1 = img_tensor.unsqueeze(0) #有时候需要四维张量运算，把三维变成四维，此时的shape是（1，3，256，256）

将numpy类型转换为tensor类型:[h, w, c]->[c, h, w]

还要将tensor类型转换成四维张量:[c, h, w]->[b, c, h, w] 这是什么原因呢？

其实在深度学习和计算机视觉中，将图像张量转换为四维张量的原因主要与批量处理和神经网络的输入要求有关。以下是详细解释：

批量处理：在训练神经网络时，通常一次处理多个图像，这称为批量处理。批量处理可以提高计算效率，因为在许多情况下，矩阵运算可以在现代硬件（如GPU）上并行执行。因此，将多个图像组合成一个四维张量可以加速训练过程。四维张量的形状为 (B, C, H, W)，其中B是批量大小，表示同时处理的图像数量。
神经网络输入要求：大多数神经网络（尤其是卷积神经网络）在设计时就考虑了批量处理。这意味着它们的输入要求通常是四维张量，即使您只处理单个图像，也需要将其转换为四维张