图像处理入门基础(OpenCV)

最新推荐文章于 2025-06-09 12:38:12 发布

原创

最新推荐文章于 2025-06-09 12:38:12 发布 · 2.8k 阅读

标签

#paddlepaddle #opencv #cv

本文介绍了OpenCV库的基础和进阶操作，包括图像处理的概念、像素、分辨率，以及如何加载和保存图片。进一步讲解了OpenCV的图像基本操作，如ROI、通道分割、颜色空间转换、阈值分割、几何变换和图像滤波。最后提到了Canny边缘检测、形态学操作，以及使用OpenCV处理摄像头和视频。文章适合图像处理初学者，旨在帮助理解OpenCV的基本功能和操作。

文章目录

图像处理入门基础(OpenCV)
引言
1. OpenCV库基础操作
2. OpenCV库进阶操作
3. 图像分类任务概念导入
4. PaddleClas数据增强代码解析与实战
5. 参考资料

图像处理入门基础(OpenCV)

引言

OpenCV是计算机视觉中经典的专用库，其支持多语言、跨平台，功能强大。OpenCV-Python为OpenCV提供了Python接口，使得使用者在Python中能够调用C/C++，在保证易读性和运行效率的前提下，实现所需的功能。

本章节主要介绍基于OpenCV的基础和进阶操作。

1. OpenCV库基础操作

图像处理的概念与基本操作

图片、GIF、视频

趣味视频项目

像素：画面中最小的点

分辨率=画面水平方向的像素值 * 画面垂直方向的像素值

屏幕分辨率

例如，屏幕分辨率是1024×768，也就是说设备屏幕的水平方向上有1024个像素点，垂直方向上有768个像素点。像素的大小是没有固定长度的，不同设备上一个单位像素色块的大小是不一样的。

例如，尺寸面积大小相同的两块屏幕，分辨率大小可以是不一样的，分辨率高的屏幕上面像素点（色块）就多，所以屏幕内可以展示的画面就更细致，单个色块面积更小。而分辨率低的屏幕上像素点（色块）更少，单个像素面积更大，可以显示的画面就没那么细致。

图像分辨率

例如，一张图片分辨率是500x200，也就是说这张图片在屏幕上按1:1放大时，水平方向有500个像素点（色块），垂直方向有200个像素点（色块）。

在同一台设备上，图片分辨率越高，这张图片1:1放大时，图片面积越大；图片分辨率越低，这张图片1:1缩放时，图片面积越小。（可以理解为图片的像素点和屏幕的像素点是一个一个对应的）。

但是，在屏幕上把图片超过100%放大时，为什么图片上像素色块也变的越大，其实是设备通过算法对图像进行了像素补足，我们把图片放的很大后看到的一块一块的方格子，虽然理解为一个图像像素，但是其实是已经补充了很多个屏幕像素；同理，把图片小于100%缩小时，也是通过算法将图片像素进行减少。

file

图像的基本概念

常见图片格式：jpg、png、gif、psd、tiff、bmp等
参考资料：几种常见图片格式的区别

使用OpenCV加载并保存图片

加载图片，显示图片，保存图片
OpenCV函数：cv2.imread(), cv2.imshow(), cv2.imwrite()

说明

大部分人可能都知道电脑上的彩色图是以RGB(红-绿-蓝，Red-Green-Blue)颜色模式显示的，但OpenCV中彩色图是以B-G-R通道顺序存储的，灰度图只有一个通道。

OpenCV默认使用BGR格式，而RGB和BGR的颜色转换不同，即使转换为灰度也是如此。一些开发人员认为R+G+B/3对于灰度是正确的，但最佳灰度值称为亮度（luminosity），并且具有公式：0.21R+0.72G+0.07*B

图像坐标的起始点是在左上角，所以行对应的是y，列对应的是x。

加载图片

使用cv2.imread()来读入一张图片：

参数1：图片的文件名
- 如果图片放在当前文件夹下，直接写文件名就行了，如’lena.jpg’
- 否则需要给出绝对路径，如’D:\OpenCVSamples\lena.jpg’
参数2：读入方式，省略即采用默认值
- cv2.IMREAD_COLOR：彩色图，默认值(1)
- cv2.IMREAD_GRAYSCALE：灰度图(0)
- cv2.IMREAD_UNCHANGED：包含透明通道的彩色图(-1)

经验之谈：路径中不能有中文噢，并且没有加载成功的话是不会报错的，print(img)的结果为None，后面处理才会报错，算是个小坑。

%matplotlib inline
import numpy as np
import cv2
import matplotlib.pyplot as plt

# 加载彩色图
img = cv2.imread('lena.jpg', 1)
# 将彩色图的BGR通道顺序转成RGB
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 显示图片
plt.imshow(img)

<matplotlib.image.AxesImage at 0x7ff1b039ef90>

在这里插入图片描述

# 打印图片的形状
print(img.shape)
# 形状中包括行数、列数和通道数
height, width, channels = img.shape
# img是灰度图的话：height, width = img.shape

(350, 350, 3)

# 加载灰度图
img = cv2.imread('lena.jpg', 0)
# 将彩色图的BGR通道顺序转成RGB
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
plt.imshow(img)
img.shape

(350, 350, 3)

在这里插入图片描述

# 加载彩色图
img = cv2.imread('lena.jpg', 1)
# 将彩色图的BGR通道直接转为灰度图
img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
plt.imshow(img,'gray')
img.shape

(350, 350)

在这里插入图片描述

# 加载灰度图
img = cv2.imread('lena.jpg', 0)
# 显示这张灰度图
plt.imshow(img,'gray')
img.shape

(350, 350)

在这里插入图片描述

# 查看一下plt.imshow的用法
# ?plt.imshow

# 加载四通道图片
img = cv2.imread('cat.png',-1)
# 将彩色图的BGR通道顺序转成RGB，注意，在这一步直接丢掉了alpha通道
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
plt.imshow(img)
img.shape

(2180, 1911, 3)

在这里插入图片描述

img = cv2.imread('cat.png',-1)
# 和上图对比一下
plt.imshow(img)
img.shape

(2180, 1911, 4)

在这里插入图片描述

# 加载彩色图
img = cv2.imread('cat.png',1)
# 不转颜色通道
plt.imshow(img)
img.shape

(2180, 1911, 3)

在这里插入图片描述

img = cv2.imread('cat.png', 1)
# 转颜色通道为RGB
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
plt.imshow(img)
img.shape

(2180, 1911, 3)

在这里插入图片描述

2. OpenCV库进阶操作

import math
import random
import numpy as np
%matplotlib inline
import cv2
import matplotlib.pyplot as plt

# 创建一副图片
img = cv2.imread('cat.png')
# 转换颜色通道
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

图像基本操作

学习ROI感兴趣区域，通道分离合并等基本操作。

ROI

ROI：Region of Interest，感兴趣区域。。

截取ROI非常简单，指定图片的范围即可

# 截取猫脸ROI
face = img[0:740, 400:1000]
plt.imshow(face)

<matplotlib.image.AxesImage at 0x7fe9482bca50>

在这里插入图片描述

通道分割与合并

彩色图的BGR三个通道是可以分开单独访问的，也可以将单独的三个通道合并成一副图像。分别使用cv2.split()和cv2.merge()：

# 创建一副图片
img = cv2.imread('lena.jpg')

# 通道分割
b, g, r = cv2.split(img)

# 通道合并
img = cv2.merge((b, g, r))

img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
plt.imshow(img)

<matplotlib.image.AxesImage at 0x7fe9157166d0>

在这里插入图片描述

RGB_Image=cv2.merge([b,g,r])
RGB_Image = cv2.cvtColor(RGB_Image, cv2.COLOR_BGR2RGB)
plt.figure(figsize=(12,12))
#显示各通道信息
plt.subplot(141)
plt.imshow(RGB_Image,'gray')
plt.title('RGB_Image')
plt.subplot(142)
plt.imshow(r,'gray')
plt.title('R_Channel')
plt.subplot(143)
plt.imshow(g,'gray')
plt.title('G_Channel')
plt.subplot(144)
plt.imshow(b,'gray')
plt.title('B_Channel')

Text(0.5,1,'B_Channel')

在这里插入图片描述

颜色空间转换

最常用的颜色空间转换如下：

RGB或BGR到灰度（COLOR_RGB2GRAY，COLOR_BGR2GRAY）
RGB或BGR到YcrCb（或YCC）（COLOR_RGB2YCrCb，COLOR_BGR2YCrCb）
RGB或BGR到HSV（COLOR_RGB2HSV，COLOR_BGR2HSV）
RGB或BGR到Luv（COLOR_RGB2Luv，COLOR_BGR2Luv）
灰度到RGB或BGR（COLOR_GRAY2RGB，COLOR_GRAY2BGR）

经验之谈：颜色转换其实是数学运算，如灰度化最常用的是：gray=R*0.299+G*0.587+B*0.114。

参考资料：OpenCV中的颜色空间

img = cv2.imread('lena.jpg')
# 转换为灰度图
img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# 保存灰度图
cv2.imwrite('img_gray.jpg', img_gray)

True

特定颜色物体追踪

HSV是一个常用于颜色识别的模型，相比BGR更易区分颜色，转换模式用COLOR_BGR2HSV表示。

经验之谈：OpenCV中色调H范围为[0,179]，饱和度S是[0,255]，明度V是[0,255]。虽然H的理论数值是0°~360°，但8位图像像素点的最大值是255，所以OpenCV中除以了2，某些软件可能使用不同的尺度表示，所以同其他软件混用时，记得归一化。

阈值分割

使用固定阈值、自适应阈值和Otsu阈值法"二值化"图像
OpenCV函数：cv2.threshold(), cv2.adaptiveThreshold()

固定阈值分割

固定阈值分割很直接，一句话说就是像素点值大于阈值变成一类值，小于阈值变成另一类值。

cv2.threshold()用来实现阈值分割，ret是return value缩写，代表当前的阈值。函数有4个参数：

参数1：要处理的原图，一般是灰度图
参数2：设定的阈值
参数3：最大阈值，一般为255
参数4：阈值的方式，主要有5种，详情：ThresholdTypes
- 0: THRESH_BINARY 当前点值大于阈值时，取Maxval,也就是第四个参数，否则设置为0
- 1: THRESH_BINARY_INV 当前点值大于阈值时，设置为0，否则设置为Maxval
- 2: THRESH_TRUNC 当前点值大于阈值时，设置为阈值，否则不改变
- 3: THRESH_TOZERO 当前点值大于阈值时，不改变，否则设置为0
- 4:THRESH_TOZERO_INV 当前点值大于阈值时，设置为0，否则不改变

参考资料：基于opencv的固定阈值分割_自适应阈值分割

import cv2

# 灰度图读入
img = cv2.imread('lena.jpg', 0)
# 颜色通道转换
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 阈值分割
ret, th = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY)

plt.imshow(th)

<matplotlib.image.AxesImage at 0x7fe9154e9a10>

在这里插入图片描述

th[100]

array([[  0,   0,   0],
       [  0,   0,   0],
       [  0,   0,   0],
       ...,
       [255, 255, 255],
       [255, 255, 255],
       [255, 255, 255]], dtype=uint8)

# 应用5种不同的阈值方法
# THRESH_BINARY  当前点值大于阈值时，取Maxval,否则设置为0
ret, th1 = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY)
# THRESH_BINARY_INV 当前点值大于阈值时，设置为0，否则设置为Maxval
ret, th2 = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY_INV)
# THRESH_TRUNC 当前点值大于阈值时，设置为阈值，否则不改变
ret, th3 = cv2.threshold(img, 127, 255, cv2.THRESH_TRUNC)
# THRESH_TOZERO 当前点值大于阈值时，不改变，否则设置为0
ret, th4 = cv2.threshold(img, 127, 255, cv2.THRESH_TOZERO)
# THRESH_TOZERO_INV  当前点值大于阈值时，设置为0，否则不改变
ret, th5 = cv2.threshold(img, 127, 255, cv2.THRESH_TOZERO_INV)

titles = ['Original', 'BINARY', 'BINARY_INV', 'TRUNC', 'TOZERO', 'TOZERO_INV']
images = [img, th1, th2, th3, th4, th5]

plt.figure(figsize=(12,12))
for i in range(6):
    plt.subplot(2, 3, i + 1)
    plt.imshow(images[i], 'gray')
    plt.title(titles[i], fontsize=8)
    plt.xticks([]), plt.yticks([])

在这里插入图片描述

经验之谈：很多人误以为阈值分割就是二值化。从上图中可以发现，两者并不等同，阈值分割结果是两类值，而不是两个值。

自适应阈值

看得出来固定阈值是在整幅图片上应用一个阈值进行分割，它并不适用于明暗分布不均的图片。 cv2.adaptiveThreshold()自适应阈值会每次取图片的一小部分计算阈值，这样图片不同区域的阈值就不尽相同。它有5个参数，其实很好理解，先看下效果：

参数1：要处理的原图
参数2：最大阈值，一般为255
参数3：小区域阈值的计算方式
- ADAPTIVE_THRESH_MEAN_C：小区域内取均值
- ADAPTIVE_THRESH_GAUSSIAN_C：小区域内加权求和，权重是个高斯核
参数4：阈值方式（跟前面讲的那5种相同）
参数5：小区域的面积，如11就是11*11的小块
参数6：最终阈值等于小区域计算出的阈值再减去此值

建议读者调整下参数看看不同的结果。

# 自适应阈值对比固定阈值
img = cv2.imread('lena.jpg', 0)

# 固定阈值
ret, th1 = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY

最低0.47元/天解锁文章