数字图像处理(4版)——第1章——引言(Rafael C.Gonzalez&Richard E. Woods)

一个图像可以定义为一个二维函数f (x ,y),其中，x和y是空间(平面)坐标，并且称f 在任意坐标对(x ,y)的幅度值(amplitude)为图像在那一点的强度(intensity)或者灰度等级(gray level),当所有 x ,y 和 f 的强度值都是有限离散量的时候，我们称这个图像是是一个数字图像(a digital image)。数字图像处理领域是指借助数字计算机对数字图像进行处理的领域。注意，一个数字图像有有限数量的元素构成，每一个元素有一个具体的位置和数值。称这些元素为图片元素(picture elements)、图像元素(images elements)、图元(images elements)和像素(pixels)。像素是用于表示数字图像元素的最广泛使用的术语。将在第二章考虑关于这些术语的更详细的定义。

人眼对图像的处理仅局限于电磁波谱(electromagnetic)的可见光部分，而图像机器处理几乎覆盖整个电磁波谱。包括超声波(ultrasound)、电子显微镜(electron microscopy)和计算机生成的图像。因此，数字图像处理涵盖了广泛而多样的应用领域。

图像处理(image processing)和计算机视觉(computer vision)没有明确的界限。而计算机视觉的终极目标是能够模仿人眼，并做出推断，这是人工智能(artificial intelligence)的一个分支，目前仍处于发展的早期阶段，比预期发展缓慢。图像分析(image analysis) (也称图像理解(image understanding))的领域介于图像处理和计算机视频之间。

从图像处理到计算机视觉这个连续统(continuum)一般分三个级别：从低级，中级，再到高级三个处理等级。低级处理涉及图像本身的基本操作，例如用于减少噪声的图像预处理、对比度增强和图像锐化。低级过程的特点是其输入和输出都是图像。图像的中级处理涉及诸如分割(将图像划分为区域或对象)、描述这些对象以将其简化为适合计算机处理的形式以及单个对象的分类(识别)等任务。中级过程的特点是其输入通常是图像，但其输出是从这些图像中提取的属性(例如边缘、轮廓和单个对象的身份)。最后进行更高级的处理涉及“理解”一组已识别的对象，如图像分析，并且在连续统的远端，执行通常与人类视觉相关的认知功能。

我们在本书中所说的数字图像处理涵盖了输入和输出都是图像的过程，此外还包括从图像中提取属性直至识别单个对象的过程。作为阐明这些概念的例证，请考虑文本自动分析领域。获取包含文本的区域的图像、预处理该图像、提取（分割）单个字符、以适合计算机处理的形式描述字符以及识别这些单个字符的过程都属于我们所说的本书中的图像处理。理解页面内容可能被视为属于图像分析甚至计算机视觉领域，具体取决于“理解”语句所暗示的复杂程度。数字图像处理通常用于具有特殊社会和经济价值的广泛领域。以下章节中提出的概念是这些应用领域中使用的方法的基础。

1.2 数字图像处理的起源

数字图像最早的应用之一是在报纸行业，当时照片首次通过伦敦和纽约之间的海底电缆进行发送。但当时类似这些应用不被视为数字图像处理结果，因为它们的创作中没有使用数字计算机。因此，数字图像处理的历史与数字计算机的发展密切相关。事实上，数字图像需要大量的存储和计算能力，数字图像处理领域的进步一直依赖于数字计算机和包括数据存储、显示和传输在内的支持技术的发展。

第一台功能强大、能够执行有意义的图像处理任务的计算机出现于 20 世纪 60 年代初。我们今天所说的数字图像处理的诞生可以追溯到这些机器的可用性，以及那个时期太空计划的开始。这两项发展的结合使人们关注数字图像处理解决实际问题的潜力。喷气推进实验室(加利福尼亚州帕萨迪纳)于 1964 年开始使用计算机技术改进太空探测器图像，当时计算机对 Ranger 7 号传输的月球图像进行处理，以纠正月球固有的各种类型的图像失真。机载电视摄像机。Ranger 7 获得的成像经验为改进方法奠定了基础，这些方法用于增强和恢复勘测者月球任务、水手系列飞越火星任务、阿波罗载人登月任务等图像。

与空间应用并行，数字图像处理技术于 20 世纪 60 年代末和 70 年代初开始应用于医学成像、远程地球资源观测和天文学。 20世纪70年代初发明的计算机轴向分片扫描(computerized axial tomography——CAT)，也简称计算机分片扫描(computerized tomography——CT )，是图像处理在医学诊断中应用的最重要事件之一。分片扫描技术由 Godfrey N. Hounsfield 爵士和 Allan M. Cormack 教授独立发明，他们因发明而共同获得 1979 年诺贝尔医学奖。有趣的是，X 射线由Wilhelm Conrad Roentgen 于 1895 年发现，并因此获得 1901 年诺贝尔物理学奖。这两项相隔近 100 年的发明催生了当今图像处理的一些最重要的应用。

从 20 世纪 60 年代至今，图像处理领域蓬勃发展。除了医学和太空计划中的应用之外，数字图像处理技术现在还具有广泛的应用。计算机程序用于增强对比度或将强度级别编码为颜色，以便更轻松地解释工业、医学和生物科学中使用的 X 射线和其他图像。地理学家使用相同或相似的技术来研究航空和卫星图像的污染模式。图像增强和恢复程序用于处理无法恢复的物体的退化图像，或过于昂贵而无法复制的实验结果。在考古学中，图像处理方法已经成功地恢复了模糊的图片。在物理学和相关领域，计算机技术通常会增强高能等离子体和电子显微镜等领域的实验图像。图像处理概念的类似成功应用可以在天文学、生物学、核医学、执法、国防和工业中找到。

数字图像处理技术的第二个主要应用领域是解决机器感知问题。通常，这些信息与人类用于解释图像内容的视觉特征几乎没有相似之处。机器感知中使用的信息类型的示例有统计矩(statistical moments)、Fourier变换系数和多维距离度量。通常使用图像处理的机器感知中的典型问题包括自动字符识别、用于产品组装和检查的工业机器视觉、军事识别、指纹自动处理、X射线和血液样本筛查以及用于天气预报和环境评估的航空和卫星图像的机器处理。计算机性价比的持续下降，以及通过互联网的网络和通信带宽的扩展，为数字图像处理的持续增长创造了前所未有的机会。

1.3 数字图像处理应用领域举例

如今，几乎所有技术领域都受到数字图像处理的某种程度的影响。对图像处理应用范围进行基本了解的最简单方法之一是根据图像来源(例如 X 射线、可见光、红外等)对图像进行分类。当今使用的图像的主要能源是电磁能谱。其他重要的能源包括声学、超声波和电子(电子显微镜中使用的电子束形式)。 用于建模和可视化的合成图像由计算机生成。

基于 EM (electromagnetic)光谱辐射的图像是最常见的，尤其是光谱中 X 射线和可见光波段的图像。电磁波可以被概念化为传播不同波长的正弦波，或者可以将它们视为无质量粒子流，每个粒子都以波状模式传播并以光速移动。每个无质量粒子都包含一定量（或束）的能量。每束能量称为一个光子(photon)。如果按照每个光子的能量对光谱带进行分组，我们就得到如图 1.5 所示的光谱，范围从一端的γ射线(最高能量)到另一端的无线电波(最低能量)。这些波段以阴影显示，以传达这样一个事实：电磁频谱的波段并不明显，而是从一个波段平滑地过渡到另一个波段。

--------------------------图 1.5. 根据每个光子的能量排列的电磁波谱---------------------------------

1.3.1 γ 射线所成图像

基于γ射线的成像的主要用途包括核医学和天文观测。在核医学中，方法是向患者注射放射性同位素，该同位素在衰变时会发射γ射线。图像是由γ射线探测器收集的辐射产生的。其原理与 X 射线分片扫描相同。然而，患者并没有使用外部 X 射线能量源，而是被给予放射性同位素，该同位素在衰变时会发射正电子。当正电子遇到电子时，两者都会湮灭，并发出两束γ射线。利用分片摄影的基本原理检测这些射线并创建分片摄影图像。

1.3.2 X 射线所成图像

X 射线是用于成像的最古老的电磁辐射源之一。 X 射线最著名的用途是医学诊断，但它们也广泛用于工业和天文学等其他领域。用于医疗和工业成像的 X 射线是使用 X 射线管产生的，X 射线管是具有阴极和阳极的真空管。阴极被加热，导致自由电子释放。这些电子高速流向带正电的阳极。当电子撞击原子核时，能量以 X 射线辐射的形式释放。 X 射线的能量(穿透力)由施加在阳极上的电压和施加在阴极灯丝上的电流控制。

血管造影术(angiography)是造影增强放射线摄影领域的另一个主要应用。此过程用于获取血管图像，称为血管造影。例如，将导管（一根小的、柔性的、中空的管）插入腹股沟的动脉或静脉中。将导管穿入血管并引导至要研究的区域。当导管到达检查部位时，X 射线造影剂通过管注入。这增强了血管的对比度，使放射科医生能够看到任何不规则或阻塞。

X 射线在医学成像中的另一个重要用途是计算机轴向分片扫描 (CAT)。由于其分辨率和 3D 功能，CAT 扫描自 20 世纪 70 年代初首次推出以来就彻底改变了医学。

更高能量的X 射线在工业领域有大量的应用。

1.3.3 紫外线所成图像

紫外线(ultraviolet)“光”的应用多种多样。它们包括光刻(lithography)、工业检查、显微镜、激光(lasers)、生物成像和天文观测。

紫外光用于荧光显微镜，这是显微镜发展最快的领域之一。荧光是十九世纪中叶发现的一种现象，当时人们首次观察到萤石矿物在紫外线照射下会发出荧光。 紫外线本身不可见，但当紫外线辐射的光子与荧光材料原子中的电子碰撞时，会将电子提升到更高的能级。 随后，受激电子弛豫到较低水平并在可见（红）光区域以较低能量光子的形式发射光。使用荧光显微镜执行的重要任务是使用激发光照射准备好的样本，然后将较弱的辐射荧光与较亮的荧光分开。因此，只有发射光到达眼睛或其他检测器。由此产生的荧光区域在深色背景下发光，具有足够的对比度以允许检测。非荧光材料的背景越深，仪器的效率越高。荧光显微镜是研究可发出荧光的材料的绝佳方法，无论是其天然形式(初级荧光)还是用能够发出荧光的化学品处理时的(次级荧光)。

1.3.4 可见光和红外波段所成图像

考虑到电磁频谱的可见波段是我们所有活动中最熟悉的，因此该波段的成像在应用广度方面远远超过所有其他波段也就不足为奇了。 红外波段通常与视觉成像结合使用，因此出于说明目的，我们在本节中将可见光和红外波段分组。我们在下面的讨论中考虑光学显微镜、天文学、遥感、工业和执法领域的应用。

视觉处理的另一个主要领域是遥感，它通常包括光谱的可见光和红外区域中的多个波段。人口中心的图像随着时间的推移用于评估人口增长和转移模式、污染和其他影响环境的因素。在这些图像中，可见光和红外图像特征之间的差异非常明显。

天气观测和预测也是卫星多光谱成像的主要应用。可见光谱成像的一个主要领域是制成品的自动目视检查。

1.3.5 微波频段所成图像

微波波段成像的主要应用是雷达。成像雷达的独特之处在于它能够随时随地收集几乎任何区域的数据，无论天气或环境照明条件如何。有些雷达波可以穿透云层，在某些条件下还可以穿透植被、冰和干沙。在许多情况下，雷达是探索地球表面难以到达的区域的唯一方法。 成像雷达(radar)的工作原理类似于闪光相机，它提供自己的“照明”(微波脉冲)来照亮地面上的某个区域并拍摄快照图像。雷达不使用相机镜头，而是使用天线和数字计算机处理来记录图像。在雷达图像中，人们只能看到反射回雷达天线的微波能量。

1.3.6 无线电频段所成图像

与光谱另一端(γ射线)成像的情况一样，无线电波段成像的主要应用是医学和天文学。 在医学上，无线电波用于磁共振成像(magnetic resonance imaging——MRI)。这项技术将患者置于强大的磁铁中，并使无线电波以短脉冲穿过患者的身体。每个脉冲都会导致患者组织发射响应的无线电波脉冲。这些信号的来源位置及其强度由计算机确定，计算机会生成患者某个部位的二维图像。MRI可以在任何平面上产生图像。

1.3.7 其它方式所成图像

尽管迄今为止电磁频谱成像占主导地位，但还有许多其他成像方式也很重要。具体来说，我们在本节中讨论声学成像、电子显微镜和合成(计算机生成)成像。

使用“声音”成像在地质勘探、工业和医学中都有应用。地质应用使用声谱低端(数百赫兹)的声音，而其他领域的成像则使用超声波(数百万赫兹)。地质学中图像处理最重要的商业应用是矿物和石油勘探。对于陆地图像采集，主要方法之一是使用大型卡车和大型平板钢板。该板被卡车压在地面上，卡车的振动频谱高达 100 Hz。返回声波的强度和速度取决于地表以下地球的成分。这些是通过计算机分析的，图像是根据分析结果生成。

对于海洋图像采集，能量源通常由拖在船后的两把气枪组成。返回的声波由放置在电缆中的水听器检测到，这些电缆要么拖在船后，铺设在海底，要么悬挂在浮标(垂直电缆)上。两支气枪交替加压至约 2000 psi，然后启动。船舶的持续运动提供了横向运动方向，与返回的声波一起用于生成海底以下地球组成的 3D 地图。

尽管超声波成像在制造业中经常使用，但该技术最著名的应用是在医学领域，尤其是在产科领域，通过对胎儿进行成像来确定其发育的健康状况。这项检查的副产品是确定婴儿的性别。超声图像是使用以下基本过程生成的：

a. 超声系统(计算机、由源、接收器和显示器组成的超声探头)将高频(1 至 5 MHz)声脉冲传输到体内。

b. 声波进入体内并撞击组织之间的边界(例如，液体与软组织之间、软组织与骨骼之间)。一些声波被反射回探头，而另一些则继续传播，直到到达另一个边界并被反射。

c. 反射波被探头拾取并转发到计算机。

d. 机器使用组织中的声速 (1540 m/s) 和每个回波返回的时间来计算从探头到组织或器官边界的距离。

e. 系统在屏幕上显示回波的距离和强度，形成二维图像。

在典型的超声图像中，每秒发送和接收数百万个脉冲和回波。探头可以沿着身体表面移动并倾斜以获得不同的视图。

我们通过一些电子显微镜的例子继续讨论成像方式。电子显微镜的功能与光学显微镜类似，只不过它们使用聚焦电子束而不是光来对样本进行成像。电子显微镜的操作涉及以下基本步骤：

电子由电子源产生，并使用正电势向样本加速。使用金属孔径和磁透镜将该流限制并聚焦成细细的单色光束。使用磁透镜将该光束聚焦到样品上。受照射样品内部发生相互作用，影响电子束。这些相互作用和效果被检测并转换为图像，与场景中的物体反射或吸收光的方式非常相似。这些基本步骤在所有电子显微镜中进行。

透射电子显微镜(transmission electron microscope——TEM) 的工作原理与幻灯片投影仪非常相似。投影仪通过幻灯片传输光束；当光穿过幻灯片时，它会受到幻灯片内容的调制。然后，该透射光束被投射到观察屏上，形成载玻片的放大图像。TEM 的工作原理与此相同，只不过它们是用电子束照射样品(类似于载玻片)。穿过样品的光束的一部分被投射到荧光屏上。电子与荧光粉的相互作用产生光，从而产生可见的图像。另一方面，扫描电子显微镜 (SEM) 实际上扫描电子束并记录电子束与样品在每个位置的相互作用。这会在荧光屏上产生一个点。完整的图像是通过光束光栅扫描穿过样品而形成的，就像电视摄像机一样。电子与荧光屏相互作用并产生光。 SEM 适用于“大体积”样品，而 TEM 则需要非常薄的样品。

1.4 数字图像处理的基本步聚(译注：根据实际应用而定)

1.4.1 图像获取

在第二章中详细介绍。

1.4.2 图像增强

图像增强是处理图像的过程，使结果比原始图像更适合特定应用。“特定”这个词在这里很重要，因为它从一开始就确立了增强技术是面向问题的。因此，例如，对于增强 X 射线图像非常有用的方法可能不是增强在电磁波谱方法工作的红外波段拍摄的卫星图像的最佳方法。增强技术多种多样，并且使用如此多不同的图像处理方法，因此在没有广泛的背景开发的情况下，很难在一章中组合出适合增强的有意义的技术体系。

1.4.3 图像修复(Image restoration)

图像修复也是一个涉及改善图像外观的领域。然而，与主观的增强不同，图像恢复是客观的，从某种意义上说，恢复技术往往基于图像退化的数学或概率模型。另一方面，增强是基于人类对什么构成“良好”增强结果的主观偏好。

1.4.4 彩色图像处理(Color image processing)

由于互联网上数字图像的使用显著增加，彩色图像处理变得越来越重要。第 6 章涵盖了数字领域中颜色模型和基本颜色处理的一些基本概念。颜色还用作提取图像中感兴趣的特征的基础。

1.4.5 小波分析(Wavelets)

小波是表示不同分辨率图像的基础。特别是，该材料在书中用于图像数据压缩和金字塔表示，其中图像被连续细分为更小的区域。第 4 章和第 5 章的内容主要基于Fourier变换。除了小波之外，我们还将在第 7 章讨论图像处理中常规使用的许多其他变换。

1.4.6 图像压缩

顾名思义，压缩涉及减少保存图像所需的存储空间或传输图像所需的带宽的技术。尽管存储技术在过去十年中取得了显着进步，但传输容量却并非如此。尤其是在互联网的使用中尤其如此，因为互联网的特点是大量的图片内容。大多数计算机用户都以图像文件扩展名的形式熟悉图像压缩(也许是无意中)，例如 JPEG(联合图像专家组)图像压缩标准中使用的 jpg 文件扩展名。

1.4.7 形态处理(Morphological processing)

形态处理涉及提取图像成分的工具，这些图像成分在形状的表示和描述中很有用。

1.4.8 图像分割(Segmentation partitions)

分割将图像划分为其组成部分或对象。一般来说，自主分割是数字图像处理中最困难的任务之一。坚固的分割程序为成功解决需要单独识别对象的成像问题带来了很大的帮助。另一方面，弱或不稳定的分割算法几乎总是导致最终失败。一般来说，分割越准确，自动对象分类成功的可能性就越大。

1.4.9 图像特征提取(Feature extraction)

自动对象分类更有可能取得成功。特征提取几乎总是遵循分割阶段的输出，通常是原始像素数据，构成区域的边界(即，将一个图像区域与另一个图像区域分开的像素集)或区域本身中的所有点。特征提取包括特征检测和特征描述。特征检测是指寻找图像、区域或边界中的特征。特征描述为检测到的特征分配定量属性。 例如，我们可能会检测某个区域中的角点，并通过它们的方向和位置来描述这些角点；这两个描述符都是定量属性。本章讨论的特征处理方法分为三个主要类别，具体取决于它们是否适用于边界、区域或整个图像。某些功能适用于多个类别。特征描述符应尽可能对缩放、平移、旋转、照明和视点等参数的变化不敏感。

1.4.10 图像模式分类(Image pattern classification)

图像模式分类是根据对象的特征描述符为其分配标签(例如“车辆”)的过程。在本书的最后一章中，我们将讨论图像模式分类的方法，从最小距离、相关性和贝叶斯分类器等“经典”方法，到使用深度神经网络实现的更现代的方法。特别是，我们将详细讨论深度卷积神经网络，它非常适合图像处理工作。

1.5 图像处理系统的组件

就在 20 世纪 80 年代中期，世界各地销售的许多型号的图像处理系统都是相当大的外围设备，连接到同样大的主机上。在 20 世纪 80 年代末和 90 年代初，市场转向单板形式的图像处理硬件，这些硬件旨在与行业标准总线兼容并适合工程工作站机柜和个人计算机。在 20 世纪 90 年代末和 2000 年代初，引入了一种称为图形处理单元 (GPU) 的新型附加板，用于 3D 应用程序，例如游戏和其他 3D 图形应用程序。 不久之后，GPU 就进入了涉及大规模矩阵实现的图像处理应用，例如训练深度卷积网络(deep convolutional networks)。除了降低成本之外，市场从大量外围设备向附加处理板的转变也催生了大量专门开发专门为图像处理编写的软件的新公司。

通用小型计算机与专用图像处理硬件和软件的小型化和融合的趋势仍在继续。

获取数字图像需要两个子系统。第一个是物理传感器，它响应我们想要成像的物体辐射的能量。第二种称为数字转换器，是将物理传感设备的输出转换为数字形式的设备。例如，在数码摄像机中，传感器(CCD 芯片)产生与光强度成比例的电输出。数字转换器将这些输出转换为数字数据。

专用图像处理硬件通常由刚才提到的数字化仪以及执行其他基本操作的硬件组成，例如算术逻辑单元(ALU)，它对整个图像并行执行算术和逻辑操作。如何使用 ALU 的一个示例是在图像数字化后对其进行平均，以达到降噪的目的。此类硬件有时称为前端子系统，其最显着的特征是速度。换句话说，该单元执行需要快速数据吞吐量的功能（例如，以 30 帧/秒的速度对视频图像进行数字化和平均），而典型的主计算机无法处理这些功能。一个或多个 GPU(见上文)在执行密集矩阵运算的图像处理系统中也很常见。因此，图像处理主要组件有：

1.5.1 获取图像的物理传感器和数字转换器

1.5.2 通用计算机或各种专用图像处理芯片

图像处理系统中的计算机是通用计算机，可以是PC到超级计算机。在专用应用中，有时使用定制计算机来达到所需的性能水平，但我们的兴趣在于通用图像处理系统。在这些系统中，几乎任何装备精良的PC型机器适合离线图像处理任务。

1.5.3 图像处理软件

图像处理软件由执行特定任务的专用模块组成。精心设计的软件包还包括让用户能够编写至少利用专用模块的代码的能力。更复杂的软件包允许集成这些模块和来自至少一种计算机语言的通用软件命令。市售的图像处理软件，例如众所周知的MATLAB®图像处理工具箱，在装备精良的图像处理系统中也很常见。

1.5.4 图像存储介质

海量存储是图像处理应用中必须的。一幅大小为 1024 × 1024 像素的图像，其中每个像素的强度为 8 位量，如果图像不被压缩，则需要 1 MB 的存储空间。当处理包含数千甚至数百万图像的图像数据库时，为图像处理系统提供足够的存储空间可能是一个挑战。 用于图像处理应用的数字存储分为三个主要类别：(1) 在处理过程中使用的短期存储； (2)在线存储，可以相对快速地调用；(3)档案存储，其特点是不经常访问。存储以字节(8位)、千字节(K) ( $10^{13}$ 字节)、兆字节(M) ( $10^{16}$ 字节)、千兆字节(G)( $10^{9}$ 字节)和太字节(T) ( $10^{12}$ 字节)为单位。

1.5.5 图像显示介质

目前使用的图像显示器主要是彩色平面显示器。显示器由图像和图形显示卡的输出驱动，图像和图形显示卡是计算机系统的组成部分。作为计算机系统一部分的商用显示卡和 GPU 几乎无法满足图像显示应用的要求。在某些情况下，需要具有立体显示器，并且这些以包含两个嵌入用户佩戴的护目镜中的小显示器的头饰的形式实现。

1.5.6 图像硬拷贝(Hardcopy)

用于记录图像的硬拷贝设备包括激光打印机、胶片相机、热敏设备、喷墨设备和数字设备，例如光盘和CD-ROM磁盘。胶片提供尽可能高的分辨率，但纸张显然是书面材料的首选媒介。对于演示，如果使用图像投影设备，图像将显示在胶片上或数字媒体上。后一种方法逐渐被接受为图像呈现的标准。

1.5.7 网络与云通信相关组件

网络和云通信几乎是当今使用的任何计算机系统的默认功能。由于图像处理应用中固有的大量数据，图像传输的关键考虑因素是带宽。在专用网络中，这通常不是问题，但通过互联网与远程站点的通信并不总是那么有效。幸运的是，由于光纤和其他宽带技术，传输带宽正在迅速提高。图像数据压缩在大量图像数据的传输中继续发挥着重要作用。