Ubuntu下调用opencv库点阵汉字的字模读取与显示

原创

已于 2023-11-19 16:47:43 修改 · 372 阅读

标签

#ubuntu #opencv #linux

于 2023-11-19 16:14:05 首次发布

一、汉字点阵字库原理

1、汉字编码

1.1、区位码：
在国标 GD2312—80 中规定，所有的国标汉字及符号分配在一个 94 行、94 列的方阵中，方阵的每一行称为一个“区”，编号为 01 区到 94 区，每一列称为一个“位”，编号为01 位到 94 位，方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。区位码的前两位是它的区号，后两位是它的位号。用区位码就可以唯一地确定一个汉字或符号，反过来说，任何一个汉字或符号也都对应着一个唯一的区位码。汉字“母”字的区位码是3624，表明它在方阵的 36 区 24 位，问号“?”的区位码为0331，则它在 03 区 3l 位。
在这里插入图片描述
1.2、机内码：
汉字的机内码是指在计算机中表示一个汉字的编码。机内码与区位码稍有区别。如上所述，汉字区位码的区码和位码的取值均在 1~94 之间，如直接用区位码作为机内码，就会与基本 ASCII 码混淆。为了避免机内码与基本 ASCII 码的冲突，需要避开基本 ASCII 码中的控制(00H~1FH)，还需与基本 ASCII 码中的字符相区别。为了实现这两点，可以先在区码和位码分别加上 20H，在此基础上再加 80H(此处“H”表示前两位数字为十六进制数)。经过这些处理，用机内码表示一个汉字需要占两个字节，分别称为高位字节和低位字节，这两位字节的机内码按如下规则表示：
高位字节 = 区码 + 20H + 80H(或区码 + A0H)
低位字节 = 位码 + 20H + 80H(或位码 + AOH)
由于汉字的区码与位码的取值范围的十六进制数均为 01H~5EH(即十进制的 01~94)，所以汉字的高位字节与低位字节的取值范围则为 A1H~FEH(即十进制的 161~254)。例如，汉字“啊”的区位码为 1601，区码和位码分别用十六进制表示即为 1001H，它的机内码的高位字节为 B0H，低位字节为 A1H，机内码就是 B0A1H。
在这里插入图片描述
1.3、国际码：
国标码是一个四位十六进制数，它将一个汉字用两个字节表示，每个字节只有7位，与ASCII码相似。为了避开ASCII字符中的不可显示字符0000 0000 ~ 0001 1111(十六进制为0 ~ 1F，十进制为0 ~ 31)及空格字符0010 0000(十六进制为20，十进制为32)（至于为什么要避开、又为什么只避开ASCII中0~32的不可显示字符和空格字符，后文有解释），国标码(又称为交换码)规定表示汉字的范围为(0010 0001，0010 0001) ~ (0111 1110，0111 1110)，十六进制为(21，21) ~ (7E，7E)，十进制为(33，33) ~ (126，126)（注意，GB类汉字编码为双字节编码）。因此，必须将“区码”和“位码”分别加上32(十六进制为20H，后缀H表示十六进制)，作为国标码。也就是说，国标码相当于将区位码向后偏移了32，以避免与ASCII字符中0~32的不可显示字符和空格字符相冲突。

1.4、汉字机内码、国标码和区位码三者关系：
（1）三者的关系
国标码 = 区位码 + 2020H；
机内码 = 国标码 + 8080H；
2020H解释
因为ASCLL码中分为控制型编码和有形字符编码，前32位是控制码（如回车，退格等），沿用前32个，覆盖后面的。故国标码规定在区位码的基础上每个字节分别加上20H（32的十六进制表示）。
8080H解释

为避免与ASCLL编码冲突，从而规定把每个字节的最高位都从 0 换成 1(这之前它们都是 0)，或者说把每个字节(区和位)都再加上 80H(128的十六进制表示)。
（2）运算规则
（1：将区位码中的区码和位码分别转换为十六进制数；
（2：区位码的十六进制数+2020H = 国标码；
（3：国标码+8080H = 机内码
从区位码(国家标准定义) —> 区码和位码分别+32(即+20H)得到国标码 —> 再分+128(即+80H)得到机内码(与ACSII码不再冲突)
区位码(区码,位码) + (20H,20H) + (80H,80H) =区位码(区码,位码) + (A0H,A0H) = 内码(高字节,低字节)。

2、点阵字库存储

点阵字库是一种用于存储和表示字形的数据结构，广泛应用于计算机、打印机、显示屏等设备中。它将每个字符的字形表示为一个由二进制位组成的矩阵，其中每个位表示一个像素的状态（如黑或白）。点阵字库的存储方式可以有多种形式，如位图、字节序列或字节流等。
点阵字库的存储方式主要有两种：固定宽度和变宽度。

固定宽度点阵字库：
固定宽度点阵字库将每个字符的字形表示为一个固定宽度的矩阵。例如，一个8x8的固定宽度点阵字库可以表示每个字符为一个8行8列的矩阵。每个像素位可以用一个二进制位表示，0代表空白像素，1代表实心像素。这种存储方式简单直观，适用于具有相同宽度的等宽字体。
变宽度点阵字库：
变宽度点阵字库将每个字符的字形表示为一个变宽度的矩阵。由于不同字符的宽度可能不同，所以在存储时需要考虑字符的实际宽度。一种常见的存储方式是使用位图，每个字符的字形被编码为一个位图图像。在位图中，每个像素位表示一个像素的状态（如黑或白）。字符的宽度可以通过位图的宽度进行确定。
点阵字库的存储方式决定了字库的占用空间和字形的显示效果。固定宽度点阵字库通常占用的空间相对较小，但在显示时可能会出现字符间距不均匀的问题。变宽度点阵字库可以更准确地表示字符的字形，但相应地需要更多的存储空间。
点阵字库的存储方式对于字形的渲染和显示有着重要的影响。设备在使用点阵字库时，可以根据存储的字形数据来绘制字符的轮廓或像素点阵，以实现字符的显示和输出。

3、利用汉字机内码获取汉字

利用汉字的机内码获取汉字的原理是通过查找对应的字形数据来获取字符的具体形态。计算机中使用的汉字编码方式（如GBK、Unicode）将每个汉字映射到一个唯一的机内码，这个机内码可以作为索引来查找相应的字形数据。通过读取和解析字库或字形数据，计算机可以获取汉字的点阵或轮廓信息，从而实现对汉字的显示和处理。

二、在Ubuntu下用C/C++调用opencv显示图片及文字

1、实验准备：
（1）首先，在Ubuntu系统下面安装OpenCV
(2）在Ubuntu系统下建立一个文件夹“Ten”，用来存放实验文件：一张需要显示的图片，24*24的点阵.hz文件，ASCII码.zf文件，需要显示的文本文件（logo.txt）
在这里插入图片描述（3）编写logo.txt，用来显示自己的姓名与学号

（4)另存为logo.txt,使其编码格式为ANSI

2、编写代码：

在Ten文件夹下打开终端，创建一个word.cpp文件，输入以下命令：

vi word.cpp

在里面写下如下的代码：
word.cpp

#include<iostream>
#include<opencv/cv.h>
#include"opencv2/opencv.hpp"
#include<opencv/cxcore.h>
#include<opencv/highgui.h>
#include<math.h>
 
using namespace cv;
using namespace std;
 
void paint_chinese(Mat& image,int x_offset,int y_offset,unsigned long offset);
void paint_ascii(Mat& image,int x_offset,int y_offset,unsigned long offset);
void put_text_to_image(int x_offset,int y_offset,String image_path,char* logo_path);
 
int main(){
   
   
    String image_path="bird.jpg";//图片的名字
    char* logo_path="logo.txt";