gcc编译的编码问题

关于UTF-8、GBK编码以及编译时charset的指定的一些总结

首先分清两个概念:C文件中(转换为16进制)汉字的编码,编译后bin文件中汉字的编码。
gcc的 -finput-charset 和 -fexec-charset 两个选项的存在就是为了实现这两者的转换。
默认情况下,gcc使用UTF-8 charset。

C文件中使用GBK编码的汉字

  • 若要使bin文件为UTF-8编码,必须同时指定 -finput-charset=GBK,-fexec-charset=UTF-8(不指定fexec-charset也是可以的,但是单独指定它无效,编译器会认为输入为UTF-8)
  • 若要使bin文件为GBK编码,可以不指定charset,这样编译器就不会去做转换(它认为前后都是UTF-8),看起来就像是“骗过”了编译器;也可以同时指定 -finput-charset=GBK,-fexec-charset=GBK。

C文件中使用UTF-8编码的汉字

  • 若要使bin文件为UTF-8编码,可以不指定charset;
  • 若要使bin文件为GBK编码,必须指定 -fexec-charset=GBK。
    当然,如果你想“欺骗”编译器:“我的C文件使用的是GBK编码”,而去指定-finput-charset=GBK,这时编译器可能不会像上面那种情况一样好骗,你可能收到这样一条答复:“cc1: error: failure to convert GBK to UTF-8”。

举个例子:我在程序中需要去调用HZK16(点阵字库),它是基于GBK编码的,所以,我希望我的bin文件中的汉字是GBK编码。我在UE编辑器中,使用GBK编码写了xxx.c,又使用UTF-8编码写了yyy.c,那么,我将可以用以下几种方式去编译它们:

对于xxx.c:

(1)gcc -o xxx xxx.c

(2)gcc -finput-charset=GBK -fexec-charset=GBK -o xxx xxx.c

对于yyy.c:

(1)gcc -fexec-charset=GBK -o yyy yyy.c

(2)gcc -finput-charset=UTF-8 -fexec-charset=GBK -o yyy yyy.c

总而言之,-finput-charset用来指定C文件中的文字编码格式,-fexec-charset用来指定编译之后的可执行文件的文字编码格式;默认情况下,gcc编译器认为编译前后的文字编码格式都是UTF-8。

至于 “为什么要指定 -finput-charset 或者 -fexec-charset ?” ,那是可能你的程序中的某部分的操作必须依赖于某个特定的charset 。例如上文所说的,使用 HZK16 来获取汉字的位图等。

输出乱码问题

输出乱码问题与windows和linux终端(命令提示符)的编码也有关系,如果终端编码与输出的编码不匹配,也会出现输出乱码的问题。例如windows下用GCC编译程序会发生中文乱码,输出结果是在windows命令行中的:
在这里插入图片描述
解决方案是在编译参数中增加以下两条指令:

-fexec-charset=gbk -finput-charset=gbk

原因分析:Windows命令行(中文)默认的字符集是Windows-936(GBK),而GCC编译器默认编译的时候是按照UTF-8解析的,当未指定字符集时一律当作UTF-8进行处理,于是造成乱码。
而指定上述编译指令后,根据上面的理论,属于C文件中使用GBK编码的汉字,并且得到的bin文件中的中文汉字为GBK编码,因此能够在Windows命令行(GBK)环境中正常输出而不乱码。
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sususweet

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值