【GBK、UTF-8、ISO8859-1】编码总结

本文总结了Java中GBK、UTF-8、ISO8859-1编码的特性及在处理中文时可能出现的乱码问题。在不同操作系统下,String.getBytes()返回的字节数组会因默认编码而异。GBK和UTF-8可以正确解析中文,但ISO8859-1无法表示中文字符,导致乱码。为确保中文正确传输,建议在编码和解码时明确指定UTF-8。当必须使用ISO8859-1传输时,可以先将字符串转为UTF-8再转为ISO8859-1,接收时逆向操作。最后,列举了几种常见的乱码情况以供参考。

【GBK、UTF-8、ISO8859-1】编码总结

背景

背景:在转发request请求是,RequestBody中参数包含中文,转发后接受中文没有乱码,然后部署到服务器后发现中文全部变成了【???】,判断字符串编码方式和操作系统编码有关。

寻找问题

查询相关资料发现,在Java中,String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。在不同操作系统下得到的返回值不相同!
String.getBytes(charsetName)方法会根据指定的编码返回字符串在该编码下的byte数组。
下面是三种编码返回byte[]数组长度。

	String zh = "中文";
    byte[] byte_gbk = zh.getBytes("GBK");
    byte[] byte_utf8 = zh.getBytes("UTF-8");
    byte[] byte_iso88591 = zh.getBytes("ISO8859-1");
    System.out.println("Byte_GBK:" + byte_gbk.length);
    System.out.println("Byte_UTF8:" + byte_utf8.length);
    System.out.println("Byte_ISO88591:" + byte_iso88591.length);

编码后数组长度

总结规律

而与getBytes()相对的,可以通过new String(byte[], charsetName)的方式来还原中文时,这个new String(byte[], charsetName)实际是使用指定的编码来将byte[]解析成字符串。
随后我们分别将三种不同编码的byte[]解析成字符串:

     String zh = "中文";
     byte[] byte_gbk = zh.getBytes("GBK");
     byte[] byte_utf8 = zh.getBytes("UTF-8");
     byte[] byte_iso88591 = zh.getBytes("ISO8859-1");
     System.out.println("Byte_GBK:" + new String(byte_gbk, "GBK"));
     System.out.println("Byte_UTF8:" + new String(byte_utf8, "UTF-8"));
     System.out.println("Byte_ISO88591:" + new String(byte_iso88591, "ISO8859-1"));

得到解析结果:
解析成字符串
发现GBK和UTF-8都能够正常解析成中文,而ISO8859-1却成为乱码,为什么ISO8859-1编码后无法还原成字符串呢?原因是因为ISO8859-1编码表中没有保护中文字符串,在getBytes(“ISO8859-1”)中就无法得到正确的编码值,也就无法通过new String()进行还原了。

为了能够保证字符串能够正确的传输,每次在getBytes()一定都要指定编码格式;随后在数据接收方以相同的方式进行解析,就能正确获取数据

若遇到必须以ISO8859-1的方式传输中文,我们应该怎么来处理呢?
我们可以先将原字符串编码成UTF-8对应的byte[],再转换成ISO8859-1字符串;这里数据以ISO8859-1的传输到接收方后,再将ISO8859-1字符串编码成byte[],再解析成UTF-8字符串。

    String zh = "中文";
    byte[] byte_utf8 = zh.getBytes("UTF-8");
    String String_ISO8859 = new String(byte_utf8, "ISO8859-1");
    System.out.println("UTF8 byte to ISO8859-1 String: " + String_ISO8859);
    //接收方处理
    byte[] byte_iso88591 = String_ISO8859.getBytes("ISO8859-1");
    String String_UTF8 = new String(byte_iso88591, "UTF-8");
    System.out.println("ISO8859-1 byte to UTF8 String: " + String_UTF8);

编码还原
通过上面的方式,让我们知道,即使传输协议是ISO8859-1,我们也有办法正确的传输中文。

乱码总结

为了以后看到乱码能够快速判断解决乱码,特意将几种错误的乱码情况展示出来,以供参考。

    String zh = "中文";
    byte[] byte_gbk = zh.getBytes("GBK");
    byte[] byte_utf8 = zh.getBytes("UTF-8");
    byte[] byte_iso88591 = zh.getBytes("ISO8859-1");
    System.out.println("GBK Byte to UTF8 String:" + new String(byte_gbk,"UTF-8"));
    System.out.println("GBK Byte to ISO8859-1 String:" + new String(byte_gbk,"ISO8859-1"));
    System.out.println("UTF8 Byte to GBK String:" + new String(byte_utf8,"GBK"));
    System.out.println("UTF8 Byte to ISO8859-1 String:" + new String(byte_utf8,"ISO8859-1"));
    System.out.println("ISO8859-1 Byte to GBK String:" + new String(byte_iso88591,"GBK"));
    System.out.println("ISO8859-1 Byte to UTF8 String:" + new String(byte_iso88591,"UTF-8"));

编码结果
因为ISO8859-1编码表中没有中文,ISO8859-1编码中文的byte[]数组,解析成任何格式字符串都变成了问号,包括以ISO8859-1编码解析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值