【GBK、UTF-8、ISO8859-1】编码总结

最新推荐文章于 2025-04-24 16:31:59 发布

原创最新推荐文章于 2025-04-24 16:31:59 发布 · 838 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#Java编码 #Java乱码问题

Java 专栏收录该内容

13 篇文章

订阅专栏

本文总结了Java中GBK、UTF-8、ISO8859-1编码的特性及在处理中文时可能出现的乱码问题。在不同操作系统下，String.getBytes()返回的字节数组会因默认编码而异。GBK和UTF-8可以正确解析中文，但ISO8859-1无法表示中文字符，导致乱码。为确保中文正确传输，建议在编码和解码时明确指定UTF-8。当必须使用ISO8859-1传输时，可以先将字符串转为UTF-8再转为ISO8859-1，接收时逆向操作。最后，列举了几种常见的乱码情况以供参考。

背景

背景：在转发request请求是，RequestBody中参数包含中文，转发后接受中文没有乱码，然后部署到服务器后发现中文全部变成了【???】，判断字符串编码方式和操作系统编码有关。

寻找问题

查询相关资料发现，在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。在不同操作系统下得到的返回值不相同！
String.getBytes(charsetName)方法会根据指定的编码返回字符串在该编码下的byte数组。
下面是三种编码返回byte[]数组长度。

	String zh = "中文";
    byte[] byte_gbk = zh.getBytes("GBK");
    byte[] byte_utf8 = zh.getBytes("UTF-8");
    byte[] byte_iso88591 = zh.getBytes("ISO8859-1");
    System.out.println("Byte_GBK:" + byte_gbk.length);
    System.out.println("Byte_UTF8:" + byte_utf8.length);
    System.out.println("Byte_ISO88591:" + byte_iso88591.length);

编码后数组长度

总结规律

而与getBytes()相对的，可以通过new String(byte[], charsetName)的方式来还原中文时，这个new String(byte[], charsetName)实际是使用指定的编码来将byte[]解析成字符串。
随后我们分别将三种不同编码的byte[]解析成字符串：

     String zh = "中文";
     byte[] byte_gbk = zh.getBytes("GBK");
     byte[] byte_utf8 = zh.getBytes("UTF-8");
     byte[] byte_iso88591 = zh.getBytes("ISO8859-1");
     System.out.println("Byte_GBK:" + new String(byte_gbk, "GBK"));
     System.out.println("Byte_UTF8:" + new String(byte_utf8, "UTF-8"));
     System.out.println("Byte_ISO88591:" + new String(byte_iso88591, "ISO8859-1"));

得到解析结果：
解析成字符串
发现GBK和UTF-8都能够正常解析成中文，而ISO8859-1却成为乱码，为什么ISO8859-1编码后无法还原成字符串呢？原因是因为ISO8859-1编码表中没有保护中文字符串，在getBytes(“ISO8859-1”)中就无法得到正确的编码值，也就无法通过new String()进行还原了。

为了能够保证字符串能够正确的传输，每次在getBytes()一定都要指定编码格式；随后在数据接收方以相同的方式进行解析，就能正确获取数据

若遇到必须以ISO8859-1的方式传输中文，我们应该怎么来处理呢？
我们可以先将原字符串编码成UTF-8对应的byte[]，再转换成ISO8859-1字符串；这里数据以ISO8859-1的传输到接收方后，再将ISO8859-1字符串编码成byte[]，再解析成UTF-8字符串。

    String zh = "中文";
    byte[] byte_utf8 = zh.getBytes("UTF-8");
    String String_ISO8859 = new String(byte_utf8, "ISO8859-1");
    System.out.println("UTF8 byte to ISO8859-1 String: " + String_ISO8859);
    //接收方处理
    byte[] byte_iso88591 = String_ISO8859.getBytes("ISO8859-1");
    String String_UTF8 = new String(byte_iso88591, "UTF-8");
    System.out.println("ISO8859-1 byte to UTF8 String: " + String_UTF8);

编码还原
通过上面的方式，让我们知道，即使传输协议是ISO8859-1，我们也有办法正确的传输中文。

乱码总结

为了以后看到乱码能够快速判断解决乱码，特意将几种错误的乱码情况展示出来，以供参考。

    String zh = "中文";
    byte[] byte_gbk = zh.getBytes("GBK");
    byte[] byte_utf8 = zh.getBytes("UTF-8");
    byte[] byte_iso88591 = zh.getBytes("ISO8859-1");
    System.out.println("GBK Byte to UTF8 String:" + new String(byte_gbk,"UTF-8"));
    System.out.println("GBK Byte to ISO8859-1 String:" + new String(byte_gbk,"ISO8859-1"));
    System.out.println("UTF8 Byte to GBK String:" + new String(byte_utf8,"GBK"));
    System.out.println("UTF8 Byte to ISO8859-1 String:" + new String(byte_utf8,"ISO8859-1"));
    System.out.println("ISO8859-1 Byte to GBK String:" + new String(byte_iso88591,"GBK"));
    System.out.println("ISO8859-1 Byte to UTF8 String:" + new String(byte_iso88591,"UTF-8"));