UTF-8编码中的特殊空格之C2 A0 -＞ NO-BREAK SPACE

最新推荐文章于 2024-10-06 10:15:21 发布

原创最新推荐文章于 2024-10-06 10:15:21 发布 · 4.6k 阅读

·

3

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#特殊空格处理

编码格式专栏收录该内容

1 篇文章

订阅专栏

博客讲述了作者在数据库字段中发现字符串含有不应存在的空格，经过调查发现是U+00A0 NO-BREAK SPACE字符导致的问题，而非常见的U+0020 SPACE。通过代码示例展示了该字符如何逃过trim()函数的清除，并提供了使用正则表达式消除这类特殊空格的方法。

异常数据追踪

最近发现数据库中的一个字段值数据异常的问题，业务场景中不允许这个字符串字段中出现空格，但是发现有部分数据依然有'空格'，反复验证过之后发现自己写的代码的的确确会把空格trim掉，反复调试后发现代码没有问题，但是什么情况使得这些数据逃过了业务代码的校验？

准备破案

难道我肉眼看到的'空格'，不是我们平常见到或者理解的'空格'？

带着这个疑问，我搜索了一下相关的问题，发现果不其然，很多人都遇到了C2 A0这个不可见字符，那么这个字符到底是什么呢？

打开UTF-8的编码表，https://www.utf8-chartable.de/unicode-utf8-table.pl?utf8=dec 找到对应的字符

首先明确C2 A0代表的编码序号是多少，很显然我们只需要将这个十六进制转为十进制，即C2=194 A0=160，这个在编码表中对应的是

U+00A0

194 160

NO-BREAK SPACE

而我们一般意义上将的空格的编码是32

U+0020

32

SPACE

那们我们通过代码来模拟一下上面两个字符

普通的空格 Unicode code point为U+0020即32

C2 A0空格 Unicode code point为U+00A0即160

找到原因之后，我们想办法把这种C2 A0空格给去除掉

源代码见下

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

package com.lingyejun.dating.chap11;

import java.nio.charset.StandardCharsets;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class SpecialSpace {

public static void main(String[] args) {

String str1 = "lingyejun ";

byte[] str1Bytes = str1.getBytes();

String space = new String(str1Bytes, StandardCharsets.UTF_8);

System.out.println("带有32 Space的字符串:" + space);

System.out.println("使用trim去掉32 -> Space:" + space.trim());

byte[] str2Bytes = new byte[11];

System.arraycopy(str1Bytes, 0, str2Bytes, 0, str1Bytes.length);

str2Bytes[9] = (byte) 0xC2;

str2Bytes[10] = (byte) 0xA0;

String noBreakSpace = new String(str2Bytes, StandardCharsets.UTF_8);

System.out.println("带有C2 A0 -> NO-BREAK SPACE的字符串:" + noBreakSpace);

System.out.println("使用trim无法去掉C2 A0 -> NO-BREAK SPACE:" + noBreakSpace.trim());

// 32为我们平常谈论的Space空格 -> SPACE

byte[] bytes1 = new byte[]{(byte) 0x20};

String space1 = new String(bytes1, StandardCharsets.UTF_8);

System.out.println("UTF-8 字符编码号32 -> 0x1F 输出:" + space1);

// 0xC2=194 0xA0=160 -> NO-BREAK SPACE

byte[] bytes2 = new byte[]{(byte) 0xC2, (byte) 0xA0};

String space2 = new String(bytes2, StandardCharsets.UTF_8);

char[] chars3 = space2.toCharArray();

System.out.println("UTF-8 字符编码号194 -> 0xC2 160 -> 0xA0 输出:" + space2);

byte[] bytes3 = new byte[]{(byte) 0xC2, (byte) 0xA0};

String c2a0Space = new String(bytes3, StandardCharsets.UTF_8);

Pattern p = Pattern.compile(c2a0Space);

Matcher m = null;

m = p.matcher(noBreakSpace);

noBreakSpace = m.replaceAll("");

System.out.println("使用正则去掉C2 A0 -> NO-BREAK SPACE:" + noBreakSpace);

}

}

　　

如果对您有帮助，请不要忘了给翎野君点赞。

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

技术园地 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。