在各个平台中整数占用的字节数一直比较固定,通常是4个字节。它的表示的整数范围是-2147483648~2147483647。然而对于一些数值较小的整数,因为有大量的位数是前导0,这些比特在数值的表示中是没有意义的,仍旧花费4个字节去存储则显得有些浪费。这里的一篇文章『Variable byte codesd』,讲述正整数的可变字节编码的压缩,它可以在需要存储大量正整数的情况下有着较为实际的应用。
正整数可变字节编码压缩算法的思路是:
将每个字节分为2个部分:低7位为负载位(payload),用于存储数值,最高位为标志位(continuation bit),取值0或者1,用于标识当前字节是否是该整数在可变字节编码中的最后一个字节。
例如正整数130,它的二进制表示(4字节,共32位)为:00000000 00000000 00000000 10000010。经过可变字节编码压缩之后,130可压缩为2个字节:
Byte0: 0 0000010
Byte1: 1 0000001
Byte0的最高位为0,表示该字节并不是最后一个字节,低7位存储原比特流中的低7位。Byte1的最高位为1,表示该字节已经是最后一个字节,低7为存储原比特流中的第8位-第14位。舍弃原比特流中的所有前导0。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 | /**
* 对正整数列表进行可变字节编码,返回压缩后的字节数组。
* @param intList
* @return
*/
private static List<Byte> intToByte(List<Integer> intList) {
List<Byte> list = new ArrayList<Byte>();
if (intList == null) {
return null;
}
for (int n : intList) {
//遍历列表中的每个正整数。
while (n > 0) {
int byteOf = n % 128; //得到正整数的低7位。
if (n < 128) {
//如果n值已经能由7位表示,则该字节是最后一个字节。
byteOf += 128; //将该字节的最高位置为1。
list.add((byte) byteOf);
break; //当前整数的可变字节编码结束。
} else {
list.add((byte) byteOf);
}
n /= 128;
}
}
return list;
}
/**
* 将可变字节编码形式存储的字节数组还原为正整数列表。
* @param byteList
* @return
*/
private static List<Integer> byteToInt(List<Byte> byteList) {
List<Integer> list = new ArrayList<Integer>();
int n = 0;
int byteStartPerInt = 0;
for (int i = 0; i < byteList.size(); i++) {
//依次读取字节数组。
if (byteList.get(i) >= 0) {
//如果当前字节的值大于0,则表示最高位是0,该字节不是最后的字节。
n += byteList.get(i) * Math.pow(128, i - byteStartPerInt);
} else {
//如果当前字节的值小于0,则表示最高位是1,该字节是最后的字节。
n += (byteList.get(i) + 128) * Math.pow(128, i - byteStartPerInt);
list.add(n);
n = 0;
byteStartPerInt = i + 1;
}
}
return list;
} |
经过简单的测试,随机生成1w个值为1-105之间的正整数,上述算法的压缩比约为0.29。也就是说,本来需要4w个字节存储的整数现在只需要2.8w左右的存储空间。随着测试数据的值越大,压缩率会变小,而当测试数据的值越小,压缩率会变大。极端情况下,上述算法的压缩率最大能达到75%。
由于可变字节编码压缩算法是建立在标识位的基础上的,因此,当待编码的正整数大于1284时(针对4个字节表示整数的情况),算法会失去作用,非但不能压缩,反而会引起数据膨胀,这也是该算法的最大缺陷。另外,如果对待编码正整数的顺序没有要求的话,可以先对整数列表排序,然后存储相邻两个正整数之间的差值,通过这样的操作之后,待编码的整数就以“差值”的形式变小了,从而提高压缩率。

868

被折叠的 条评论
为什么被折叠?



