大数据存储中的压缩算法与切割性：ORC与Parquet,-CSDN博客

Zlib、LZO，SNPAYY是压缩算法，ORC、PARQUET是存储的格式，存储格式可以针对不同的数据，选取任意的压缩算法
在这里插入图片描述

默认将ORC表压缩的算法是：orc默认采用的是ZLIB压缩

在Hive中，你可以通过以下步骤查看ORC表的压缩算法：

首先，你需要打开Hive命令行界面。你可以通过在命令行中输入hive并按Enter键来实现。
然后，你需要使用DESCRIBE FORMATTED命令来查看表的详细信息。例如，如果你想查看名为my_table的表的详缩算法，你可以输入以下命令：
```
DESCRIBE FORMATTED my_table;
```
然后按Enter键。
在输出的信息中，你可以找到Storage Desc Params:部分，其中的orc.compress项就是该表的压缩算法。

请注意，如果orc.compress项的值是NONE，那么表示该表没有使用压缩。如果该项不存在，那么表示该表使用的是默认的压缩算法，即Zlib。

压缩算法的是否可切割性

在处理大数据时，压缩算法的选择对文件的可切割性有重要影响。以下是一些常见的压缩算法及其对文件切割性的影响：

Gzip：不可切割。Gzip是一种广泛使用的压缩算法，但它不支持文件的切割。这是因为Gzip使用了一种叫做DEFLATE的压缩算法，这种算法在压缩数据时会考虑到数据的全局信息，因此无法对压缩后的文件进行切割。
Bzip2：不可切割。Bzip2是另一种常见的压缩算法，它使用了一种叫做Burrows-Wheeler transform的压缩技术，这种技术同样需要考虑到数据的全局信息，因此Bzip2压缩的文件也无法被切割。
LZO：可切割。LZO是一种实时压缩算法，它的压缩速度非常快，而且支持文件的切割。
Snappy：可切割。Snappy是Google开发的一种压缩算法，它的设计目标是提供较好的压缩比和非常快的压缩速度，而且它支持文件的切割。
LZ4：可切割。LZ4是一种非常快速的压缩算法，它支持文件的切割。
Zlib：可切割。Zlib是一种广泛使用的压缩库，它提供了对DEFLATE压缩算法的实现。尽管DEFLATE算法本身不支持文件的切割，但在某些特定的文件格式下，例如ORC，Zlib压缩的文件可以被切割。

以上信息主要参考了DZone的文章"Crunch Time: 10 Best Compression Algorithms"¹，以及其他相关的技术文档。

不同的存储格式的文件是否可以被切割

文件是否可以被切割，主要取决于文件的存储格式。以下是一些常见的存储格式及其是否可以被切割的情况：