高并发MPP查询引擎Impala初识

最新推荐文章于 2026-05-22 07:32:12 发布

原创

最新推荐文章于 2026-05-22 07:32:12 发布 · 1.1w 阅读

官网：http://impala.apache.org/

Apache Impala是高性能的专用SQL引擎，使用Impala SQL，因为Impala无需借助任何的框架，直接实现对数据块的查询，所以查询延迟毫秒级。还是得放到和Hive一起说说，Impala适用实时查询，因为比Hive查询快多了。Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。

1、Impala即时查询原理

Impala是架构于Hadoop之上的开源、高并发的MPP查询引擎，被广泛应用于各种行业。Impala是完全集成的，用以平衡Hadoop的灵活性和可扩展性，为BI/数据分析师提供低延迟、高并发的以读为主的查询。

Impala将传统分析数据库的SQL支持和多用户性能与Hadoop的灵活性和可扩展性结合起来，它通过利用HDFS、HBase、Metastore、YARN、Sentry等标准组件能够读取大多数广泛使用的文件格式比如Parquet、Avro、RCFile来维护Hadoop的灵活性；为了降低延迟，避免利用MR或者读远程数据，基于负责查询执行所有方面、作为Hadoop基础设施一部分运行于各台服务器上的Deamon进程实现了一个分布式架构，在相同负载的情形下其性能相当或超过了商用MPP分析数据库。

在Cloudera的测试中，Impala的查询效率比Hive有数量级的提升。从技术角度上来看，Impala之所以能有好的性能，主要有以下几方面的原因。

1） Impala不需要把中间结果写入磁盘，省掉了大量的I/O开销。

2）省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢（默认每个心跳间隔是3秒钟），Impala直接通过相应的服务进程来进行作业调度，速度快了很多。

3） Impala完全抛弃了MapReduce这个不太适合做SQL查询的范