Apache Pulsar入门教程：深入理解这个强大的云原生消息系统

最新推荐文章于 2026-04-29 23:59:47 发布

原创最新推荐文章于 2026-04-29 23:59:47 发布 · 885 阅读 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

cloudcruiser

关注

标签

#apache #云原生 #其他

分类大数据

代码可运行

引言

嘿，各位技术爱好者！今天我要和大家聊聊Apache Pulsar这个超级强大的开源消息系统。如果你正在寻找一个性能卓越、可靠性高、具备云原生特性的消息队列系统，那么Pulsar绝对值得你花时间了解（真的非常值得）！

作为一个在分布式系统领域摸爬滚打多年的开发者，我曾经尝试过各种消息系统，但Pulsar的设计理念和架构确实让我眼前一亮。它不仅仅是"又一个消息队列"，而是集成了消息队列、流处理和存储的多功能平台。

Apache Pulsar是什么？

Apache Pulsar最初由Yahoo!开发，后来捐赠给了Apache基金会，现在已经成为顶级开源项目。它是一个分布式的、开源的pub-sub消息系统，专为超高性能和可扩展性而设计。

简单来说，Pulsar提供了：

多租户的消息发布-订阅服务
无缝的流和批处理集成
分层存储架构（热数据与冷数据分离）
地理复制功能
强一致性保证

这些特性使它在金融服务、物联网、大数据处理等领域表现出色。

Pulsar架构简介

Pulsar的架构非常独特，它采用了计算与存储分离的设计理念。这一点与传统消息系统（如Kafka）有显著不同！

核心组件

Broker：处理消息的接收和分发，管理订阅关系，但不存储数据
BookKeeper：提供持久化存储服务，以Ledger的形式存储消息
ZooKeeper：负责集群元数据管理和协调

这种分层架构带来了很多好处，最显著的是扩展性和可靠性的提升。当你需要更多处理能力时，只需添加Broker；需要更多存储空间时，只需扩展BookKeeper集群。

基本概念

在深入学习Pulsar前，先了解几个关键概念：

Topic

Topic是消息的逻辑通道，生产者发送消息到Topic，消费者从Topic读取消息。Pulsar的Topic命名格式为：

persistent://tenant/namespace/topic

例如：persistent://public/default/my-topic

分区Topic

为了提高并行处理能力，Pulsar支持分区Topic，类似于Kafka的分区概念。一个分区Topic会被分成多个内部Topic，数据可以并行写入和读取。

生产者与消费者

生产者：向Topic发送消息的客户端
消费者：从Topic读取消息的客户端
订阅：Pulsar独特的概念，代表消费者如何消费消息的模式

订阅模式

Pulsar提供了多种订阅模式，这是它区别于其他消息系统的重要特性：

独占（Exclusive）：只有一个消费者可以订阅
共享（Shared）：多个消费者共享消息，每条消息只被一个消费者处理
故障转移（Failover）：多个消费者按优先级顺序消费，主消费者故障时自动切换
键共享（Key_Shared）：基于消息键的共享消费，确保具有相同键的消息被同一消费者处理

这种灵活性使得Pulsar能够适应各种复杂的业务场景！

安装与部署

好了，说了这么多理论，我们来实际动手！下面介绍如何快速部署一个Pulsar实例。

使用Docker快速体验

最简单的方式是使用Docker。只需一条命令：

docker run -it -p 6650:6650 -p 8080:8080 --name pulsar apachepulsar/pulsar:latest bin/pulsar standalone

这会启动一个包含所有组件（ZooKeeper、BookKeeper和Broker）的单节点Pulsar实例。端口6650用于Pulsar协议，8080用于HTTP管理API。

生产环境部署

对于生产环境，我建议使用Kubernetes部署Pulsar集群。Apache Pulsar提供了官方的Helm chart，使部署变得相对简单：

helm repo add apache https://pulsar.apache.org/charts
helm repo update
helm install pulsar apache/pulsar

当然，你需要根据实际需求调整配置参数（这一步超级重要）！

基本操作实践

安装好Pulsar后，让我们尝试一些基本操作。

创建Topic

bin/pulsar-admin topics create persistent://public/default/my-first-topic

发送消息

使用Pulsar自带的工具发送消息：

bin/pulsar-client produce persistent://public/default/my-first-topic --messages "Hello Pulsar"

消费消息

同样，可以使用命令行工具消费消息：

bin/pulsar-client consume persistent://public/default/my-first-topic -s "my-subscription"

使用Java客户端

命令行工具虽然方便，但实际开发中我们通常使用编程语言客户端。以Java为例：

首先，添加Maven依赖：

<dependency>
    <groupId>org.apache.pulsar</groupId>
    <artifactId>pulsar-client</artifactId>
    <version>2.10.0</version>
</dependency>

创建生产者

PulsarClient client = PulsarClient.builder()
    .serviceUrl("pulsar://localhost:6650")
    .build();

Producer<byte[]> producer = client.newProducer()
    .topic("persistent://public/default/my-topic")
    .create();

// 发送消息
producer.send("Hello Pulsar".getBytes());

producer.close();
client.close();

创建消费者

PulsarClient client = PulsarClient.builder()
    .serviceUrl("pulsar://localhost:6650")
    .build();

Consumer consumer = client.newConsumer()
    .topic("persistent://public/default/my-topic")
    .subscriptionName("my-subscription")
    .subscriptionType(SubscriptionType.Exclusive)
    .subscribe();

// 接收消息
Message msg = consumer.receive();
System.out.println("Received message: " + new String(msg.getData()));

// 确认消息
consumer.acknowledge(msg);

consumer.close();
client.close();

Pulsar Functions：轻量级计算

Pulsar不仅仅是消息系统，它还提供了轻量级的流处理功能——Pulsar Functions。这让你可以在消息流动的过程中进行处理，无需部署额外的流处理框架。

一个简单的Python Function示例：

def process(input):
    return "Processed: " + input

部署Function：

bin/pulsar-admin functions create \
  --py process_function.py \
  --classname process_function.process \
  --inputs persistent://public/default/input-topic \
  --output persistent://public/default/output-topic \
  --tenant public \
  --namespace default \
  --name processing

这个Function会从input-topic读取消息，处理后写入output-topic。

Pulsar IO：数据集成

Pulsar IO是Pulsar的数据集成框架，提供了连接外部系统的能力。Pulsar有丰富的内置连接器，包括Kafka、JDBC、Elasticsearch等。

例如，创建一个Kafka源连接器：

bin/pulsar-admin source create \
  --tenant public \
  --namespace default \
  --name kafka-source \
  --destination-topic-name pulsar-kafka-topic \
  --source-type kafka \
  --source-config '{"bootstrapServers":"kafka:9092","topic":"test-topic","groupId":"test-group"}'

这将从Kafka的test-topic读取数据，并发送到Pulsar的pulsar-kafka-topic。

Pulsar的高级特性

Schema管理

Pulsar支持Schema管理，这意味着你可以使用强类型的消息而不仅仅是字节数组。

Producer<User> producer = client.newProducer(Schema.AVRO(User.class))
    .topic("users")
    .create();

User user = new User();
user.setName("Tom");
user.setAge(28);

producer.send(user);

消息重试

Pulsar支持消息重试机制，当消费者处理失败时可以自动重试：

Consumer<byte[]> consumer = client.newConsumer()
    .topic("my-topic")
    .subscriptionName("my-subscription")
    .enableRetry(true)
    .deadLetterPolicy(DeadLetterPolicy.builder()
        .maxRedeliverCount(3)
        .deadLetterTopic("dead-letter-topic")
        .build())
    .subscribe();

事务支持

Pulsar 2.7+开始支持事务，可以跨多个Topic原子地提交消息：

Transaction txn = client.newTransaction()
    .withTransactionTimeout(5, TimeUnit.MINUTES)
    .build().get();

// 在事务中生产消息
producer.newMessage(txn).value("Hello Pulsar Transaction".getBytes()).send();

// 在事务中确认消息
consumer.acknowledgeAsync(message, txn);

// 提交事务
txn.commit().get();