Kafka-python实践

最新推荐文章于 2025-07-25 17:11:04 发布

原创

最新推荐文章于 2025-07-25 17:11:04 发布 · 864 阅读

标签

#python #kafka #大数据

收录于

本文介绍了Kafka的基本概念，包括其分布式消息系统的特性。接着详细阐述了如何使用Python库kafka-python进行实践操作，包括安装、生产者和消费者的设置。生产者示例展示了如何发送消息到Kafka，并验证消息发送状态。消费者部分讲解了如何从Kafka获取数据，设置消费模式以及处理消费到的消息。文中还提到了在实际工程中可能遇到的多线程消费和同步问题。

Kafka基本概念

Kafka 是一种分布式的，基于发布 / 订阅的消息系统。主要设计目标如下：

以时间复杂度为 O(1) 的方式提供消息持久化能力，即使对 TB 级以上数据也能保证常数时间复杂度的访问性能。
高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒 100K 条以上消息的传输。
支持 Kafka Server 间的消息分区，及分布式消费，同时保证每个 Partition 内的消息顺序传输。
同时支持离线数据处理和实时数据处理。
Scale out：支持在线水平扩展。
上述内容引自
Kafka【入门】就这一篇
对基础概念的介绍很详尽了

Kafka-Python实践

官方文档：

kafka-python

安装

pip install kafka-python

生产者

作用是发送（生产）消息到Kafka，初步设置如下

from kafka import KafkaProducer

'''ip地址：端口号,server也可为一个字符串列表，代表一个服务器集群'''
server_name = "xxx.xxx.x.xx:yyyy" 

'''
producer在创建时还有很多参数，比如：
retries(int):发送失败