一个scrapy的pipeline，用于将item使用json序列化后推到kafka

最新推荐文章于 2026-06-20 12:26:10 发布

原创最新推荐文章于 2026-06-20 12:26:10 发布 · 535 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#scrapy #json #kafka

收录于

python爬虫综合专栏收录该内容

38 篇文章

订阅专栏

使用Python的kafka-python库来与Kafka进行通信

安装kafka-python库：

pip install kafka-python

编写pipeline

import json
from kafka import KafkaProducer

class KafkaPipeline:
    def open_spider(self, spider):
        self.producer = KafkaProducer(
            bootstrap_servers=['localhost:9092'],  # 替换为你的Kafka服务器地址
            value_serializer=lambda v: json.dumps(v).encode('utf-8')
        )

    def close_spider(self, spider):
        self.producer.close()

    def process_item(self, item, spider):
        self.producer.send('your_topic', dict(item))  # 替换为你的Kafka主题
        return item