Kafka Connect 是 Kafka 开发者首选的数据集成工具。 它提供了一个框架,用于将 Kafka 与数据库、消息队列和文件系统等外部系统连接起来。
Kafka Connect 提供了一组精选的内置连接器插件,这些插件经过 的审核和 Google Cloud维护。这些连接器插件会自动 修补和升级,从而简化维护并确保兼容性。 Google Cloud 还提供内置的监控和日志记录功能,以维护流水线的 运行状况。
Kafka Connect API 作为 Google Cloud Managed Service for Apache Kafka 服务的一部分提供。您可以通过 managedkafka.googleapis.com 访问这些 API,并且这些 API 已
集成到 Google Cloud 控制台和客户端库中。如需管理 Kafka
Connect,您可以使用 Google Cloud 控制台、gcloud CLI、
Managed Kafka API、Cloud 客户端库或 Terraform。
Kafka Connect 使用场景
Kafka Connect 支持在 Managed Service for Apache Kafka 集群与各种其他系统之间进行数据集成。以下是一些主要使用场景:
将现有 Kafka 部署迁移到 Managed Service for Apache Kafka。
将 Managed Service for Apache Kafka 集群复制到另一个区域,以实现灾难恢复。
将数据从 Managed Service for Apache Kafka 流式传输到 BigQuery、Cloud Storage、Pub/Sub。
Connect 集群
Connect 集群是 Kafka Connect 的分布式部署,包含预打包的连接器插件和配置。每个 Connect 集群都与一个 Managed Service for Apache Kafka 主集群相关联。此主集群存储在 Connect 集群上运行的连接器的状态。
通常,Managed Service for Apache Kafka 主集群还充当在关联的 Connect 集群上运行的所有源连接器的目标,以及所有接收器连接器的来源。
单个 Managed Service for Apache Kafka 集群可以有多个 Connect 集群。如果运行 MirrorMaker 2.0,Connect 集群可以连接到非主 Managed Service for Apache Kafka 集群或自行管理的 Kafka 集群,以读取或写入主题数据。此过程可在不同集群之间实现主题复制。
从资源模型的角度来看,Connect 集群是与 Managed Service for Apache Kafka 集群分开的 资源。
假设您有一个 Managed Service for Apache Kafka 集群,用于存储网站流量数据。您希望将此数据流式传输到 BigQuery 以进行分析。您可以创建一个 Connect 集群,并使用 BigQuery 接收器连接器将数据从 Kafka 主题移到 BigQuery。此 Connect 集群与您的 Managed Service for Apache Kafka 集群相关联,作为其主集群。
连接器
连接器是在 Kafka 集群和其他系统之间传输数据的软件组件。
源连接器将数据从来源写入 Managed Service for Apache Kafka 集群。
接收器连接器将数据从 Managed Service for Apache Kafka 集群写入接收器。
连接器在 Connect 集群中部署、配置和管理。它可以启动、停止、暂停、重启,并且可以更新其配置。
如需详细了解 Managed Service for Apache Kafka 支持的连接器类型,请参阅 连接器概览。
管理 Kafka Connect
借助 Kafka Connect,您可以专注于部署连接器,而 Managed Service for Apache Kafka 会处理底层基础架构和运营复杂性。
Kafka Connect 服务会自动执行以下操作:
预配 Kafka Connect 工作器:创建 Connect 集群时,Kafka Connect 服务会自动在 Kubernetes 中预配一个 工作器集群。
网络:Kafka Connect 服务会配置网络,以实现工作器、Managed Service for Apache Kafka 代理和外部系统之间的通信。在某些情况下,您可能需要对现有投放网络设置进行一些更改。
可用区弹性:Kafka Connect 服务会将工作器分布在至少三个可用区中,确保在发生可用区服务中断时可以继续进行数据处理。
身份验证:Kafka Connect 服务还会配置与 Kafka 代理的身份验证 ,确保连接安全。
发布和升级:Kafka Connect 服务会管理工作器 配置更改、版本升级和安全补丁,确保您的 部署始终处于最新状态。
在 Kafka Connect 服务中,您可以执行以下配置:
容量和网络限制:定义资源限制和网络 配置,以优化性能和成本。
监控和日志记录:访问连接器的日志和指标,以 监控性能并排查问题。
连接器生命周期管理:根据需要暂停、恢复、重启或停止 连接器,以管理数据流水线。
限制
Kafka 主集群必须是 Managed Service for Apache Kafka 集群。主集群是 Kafka Connect 集群向其写入元数据的集群。
您无法将自定义连接器插件上传到 Kafka Connect 集群。
该服务不支持使用 Schema Registry 针对远程架构进行验证。