Panoramica di Kafka Connect

Kafka Connect è lo strumento preferito per l'integrazione dei dati per gli sviluppatori Kafka. Fornisce un framework per connettere Kafka a sistemi esterni come database, code di messaggi e file system.

Kafka Connect fornisce un insieme selezionato di plug-in dei connettori incorporati, verificati e gestiti da Google Cloud. Questi plug-in connettori vengono patchati e aggiornati automaticamente, semplificando la manutenzione e garantendo la compatibilità.Google Cloud fornisce anche monitoraggio e logging integrati per mantenere l'integrità delle pipeline.

Le API Kafka Connect sono offerte nell'ambito del servizio Google Cloud Managed Service per Apache Kafka. Queste API sono accessibili tramite managedkafka.googleapis.com e sono integrate nella console e nelle librerie client Google Cloud . Per gestire Kafka Connect, puoi utilizzare la console Google Cloud , gcloud CLI, l'API Managed Kafka, le librerie client di Cloud o Terraform.

Casi d'uso di Kafka Connect

Kafka Connect supporta l'integrazione dei dati tra il tuo cluster Managed Service per Apache Kafka e vari altri sistemi. Ecco alcuni casi d'uso principali:

  • Migra le tue implementazioni Kafka esistenti a Managed Service per Apache Kafka.

  • Replica il cluster Managed Service per Apache Kafka in un'altra regione per ilripristino di emergenzay.

  • Trasmetti i dati da Managed Service per Apache Kafka a BigQuery, Cloud Storage e Pub/Sub.

Cluster di connessione

Un cluster di connessione è un deployment distribuito di Kafka Connect con plug-in e configurazioni di connettori pre-confezionati. Ogni cluster di connessione è associato a un cluster Managed Service per Apache Kafka principale. Questo cluster principale memorizza lo stato dei connettori in esecuzione sul cluster di connessione.

In genere, il cluster Managed Service per Apache Kafka principale funge anche da destinazione per tutti i connettori di origine e da origine per tutti i connettori di sink in esecuzione sul cluster di connessione associato.

Un singolo cluster Managed Service per Apache Kafka può avere più cluster Connect. Se esegui MirrorMaker 2.0, un cluster di connessione può connettersi a cluster Managed Service per Apache Kafka non primari o a cluster Kafka autogestiti per leggere o scrivere dati degli argomenti. Questo processo consente la replica degli argomenti tra cluster diversi.

Dal punto di vista del modello di risorse, un cluster di connessione è una risorsa separata da un cluster Managed Service per Apache Kafka.

Supponiamo che tu abbia un cluster Managed Service per Apache Kafka in cui memorizzi i dati sul traffico del sito web. Vuoi trasmettere in streaming questi dati in BigQuery per l'analisi. Puoi creare un cluster Connect e utilizzare un connettore di sink BigQuery per spostare i dati dagli argomenti Kafka a BigQuery. Questo cluster di connessione è associato al tuo cluster Managed Service per Apache Kafka come cluster principale.

Connettori

I connettori sono i componenti software che trasferiscono i dati tra il cluster Kafka e altri sistemi.

  • Un connettore di origine scrive i dati da un'origine a un cluster Managed Service per Apache Kafka.

  • Un connettore di sink scrive i dati da un cluster Managed Service per Apache Kafka a un sink.

Un connettore viene implementato, configurato e gestito all'interno del cluster di connessione. Può essere avviato, arrestato, messo in pausa, riavviato e la sua configurazione può essere aggiornata.

Per saperne di più sui tipi di connettori supportati da Managed Service per Apache Kafka, consulta Panoramica dei connettori.

Gestisci Kafka Connect

Con Kafka Connect, puoi concentrarti sul deployment dei connettori, mentre Managed Service per Apache Kafka gestisce l'infrastruttura sottostante e le complessità operative.

Il servizio Kafka Connect automatizza le seguenti operazioni:

  • Provisioning dei worker Kafka Connect: quando crei un cluster Connect, il servizio Kafka Connect esegue automaticamente il provisioning di un cluster di worker in Kubernetes.

  • Networking: il servizio Kafka Connect configura la rete per consentire la comunicazione tra i worker, i broker Managed Service per Apache Kafka e i sistemi esterni. In alcuni casi, potrebbe essere necessario apportare alcune modifiche alle impostazioni della rete esistenti.

  • Resilienza zonale: il servizio Kafka Connect distribuisce i worker in un minimo di tre zone, garantendo che l'elaborazione dei dati possa procedere in caso di interruzione zonale.

  • Autenticazione: il servizio Kafka Connect configura anche l'autenticazione con i broker Kafka, garantendo connessioni sicure.

  • Implementazioni e upgrade: il servizio Kafka Connect gestisce le modifiche alla configurazione dei worker, gli upgrade di versione e le patch di sicurezza, garantendo che i deployment siano sempre aggiornati.

All'interno del servizio Kafka Connect, puoi eseguire le seguenti configurazioni:

  • Vincoli di capacità e di rete: definisci i limiti delle risorse e le configurazioni di rete per ottimizzare le prestazioni e i costi.

  • Monitoraggio e logging: accedi ai log e alle metriche dei tuoi connettori per monitorare le prestazioni e risolvere i problemi.

  • Gestione del ciclo di vita dei connettori: metti in pausa, riprendi, riavvia o interrompi i connettori in base alle esigenze per gestire le pipeline di dati.

Limitazioni

  • Il cluster Kafka principale deve essere un cluster Managed Service per Apache Kafka. Il cluster principale è il cluster in cui il cluster Kafka Connect scrive i metadati.

  • Non puoi caricare plug-in di connettori personalizzati nel cluster Kafka Connect.

  • Il servizio non supporta la convalida rispetto a uno schema remoto utilizzando Schema Registry.

Passaggi successivi

Apache Kafka® è un marchio registrato di Apache Software Foundation o delle sue affiliate negli Stati Uniti e/o in altri paesi.