Kafka Connect adalah alat pilihan untuk integrasi data bagi developer Kafka. Alat ini menyediakan framework untuk menghubungkan Kafka dengan sistem eksternal seperti database, antrean pesan, dan sistem file.
Kafka Connect menyediakan serangkaian plugin konektor bawaan yang diseleksi, diperiksa, dan dikelola oleh Google Cloud. Plugin konektor ini otomatis di-patch dan diupgrade, sehingga menyederhanakan pemeliharaan dan memastikan kompatibilitas. Google Cloud juga menyediakan pemantauan dan logging bawaan untuk menjaga kesehatan pipeline Anda.
Kafka Connect API ditawarkan sebagai bagian dari layanan Google Cloud Managed Service untuk Apache Kafka. API ini dapat diakses melalui managedkafka.googleapis.com dan terintegrasi ke dalam Google Cloud konsol dan library klien. Untuk mengelola Kafka
Connect, Anda dapat menggunakan Google Cloud konsol, gcloud CLI, Managed Kafka API, library klien cloud, atau Terraform.
Kasus penggunaan Kafka Connect
Kafka Connect mendukung integrasi data antara cluster Managed Service untuk Apache Kafka dan berbagai sistem lainnya. Berikut beberapa kasus penggunaan utama:
Migrasikan deployment Kafka yang ada ke Managed Service untuk Apache Kafka.
Replikasi cluster Managed Service untuk Apache Kafka ke region lain untuk pemulihan dari bencana.
Streaming data dari Managed Service untuk Apache Kafka ke BigQuery, Cloud Storage, Pub/Sub.
Menghubungkan cluster
Cluster Connect adalah deployment Kafka Connect terdistribusi dengan plugin dan konfigurasi konektor yang telah dikemas sebelumnya. Setiap cluster Connect dikaitkan dengan cluster Managed Service untuk Apache Kafka utama. Cluster utama ini menyimpan status konektor yang berjalan di cluster Connect.
Umumnya, cluster Managed Service untuk Apache Kafka utama juga berfungsi sebagai target untuk semua konektor sumber dan sumber untuk semua konektor sink yang berjalan di cluster Connect terkait.
Satu cluster Managed Service untuk Apache Kafka dapat memiliki beberapa cluster Connect. Jika menjalankan MirrorMaker 2.0, cluster Connect dapat terhubung ke cluster Managed Service untuk Apache Kafka non-utama atau cluster Kafka yang dikelola sendiri untuk membaca atau menulis data topik. Proses ini memungkinkan replikasi topik antar-cluster yang berbeda.
Dari perspektif model resource, cluster Connect adalah resource terpisah dari cluster Managed Service untuk Apache Kafka.
Misalkan Anda memiliki cluster Managed Service untuk Apache Kafka tempat Anda menyimpan data traffic situs. Anda ingin melakukan streaming data ini ke BigQuery untuk dianalisis. Anda dapat membuat cluster Connect dan menggunakan konektor sink BigQuery untuk memindahkan data dari topik Kafka ke BigQuery. Cluster Connect ini dikaitkan dengan cluster Managed Service untuk Apache Kafka sebagai cluster utamanya.
Konektor
Konektor adalah komponen software yang mentransfer data antara cluster Kafka dan sistem lainnya.
Konektor sumber menulis data dari sumber ke cluster Managed Service untuk Apache Kafka.
Konektor sink menulis data dari cluster Managed Service untuk Apache Kafka ke sink.
Konektor di-deploy, dikonfigurasi, dan dikelola dalam cluster Connect. Konektor dapat dimulai, dihentikan, dijeda, dimulai ulang, dan konfigurasinya dapat diperbarui.
Untuk mempelajari lebih lanjut jenis konektor yang didukung Managed Service untuk Apache Kafka, lihat Ringkasan konektor.
Mengelola Kafka Connect
Dengan Kafka Connect, Anda dapat berfokus pada deployment konektor, sementara Managed Service untuk Apache Kafka menangani infrastruktur yang mendasarinya dan kompleksitas operasional.
Layanan Kafka Connect mengotomatiskan hal berikut:
Penyediaan pekerja Kafka Connect: Saat Anda membuat cluster Connect, layanan Kafka Connect akan otomatis menyediakan cluster pekerja di Kubernetes.
Jaringan: Layanan Kafka Connect mengonfigurasi jaringan untuk memungkinkan komunikasi antara pekerja, broker Managed Service untuk Apache Kafka dan sistem eksternal. Dalam beberapa kasus, Anda mungkin perlu melakukan beberapa perubahan pada setelan jaringan yang ada.
Ketahanan zona: Layanan Kafka Connect mendistribusikan pekerja di minimal tiga zona, sehingga pemrosesan data dapat dilanjutkan jika terjadi pemadaman layanan zona.
Autentikasi: Layanan Kafka Connect juga mengonfigurasi autentikasi dengan broker Kafka, sehingga memastikan koneksi yang aman.
Peluncuran dan upgrade: Layanan Kafka Connect mengelola perubahan konfigurasi pekerja, upgrade versi, dan patch keamanan, sehingga memastikan deployment Anda selalu terbaru.
Dalam layanan Kafka Connect, Anda dapat melakukan konfigurasi berikut:
Batasan kapasitas dan jaringan: Tentukan batas resource dan konfigurasi jaringan untuk mengoptimalkan performa dan biaya.
Pemantauan dan logging: Akses log dan metrik untuk konektor Anda guna memantau performa dan memecahkan masalah.
Pengelolaan siklus proses konektor: Jeda, lanjutkan, mulai ulang, atau hentikan konektor sesuai kebutuhan untuk mengelola pipeline data Anda.
Batasan
Cluster Kafka utama harus berupa cluster Managed Service untuk Apache Kafka. Cluster utama adalah cluster tempat cluster Kafka Connect menulis metadatanya.
Anda tidak dapat mengupload plugin konektor kustom ke cluster Kafka Connect.
Layanan ini tidak mendukung validasi terhadap skema jarak jauh menggunakan Schema Registry.