Lakehouse lintas-cloud untuk Apache Iceberg memungkinkan Anda membuat kueri data yang disimpan di penyedia cloud lain secara langsung tanpa memigrasikan file atau membuat pipeline ETL yang kompleks. Google Cloud
Sebagai bagian dari Lakehouse, kemampuan ini memungkinkan Anda melakukan analisis terpadu dan menerapkan AI di seluruh set data terdistribusi menggunakan BigQuery, lingkungan Apache Spark mandiri, atau Managed Service untuk Apache Spark.
Kasus penggunaan
Lakehouse lintas-cloud mendukung beberapa kasus penggunaan utama untuk mengakses data di beberapa penyedia cloud:
- Pengurangan pergerakan data memungkinkan Anda membuat kueri data yang disimpan di lingkungan cloud lain secara langsung, sehingga menyederhanakan akses dan pemrosesan data.
- Analisis terpadu memungkinkan Anda melakukan analisis lanjutan dengan fitur dan pengoptimalan hardware yang konsisten di seluruh data Anda, terlepas dari tempat data tersebut berada.
- AI dan ML lintas-cloud memungkinkan Anda menerapkan model AI, agen otonom, dan machine learning langsung ke data jarak jauh tanpa memigrasikannya.
Cara kerja Lakehouse lintas-cloud
Lakehouse lintas-cloud membuat kueri data jarak jauh menggunakan proses berikut:
- Penemuan metadata: Google Cloud's Lakehouse terhubung ke katalog REST Apache Iceberg jarak jauh, seperti Databricks Unity atau AWS Glue. Lakehouse menemukan data tanpa menyalin file apa pun. Bergantung pada penyedia katalog jarak jauh, Lakehouse melakukan autentikasi dengan aman melalui Secret Manager atau federasi token OpenID Connect dengan Google sebagai Penyedia Identitas (federasi token OIDC).
- Transportasi yang aman: Memilih untuk merutekan traffic melalui interkoneksi pribadi (misalnya, CCI Khusus atau Partner Interconnect) akan mengurangi biaya transfer data secara signifikan dibandingkan dengan internet publik dan membuat latensi sangat dapat diprediksi.
- Eksekusi yang dioptimalkan: Saat kueri membaca data dari cloud jarak jauh, Lakehouse akan menyimpan sementara segmen data tersebut secara lokal di Google Cloud penyimpanan khusus. Kueri berikutnya menggunakan cache lokal, yang menghindari sebagian besar biaya keluar lintas-cloud.
Katalog yang didukung
Lakehouse lintas-cloud mendukung kueri data dari penyedia katalog jarak jauh berikut:
- Databricks Unity Catalog: Didukung di Amazon Web Services (AWS) dan Google Cloud.
- AWS Glue: Didukung di Amazon Web Services (AWS).
Konsep inti
Bagian ini menjelaskan komponen utama yang penting untuk menggunakan Lakehouse lintas-cloud.
Katalog REST Apache Iceberg jarak jauh
Ini adalah lapisan metadata. Anda terhubung ke katalog REST Apache Iceberg jarak jauh. Lakehouse menemukan data tanpa menyalin file apa pun. Melalui federasi token OIDC atau kredensial OAuth, Lakehouse melakukan autentikasi dengan aman tanpa memerlukan kunci akses yang berlaku lama.
Lapisan transpor
Ini adalah lapisan transpor. Anda dapat mengonfigurasi Lakehouse untuk membuat kueri data yang disimpan di penyedia cloud jarak jauh melalui internet publik atau interkoneksi pribadi khusus.
Pilih metode transpor yang sesuai dengan persyaratan arsitektur dan keamanan Anda:
Milik pelanggan (CCI)
Anda dapat mengonfigurasi BigQuery untuk membuat kueri data yang disimpan di bucket Amazon S3 Amazon Web Services (AWS) melalui koneksi jaringan pribadi khusus menggunakan Cross-Cloud Interconnect atau Partner Interconnect.
Menggunakan interkoneksi pribadi memberikan manfaat berikut:
- Keamanan yang ditingkatkan: Data berpindah melalui koneksi jaringan pribadi antara Google Cloud dan AWS, sehingga menghindari internet publik.
- Pengurangan biaya: Potensi biaya keluar yang lebih rendah dari AWS dibandingkan dengan keluar internet, terutama jika dikombinasikan dengan kapasitas interkoneksi pribadi Anda.
- Performa yang konsisten: Latensi dan bandwidth jaringan yang lebih dapat diprediksi dibandingkan dengan internet publik.
Ringkasan arsitektur
Untuk mengaktifkan kueri pribadi, Anda mengonfigurasi jalur dari BigQuery ke bucket Amazon S3 AWS melalui interkoneksi pribadi. Komponen utama di Google Cloud Virtual Private Cloud (VPC) (VPC) adalah Load Balancer Internal (ILB). ILB mendistribusikan permintaan dari BigQuery ke endpoint pribadi untuk Amazon S3 dalam VPC AWS Anda, yang disediakan menggunakan AWS PrivateLink.
Menggunakan ILB dengan beberapa Elastic Network Interface (ENI) sebagai backend sangat penting untuk load balancing, skalabilitas, dan ketersediaan tinggi. Hal ini berlaku baik Anda menggunakan CCI Khusus maupun Partner Interconnect.
Alur kerja kueri pribadi mengikuti proses ini:
- BigQuery menggunakan koneksi yang dikonfigurasi dengan layanan Service Directory.
- Service Directory me-resolve nama layanan ke alamat IP internal the Google Cloud ILB.
- ILB menerima permintaan dari BigQuery dan mendistribusikannya ke backend yang dikonfigurasi.
- Backend ILB adalah Hybrid Connectivity Network Endpoint Group (NEG), yang masing-masing mengarah ke alamat IP pribadi ENI di VPC AWS Anda.
- Traffic mengalir dari ILB, melalui NEG, melalui interkoneksi pribadi, ke ENI AWS.
- ENI AWS, yang merupakan bagian dari Endpoint Antarmuka VPC Amazon S3 (AWS PrivateLink), menyediakan akses pribadi ke layanan Amazon S3.
Internet publik (tanpa CCI)
Jika Anda tidak mengonfigurasi interkoneksi pribadi, kueri ke katalog jarak jauh Anda akan berpindah melalui internet publik secara default.
Saat membuat kueri data melalui internet publik, pertimbangkan implikasi berikut:
- Enkripsi standar: Permintaan akses data dan transfer data dienkripsi dalam pengiriman menggunakan protokol TLS standar di seluruh internet publik.
- Biaya keluar: Transfer data dikenai biaya keluar internet standar dari penyedia cloud jarak jauh Anda (misalnya, AWS), yang biasanya lebih tinggi daripada tarif keluar interkoneksi pribadi.
- Latensi variabel: Performa jaringan, bandwidth, dan latensi bergantung pada perutean dan kemacetan internet publik, sehingga menghasilkan waktu eksekusi kueri yang kurang dapat diprediksi dibandingkan dengan interkoneksi pribadi khusus.
- Penyiapan yang disederhanakan: Tidak memerlukan infrastruktur jaringan tambahan, peering VPC, atau konfigurasi Service Directory di Google Cloud atau penyedia cloud jarak jauh Anda.
Ringkasan arsitektur
Saat membuat kueri data melalui internet publik, Lakehouse terhubung langsung ke endpoint penyimpanan objek dan katalog jarak jauh Anda tanpa memerlukan infrastruktur jaringan cloud pribadi Google Cloud atau jarak jauh.
Alur kerja kueri internet publik mengikuti proses ini:
- BigQuery memulai kueri terhadap tabel gabungan yang ditentukan dalam katalog Lakehouse Anda.
- Lakehouse melakukan autentikasi dengan aman menggunakan katalog Apache Iceberg jarak jauh Anda menggunakan kredensial yang disimpan di Secret Manager atau federasi token OIDC.
- Lakehouse mengambil metadata tabel dan file manifes di seluruh internet publik untuk mengidentifikasi file data pokok yang relevan (misalnya, di AWS Amazon S3).
- Permintaan akses data untuk objek pokok dikirim langsung dari Google Cloud melalui internet publik menggunakan enkripsi TLS standar.
- Layanan penyimpanan jarak jauh memverifikasi permintaan menggunakan kredensial sementara dan tercakup yang dijual oleh Lakehouse dan menampilkan blok data yang diminta di seluruh internet publik ke Google Cloud.
Langkah berikutnya
- Menyiapkan Lakehouse lintas-cloud untuk AWS Glue.
- Menyiapkan Lakehouse lintas-cloud untuk Databricks Unity Catalog.