Dokumen ini menentukan istilah dan konsep utama untuk Lakehouse for Apache Iceberg.
Halaman ini bukan daftar fitur lengkap, melainkan referensi umum istilah dan konsep yang digunakan di seluruh dokumentasi Lakehouse Google Cloud.
Konsep Inti
Konsep berikut membentuk dasar arsitektur Lakehouse Google Cloud.
Lakehouse Data
Data lakehouse menggabungkan penghematan biaya dan fleksibilitas data lake dengan pengelolaan dan performa data warehouse. Dengan data lakehouse, Anda dapat menyimpan data dalam format terbuka di Cloud Storage dan menggunakan fitur BigQuery, seperti kontrol keamanan yang presisi dan kueri cepat.
Arsitektur medali
Pola desain umum dalam data lakehouse adalah arsitektur medali, yang secara logis mengatur data ke dalam lapisan struktur dan kualitas progresif:
- Lapisan perunggu (mentah): Menyerap dan menyimpan data mentah dalam format terbuka seperti Apache Iceberg di Cloud Storage.
- Lapisan perak (dibersihkan): Membersihkan, memfilter, dan memperkaya data mentah ke dalam tabel standar.
- Lapisan emas (terkurasi): Menyediakan tabel tingkat bisnis yang teragregasi dan terkurasi sepenuhnya. Di Lakehouse Google Cloud, BigQuery sering digunakan untuk menyajikan lapisan emas untuk konsumsi, pelaporan, dan analisis berperforma tinggi.
Interoperabilitas Terbuka
Interoperabilitas terbuka adalah kemampuan beberapa sistem analitik dan transaksional—seperti BigQuery, Apache Spark, dan Apache Flink—untuk beroperasi pada satu salinan data dalam format terbuka seperti Apache Iceberg. Hal ini menghilangkan kebutuhan akan duplikasi data dan memastikan tampilan data yang konsisten di berbagai alat yang berbeda.
Katalog runtime Lakehouse
Katalog runtime Lakehouse adalah layanan metadata terpusat dan serverless yang bertindak sebagai sumber tepercaya tunggal untuk Lakehouse Google Cloud. Dengan katalog ini, beberapa mesin, seperti Apache Spark, Apache Flink, dan BigQuery, dapat menemukan dan mengkueri tabel yang sama secara bersamaan.
Jenis Katalog
Katalog runtime Lakehouse menawarkan berbagai jenis katalog untuk mengelola metadata Anda.
Endpoint katalog REST Apache Iceberg
Ini adalah katalog yang didasarkan pada endpoint katalog REST Apache Iceberg. Katalog ini menyediakan interoperabilitas antara mesin open source dan BigQuery, serta mendukung fitur seperti penyediaan kredensial dan pemulihan dari bencana.
Katalog Apache Iceberg kustom untuk BigQuery
Ini adalah integrasi yang menggunakan katalog BigQuery secara langsung sebagai layanan metadata pendukung untuk tabel Apache Iceberg terkelola.
Endpoint katalog Apache Hive
Endpoint ini menyediakan kompatibilitas untuk workload open source yang bergantung pada antarmuka metastore Apache Hive (HMS), sehingga Anda dapat menjalankan workload Apache Hive atau Spark terhadap layanan metastore yang terkelola sepenuhnya di Google Cloud.
Jenis tabel
Lakehouse Google Cloud mendukung beberapa format tabel, bergantung pada mesin yang digunakan untuk mengelola data dan endpoint katalog yang Anda gunakan.
Tabel Apache Iceberg
Ini adalah tabel Apache Iceberg yang Anda buat dari mesin open source dan disimpan di Cloud Storage. Katalog runtime Lakehouse mengelola tabel ini melalui endpoint katalog REST Apache Iceberg. Mesin open source memiliki akses baca dan tulis ke tabel ini, sedangkan BigQuery memiliki akses baca saja. Opsi ini paling cocok jika Anda ingin alur kerja ETL dikelola oleh mesin open source.
Tabel BigQuery
Tabel ini dikelola dengan BigQuery.
Tabel Apache Iceberg
Ini adalah tabel Apache Iceberg yang Anda buat dari BigQuery dan disimpan di Cloud Storage. BigQuery menangani semua tata letak dan pengoptimalan data. Meskipun tabel ini dapat dibaca oleh beberapa mesin, BigQuery adalah satu-satunya mesin yang dapat langsung menulis ke tabel tersebut.
Tabel native
Tabel ini dikelola oleh BigQuery dan menyimpan data di penyimpanan BigQuery. Anda dapat menghubungkan tabel ini ke katalog runtime Lakehouse.
Tabel eksternal
Tabel eksternal berada di luar katalog runtime Lakehouse. Data dan metadata dikelola sendiri dalam katalog pihak ketiga (seperti Cloud Storage, S3, atau Azure Blob Storage). BigQuery hanya dapat membaca dari tabel ini.
Fitur Tabel
Evolusi tabel
Lakehouse Google Cloud mendukung evolusi tabel Apache Iceberg, yang memungkinkan Anda mengubah skema atau spesifikasi partisi tabel dari waktu ke waktu tanpa menulis ulang data tabel atau membuat ulang tabel.
Perjalanan waktu
Perjalanan waktu memungkinkan Anda mengkueri data tabel sebagaimana adanya pada titik waktu atau ID snapshot tertentu. Fitur ini berguna untuk audit, mereproduksi eksperimen, atau memulihkan data setelah penghapusan yang tidak disengaja.
Caching metadata
Caching metadata adalah fitur yang mempercepat performa kueri untuk tabel eksternal. Fitur ini menyimpan salinan metadata tabel di penyimpanan BigQuery, sehingga mengurangi kebutuhan untuk membaca file metadata dari Cloud Storage selama eksekusi kueri.
Pengelolaan tabel Lakehouse Google Cloud
Pengelolaan tabel Lakehouse Google Cloud menyederhanakan pemeliharaan lakehouse dengan mengotomatiskan tugas seperti pemadatan dan pembersihan sampah memori untuk tabel terkelola. Hal ini memastikan performa kueri dan efisiensi penyimpanan yang optimal.
Konsep Interoperabilitas
Gabungan katalog BigQuery
Gabungan katalog BigQuery memungkinkan Anda menggunakan endpoint katalog REST Apache Iceberg katalog runtime Lakehouse untuk mengekspos tabel yang dikelola oleh BigQuery, misalnya tabel terkelola Iceberg, ke mesin open source (OSS) eksternal seperti Apache Spark dan Trino.
Daripada membuat penampung katalog Lakehouse khusus untuk menyimpan metadata, endpoint katalog REST Apache Iceberg bertindak murni sebagai gateway proxy, yang merutekan permintaan katalog langsung ke katalog internal BigQuery. Dengan demikian, Anda dapat membuat dan mengelola tabel langsung dalam BigQuery menggunakan DDL atau API BigQuery standar, sekaligus memberikan akses baca saja ke mesin OSS eksternal untuk mengkueri tabel tersebut melalui endpoint katalog REST.
Lakehouse Lintas Cloud
Lakehouse Lintas Cloud memperluas Lakehouse Google Cloud, sehingga Anda dapat terhubung ke katalog eksternal jarak jauh (misalnya, Databricks Unity Catalog atau AWS Glue). Fitur ini menyinkronkan metadata dari penyedia cloud lain, sehingga Anda dapat mengkueri data dengan BigQuery atau mesin open source eksternal melalui endpoint katalog REST Apache Iceberg, tanpa melakukan migrasi data.
Set data publik
Lakehouse Google Cloud menghosting set data publik berkualitas tinggi yang disajikan melalui katalog REST Apache Iceberg, sehingga memberikan akses baca saja untuk eksplorasi dan pengujian tanpa mengelola infrastruktur.
Struktur penamaan P.C.N.T.
Struktur penamaan P.C.N.T. adalah konvensi empat bagian yang digunakan untuk mengidentifikasi dan mengkueri tabel secara unik dalam katalog runtime Lakehouse dari BigQuery. Struktur ini adalah singkatan dari Project.Catalog.Namespace.Table:
- Project: Project ID. Google Cloud
- Katalog: Nama katalog runtime Lakehouse.
- Namespace: Pengelompokan logis untuk tabel (mirip dengan set data).
- Table: Nama tabel data.
Konsep Keamanan
Koneksi
Koneksi adalah resource BigQuery yang menyimpan kredensial untuk mengakses data eksternal. Di Lakehouse Google Cloud, koneksi mendelegasikan akses ke Cloud Storage dengan mengizinkan akun layanan koneksi mengakses bucket penyimpanan atas nama Anda.
Penyediaan Kredensial
Penyediaan kredensial adalah mekanisme keamanan yang membantu memperketat kontrol akses saat menggunakan katalog runtime Lakehouse. Jika diaktifkan, layanan ini akan membuat kredensial berjangka pendek dan terbatas yang dirancang untuk memberikan akses hanya ke jalur file tertentu yang diperlukan untuk kueri.
Tata kelola terpadu
Tata kelola terpadu memungkinkan Anda menentukan dan menerapkan kebijakan keamanan dan pengelolaan data secara terpusat melalui integrasi dengan Knowledge Catalog. Saat Anda mendaftarkan tabel ke katalog runtime Lakehouse, sistem akan otomatis mendaftarkan entri yang sesuai ke katalog metadata bisnis (Knowledge Catalog), sehingga memungkinkan silsilah data, penelusuran semantik, dan tata kelola terpusat di seluruh mesin tanpa memindahkan atau menyalin file.
Konsep Mesin Kueri
Lakehouse Google Cloud memisahkan penyimpanan dari komputasi, sehingga memungkinkan berbagai mesin analisis berinteraksi dengan tabel terbuka.
Managed Service untuk Apache Spark
Managed Service untuk Apache Spark (sebelumnya Managed Service untuk Apache Spark) menyediakan runtime yang terkelola sepenuhnya untuk memproses format tabel terbuka seperti Apache Iceberg. Layanan ini mendukung dua mode eksekusi utama:
- Batch serverless: Dirancang untuk pipeline pemrosesan data non-interaktif dan otomatis serta workload ETL. Model bayar sesuai penggunaan ini menghilangkan pengelolaan cluster, menghapus pertentangan resource antar-tugas, dan mengotomatiskan pemeliharaan infrastruktur.
- Sesi interaktif serverless: Dirancang untuk analisis data eksploratif, data engineering, dan eksperimen data science. Sesi interaktif mendukung notebook Apache Spark di balik layar menggunakan Spark Connect atau kernel Spark jarak jauh, sehingga menyediakan lingkungan penskalaan otomatis tanpa penyiapan infrastruktur.
Tingkat layanan
Saat menjalankan workload Apache Spark terhadap katalog runtime Lakehouse, Anda dapat memilih di antara berbagai tingkat layanan:
- Tingkat standar: Tingkat eksekusi default yang cocok untuk workload pemrosesan batch standar.
- Tingkat premium: Menyediakan kemampuan lanjutan, termasuk dukungan untuk sesi notebook interaktif serverless dan fitur yang mempercepat performa seperti Lightning Engine.
Template sesi
Template sesi menyederhanakan konfigurasi sesi interaktif serverless. Template ini memungkinkan administrator menentukan dan mempertahankan setelan lingkungan umum (seperti properti katalog, konfigurasi jaringan, dan versi runtime). Hal ini meningkatkan konsistensi dan produktivitas developer dengan meminimalkan penyiapan berulang. Template sesi dapat dibuat dan dikelola menggunakan Google Cloud konsol, gcloud CLI, REST API, atau Terraform.
Konsep Keandalan
Replikasi lintas-region
Replikasi lintas-region mereplikasi metadata di beberapa region untuk memastikan ketersediaan katalog selama pemadaman layanan regional.
Failover
Failover adalah proses beralih antara region utama dan sekunder selama pemadaman layanan regional untuk mempertahankan operasi katalog.