Mulai 20 April 2026, BigLake kini disebut Lakehouse untuk Apache Iceberg. Metastore BigLake kini disebut katalog runtime Lakehouse. API Lakehouse, library klien, perintah CLI, dan nama IAM tetap tidak berubah dan masih mereferensikan BigLake.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Konsep utama

Dokumen ini menentukan istilah dan konsep utama untuk Lakehouse for Apache Iceberg.

Halaman ini bukan daftar fitur lengkap, melainkan referensi umum istilah dan konsep yang digunakan di seluruh dokumentasi Lakehouse Google Cloud.

Konsep Inti

Konsep berikut membentuk dasar arsitektur Lakehouse Google Cloud.

Lakehouse Data

Data lakehouse menggabungkan penghematan biaya dan fleksibilitas data lake dengan pengelolaan dan performa data warehouse. Dengan data lakehouse, Anda dapat menyimpan data dalam format terbuka di Cloud Storage dan menggunakan fitur BigQuery, seperti kontrol keamanan yang presisi dan kueri cepat.

Arsitektur medali

Pola desain umum dalam data lakehouse adalah arsitektur medali, yang secara logis mengatur data ke dalam lapisan struktur dan kualitas progresif:

Lapisan perunggu (mentah): Menyerap dan menyimpan data mentah dalam format terbuka seperti Apache Iceberg di Cloud Storage.
Lapisan perak (dibersihkan): Membersihkan, memfilter, dan memperkaya data mentah ke dalam tabel standar.
Lapisan emas (terkurasi): Menyediakan tabel tingkat bisnis yang teragregasi dan terkurasi sepenuhnya. Di Lakehouse Google Cloud, BigQuery sering digunakan untuk menyajikan lapisan emas untuk konsumsi, pelaporan, dan analisis berperforma tinggi.

Interoperabilitas Terbuka

Interoperabilitas terbuka adalah kemampuan beberapa sistem analitik dan transaksional—seperti BigQuery, Apache Spark, dan Apache Flink—untuk beroperasi pada satu salinan data dalam format terbuka seperti Apache Iceberg. Hal ini menghilangkan kebutuhan akan duplikasi data dan memastikan tampilan data yang konsisten di berbagai alat yang berbeda.

Katalog runtime Lakehouse

Katalog runtime Lakehouse adalah layanan metadata terpusat dan serverless yang bertindak sebagai sumber tepercaya tunggal untuk Lakehouse Google Cloud. Dengan katalog ini, beberapa mesin, seperti Apache Spark, Apache Flink, dan BigQuery, dapat menemukan dan mengkueri tabel yang sama secara bersamaan.

Jenis Katalog

Katalog runtime Lakehouse menawarkan berbagai jenis katalog untuk mengelola metadata Anda.

Endpoint katalog REST Apache Iceberg

Ini adalah katalog yang didasarkan pada endpoint katalog REST Apache Iceberg. Katalog ini menyediakan interoperabilitas antara mesin open source dan BigQuery, serta mendukung fitur seperti penyediaan kredensial dan pemulihan dari bencana.

Katalog Apache Iceberg kustom untuk BigQuery

Ini adalah integrasi yang menggunakan katalog BigQuery secara langsung sebagai layanan metadata pendukung untuk tabel Apache Iceberg terkelola.

Endpoint katalog Apache Hive

Endpoint ini menyediakan kompatibilitas untuk workload open source yang bergantung pada antarmuka metastore Apache Hive (HMS), sehingga Anda dapat menjalankan workload Apache Hive atau Spark terhadap layanan metastore yang terkelola sepenuhnya di Google Cloud.

Jenis tabel

Lakehouse Google Cloud mendukung beberapa format tabel, bergantung pada mesin yang digunakan untuk mengelola data dan endpoint katalog yang Anda gunakan.

Tabel Apache Iceberg

Ini adalah tabel Apache Iceberg yang Anda buat dari mesin open source dan disimpan di Cloud Storage. Katalog runtime Lakehouse mengelola tabel ini melalui endpoint katalog REST Apache Iceberg. Mesin open source memiliki akses baca dan tulis ke tabel ini, sedangkan BigQuery memiliki akses baca saja. Opsi ini paling cocok jika Anda ingin alur kerja ETL dikelola oleh mesin open source.

Tabel BigQuery

Tabel ini dikelola dengan BigQuery.

Tabel Apache Iceberg

Ini adalah tabel Apache Iceberg yang Anda buat dari BigQuery dan disimpan di Cloud Storage. BigQuery menangani semua tata letak dan pengoptimalan data. Meskipun tabel ini dapat dibaca oleh beberapa mesin, BigQuery adalah satu-satunya mesin yang dapat langsung menulis ke tabel tersebut.

Tabel native

Tabel ini dikelola oleh BigQuery dan menyimpan data di penyimpanan BigQuery. Anda dapat menghubungkan tabel ini ke katalog runtime Lakehouse.

Tabel eksternal

Tabel eksternal berada di luar katalog runtime Lakehouse. Data dan metadata dikelola sendiri dalam katalog pihak ketiga (seperti Cloud Storage, S3, atau Azure Blob Storage). BigQuery hanya dapat membaca dari tabel ini.

Fitur Tabel

Evolusi tabel

Lakehouse Google Cloud mendukung evolusi tabel Apache Iceberg, yang memungkinkan Anda mengubah skema atau spesifikasi partisi tabel dari waktu ke waktu tanpa menulis ulang data tabel atau membuat ulang tabel.

Perjalanan waktu

Perjalanan waktu memungkinkan Anda mengkueri data tabel sebagaimana adanya pada titik waktu atau ID snapshot tertentu. Fitur ini berguna untuk audit, mereproduksi eksperimen, atau memulihkan data setelah penghapusan yang tidak disengaja.

Caching metadata

Caching metadata adalah fitur yang mempercepat performa kueri untuk tabel eksternal. Fitur ini menyimpan salinan metadata tabel di penyimpanan BigQuery, sehingga mengurangi kebutuhan untuk membaca file metadata dari Cloud Storage selama eksekusi kueri.

Pengelolaan tabel Lakehouse Google Cloud

Pengelolaan tabel Lakehouse Google Cloud menyederhanakan pemeliharaan lakehouse dengan mengotomatiskan tugas seperti pemadatan dan pembersihan sampah memori untuk tabel terkelola. Hal ini memastikan performa kueri dan efisiensi penyimpanan yang optimal.

Konsep Interoperabilitas

Gabungan katalog BigQuery

Gabungan katalog BigQuery memungkinkan Anda menggunakan endpoint katalog REST Apache Iceberg katalog runtime Lakehouse untuk mengekspos tabel yang dikelola oleh BigQuery, misalnya tabel terkelola Iceberg, ke mesin open source (OSS) eksternal seperti Apache Spark dan Trino.

Daripada membuat penampung katalog Lakehouse khusus untuk menyimpan metadata, endpoint katalog REST Apache Iceberg bertindak murni sebagai gateway proxy, yang merutekan permintaan katalog langsung ke katalog internal BigQuery. Dengan demikian, Anda dapat membuat dan mengelola tabel langsung dalam BigQuery menggunakan DDL atau API BigQuery standar, sekaligus memberikan akses baca saja ke mesin OSS eksternal untuk mengkueri tabel tersebut melalui endpoint katalog REST.

Lakehouse Lintas Cloud

Lakehouse Lintas Cloud memperluas Lakehouse Google Cloud, sehingga Anda dapat terhubung ke katalog eksternal jarak jauh (misalnya, Databricks Unity Catalog atau AWS Glue). Fitur ini menyinkronkan metadata dari penyedia cloud lain, sehingga Anda dapat mengkueri data dengan BigQuery atau mesin open source eksternal melalui endpoint katalog REST Apache Iceberg, tanpa melakukan migrasi data.

Set data publik

Lakehouse Google Cloud menghosting set data publik berkualitas tinggi yang disajikan melalui katalog REST Apache Iceberg, sehingga memberikan akses baca saja untuk eksplorasi dan pengujian tanpa mengelola infrastruktur.

Struktur penamaan P.C.N.T.

Struktur penamaan P.C.N.T. adalah konvensi empat bagian yang digunakan untuk mengidentifikasi dan mengkueri tabel secara unik dalam katalog runtime Lakehouse dari BigQuery. Struktur ini adalah singkatan dari Project.Catalog.Namespace.Table:

Project: Project ID. Google Cloud
Katalog: Nama katalog runtime Lakehouse.
Namespace: Pengelompokan logis untuk tabel (mirip dengan set data).
Table: Nama tabel data.

Konsep Keamanan

Koneksi

Koneksi adalah resource BigQuery yang menyimpan kredensial untuk mengakses data eksternal. Di Lakehouse Google Cloud, koneksi mendelegasikan akses ke Cloud Storage dengan mengizinkan akun layanan koneksi mengakses bucket penyimpanan atas nama Anda.

Penyediaan Kredensial

Penyediaan kredensial adalah mekanisme keamanan yang membantu memperketat kontrol akses saat menggunakan katalog runtime Lakehouse. Jika diaktifkan, layanan ini akan membuat kredensial berjangka pendek dan terbatas yang dirancang untuk memberikan akses hanya ke jalur file tertentu yang diperlukan untuk kueri.

Tata kelola terpadu

Tata kelola terpadu memungkinkan Anda menentukan dan menerapkan kebijakan keamanan dan pengelolaan data secara terpusat melalui integrasi dengan Knowledge Catalog. Saat Anda mendaftarkan tabel ke katalog runtime Lakehouse, sistem akan otomatis mendaftarkan entri yang sesuai ke katalog metadata bisnis (Knowledge Catalog), sehingga memungkinkan silsilah data, penelusuran semantik, dan tata kelola terpusat di seluruh mesin tanpa memindahkan atau menyalin file.

Konsep Mesin Kueri

Lakehouse Google Cloud memisahkan penyimpanan dari komputasi, sehingga memungkinkan berbagai mesin analisis berinteraksi dengan tabel terbuka.

Managed Service untuk Apache Spark

Managed Service untuk Apache Spark (sebelumnya Managed Service untuk Apache Spark) menyediakan runtime yang terkelola sepenuhnya untuk memproses format tabel terbuka seperti Apache Iceberg. Layanan ini mendukung dua mode eksekusi utama:

Batch serverless: Dirancang untuk pipeline pemrosesan data non-interaktif dan otomatis serta workload ETL. Model bayar sesuai penggunaan ini menghilangkan pengelolaan cluster, menghapus pertentangan resource antar-tugas, dan mengotomatiskan pemeliharaan infrastruktur.
Sesi interaktif serverless: Dirancang untuk analisis data eksploratif, data engineering, dan eksperimen data science. Sesi interaktif mendukung notebook Apache Spark di balik layar menggunakan Spark Connect atau kernel Spark jarak jauh, sehingga menyediakan lingkungan penskalaan otomatis tanpa penyiapan infrastruktur.

Tingkat layanan

Saat menjalankan workload Apache Spark terhadap katalog runtime Lakehouse, Anda dapat memilih di antara berbagai tingkat layanan:

Tingkat standar: Tingkat eksekusi default yang cocok untuk workload pemrosesan batch standar.
Tingkat premium: Menyediakan kemampuan lanjutan, termasuk dukungan untuk sesi notebook interaktif serverless dan fitur yang mempercepat performa seperti Lightning Engine.

Template sesi

Template sesi menyederhanakan konfigurasi sesi interaktif serverless. Template ini memungkinkan administrator menentukan dan mempertahankan setelan lingkungan umum (seperti properti katalog, konfigurasi jaringan, dan versi runtime). Hal ini meningkatkan konsistensi dan produktivitas developer dengan meminimalkan penyiapan berulang. Template sesi dapat dibuat dan dikelola menggunakan Google Cloud konsol, gcloud CLI, REST API, atau Terraform.

Konsep Keandalan

Replikasi lintas-region

Replikasi lintas-region mereplikasi metadata di beberapa region untuk memastikan ketersediaan katalog selama pemadaman layanan regional.

Failover

Failover adalah proses beralih antara region utama dan sekunder selama pemadaman layanan regional untuk mempertahankan operasi katalog.

Konsep utama Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Konsep Inti

Lakehouse Data

Arsitektur medali

Interoperabilitas Terbuka

Katalog runtime Lakehouse

Jenis Katalog

Endpoint katalog REST Apache Iceberg

Katalog Apache Iceberg kustom untuk BigQuery

Endpoint katalog Apache Hive

Jenis tabel

Tabel Apache Iceberg

Tabel BigQuery

Tabel Apache Iceberg

Tabel native

Tabel eksternal

Fitur Tabel

Evolusi tabel

Perjalanan waktu

Caching metadata

Pengelolaan tabel Lakehouse Google Cloud

Konsep Interoperabilitas

Gabungan katalog BigQuery

Lakehouse Lintas Cloud

Set data publik

Struktur penamaan P.C.N.T.

Konsep Keamanan

Koneksi

Penyediaan Kredensial

Tata kelola terpadu

Konsep Mesin Kueri

Managed Service untuk Apache Spark

Tingkat layanan

Template sesi

Konsep Keandalan

Replikasi lintas-region

Failover

Konsep utama