Lakehouse untuk Apache Iceberg mendukung beberapa jenis tabel, yang menawarkan berbagai tingkat pengelolaan, performa, dan interoperabilitas untuk lakehouse Anda di Google Cloud. Berdasarkan asal data, persyaratan mesin tulis, dan kebutuhan kontrol, Anda dapat memilih format tabel yang didukung oleh Lakehouse runtime catalog atau BigQuery.
Format tabel yang didukung
Hanya tabel Apache Iceberg V2 yang didukung; tabel Iceberg V1 tidak didukung. Jika memiliki tabel Iceberg V1 yang ada, Anda harus mengupgrade-nya ke V2 (misalnya, dengan menjalankan ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); atau menggunakan operasi mesin serupa) sebelum menggunakannya dengan Lakehouse untuk Apache Iceberg.
Format tabel menurut katalog dan mesin
Pilih katalog atau mesin di bawah untuk mempelajari format tabel yang didukung, konfigurasi metastore, kemampuan pengoptimalan penyimpanan, dan interoperabilitas mesin.
Katalog REST Iceberg
Lakehouse runtime catalog mengelola tabel Apache Iceberg melalui endpoint katalog REST Iceberg, yang menyediakan antarmuka REST standar untuk kompatibilitas luas dengan mesin open source seperti Apache Spark, Apache Flink, dan Trino. Anda membuat tabel ini dari mesin open source dan menyimpannya di Cloud Storage. Opsi ini paling baik jika Anda ingin alur kerja ETL dikelola oleh mesin open source dan hanya memerlukan akses baca dari BigQuery.
Key features include:
- Metastore: Lakehouse runtime catalog.
- Storage: Cloud Storage.
- Storage optimization: Managed by you or a third party.
- Read and write access:
- Open-source engines: Read and write.
- BigQuery: Read only.
- Use cases: Open lakehouse with high-performance, enterprise-grade storage for advanced analytics, streaming, and AI.
Metastore Hive
Lakehouse runtime catalog mengelola tabel Apache Hive melalui endpoint metastore Apache Hive (HMS) yang dioptimalkan untuk kompatibilitas ExternalCatalog Apache Spark, sehingga Anda dapat berbagi data dengan lancar di seluruh Apache Spark, Apache Hive, dan BigQuery. Anda membuat tabel ini dari mesin open source dan menyimpannya di Cloud Storage. Opsi ini paling baik jika Anda ingin alur kerja ETL dikelola oleh mesin open source tanpa memerlukan metastore Hive yang dihosting sendiri secara terpisah, dan hanya memerlukan akses baca dari BigQuery.
Key features include:
- Metastore: Lakehouse runtime catalog (through custom
IMetastoreClient). - Storage: Cloud Storage (supporting formats like Parquet, ORC, and Avro).
- Storage optimization: Managed by you or a third party.
- Read and write access:
- Open-source engines (Spark and Hive): Read and write.
- BigQuery: Read only.
- Use cases: Migrating existing Spark and Hive workloads to a fully managed, serverless metastore on Google Cloud.
BigQuery
BigQuery mendukung tabel Apache Iceberg, tabel native, dan tabel eksternal.
Tabel Apache Iceberg: Tabel Apache Iceberg yang Anda buat dan kelola dari BigQuery dan disimpan di Cloud Storage. Meskipun dapat dibaca oleh mesin open source, BigQuery adalah mesin yang mengelola metadata dan menulis ke tabel tersebut. Opsi ini paling baik jika Anda ingin alur kerja dikelola sepenuhnya oleh BigQuery.
Tabel native: Tabel BigQuery native. Tabel ini dikelola sepenuhnya dan menawarkan fitur analisis dan pengelolaan tercanggih. Opsi ini paling baik untuk workload non-Iceberg.
Tabel eksternal: Tabel ini adalah konstruksi khusus BigQuery untuk data yang disimpan di Cloud Storage, Amazon S3, atau Azure Blob Storage. Data dan metadata dikelola sendiri, dan BigQuery hanya memiliki akses baca. Pilih opsi ini untuk data yang ingin Anda kelola di katalog atau penyimpanan pihak ketiga secara langsung.
Membandingkan jenis tabel
Gunakan diagram berikut untuk membandingkan jenis tabel antara Lakehouse runtime catalog dan BigQuery.
Lakehouse
| Apache Iceberg (GA) | Apache Hive (Pratinjau) | |
|---|---|---|
| Metastore | Lakehouse runtime catalog | Lakehouse runtime catalog |
| Storage | Cloud Storage | Cloud Storage |
| Storage optimization | Customer or third-party managed | Customer or third-party managed |
| Read / Write |
Open source engines (read/write) BigQuery (hanya baca) |
Open source engines (read/write) BigQuery (hanya baca) |
| Advanced operations | None | None |
| Use cases | Open lakehouse | Migrating existing Spark and Hive workloads to a fully managed, serverless metastore |
BigQuery
| BigQuery-managed Iceberg | External tables | Standard tables | |
|---|---|---|---|
| Metastore | BigQuery | External or self-hosted metastore | BigQuery |
| Storage | Cloud Storage | Cloud Storage / Amazon S3 / Azure | BigQuery |
| Storage optimization | Google managed | Customer or third-party managed | Google managed |
| Read / Write |
Open source engines (read only with Iceberg
libraries, read/write interoperability with BigQuery Storage API)
BigQuery (read/write) |
Open source engines (read/write) BigQuery (hanya baca) |
Open source engines (read/write interoperability with
BigQuery Storage API) BigQuery (read/write) |
| Advanced operations | High-throughput streaming with BigQuery Storage Write API, Change Data Capture (CDC), and multi-statement transactions | None | High-throughput streaming with BigQuery Storage Write API, Change Data Capture (CDC), and multi-statement transactions |
| Use cases | Open lakehouse with high-performant, enterprise-grade storage for advanced analytics, streaming, and AI | Staging tables for BigQuery loads, legacy query-only tables | Enterprise-grade storage for advanced analytics, streaming, and AI |
Langkah berikutnya
Pelajari cara mengelola tabel Apache Iceberg.
Pelajari cara mengimpor tabel Iceberg eksternal menggunakan Dataflow.
Pelajari cara menggunakan federasi katalog dengan BigQuery.