Memahami jenis dan kemampuan tabel

Lakehouse untuk Apache Iceberg mendukung beberapa jenis tabel, yang menawarkan berbagai tingkat pengelolaan, performa, dan interoperabilitas untuk lakehouse Anda di Google Cloud. Berdasarkan asal data, persyaratan mesin tulis, dan kebutuhan kontrol, Anda dapat memilih format tabel yang didukung oleh Lakehouse runtime catalog atau BigQuery.

Format tabel yang didukung

Hanya tabel Apache Iceberg V2 yang didukung; tabel Iceberg V1 tidak didukung. Jika memiliki tabel Iceberg V1 yang ada, Anda harus mengupgrade-nya ke V2 (misalnya, dengan menjalankan ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); atau menggunakan operasi mesin serupa) sebelum menggunakannya dengan Lakehouse untuk Apache Iceberg.

Format tabel menurut katalog dan mesin

Pilih katalog atau mesin di bawah untuk mempelajari format tabel yang didukung, konfigurasi metastore, kemampuan pengoptimalan penyimpanan, dan interoperabilitas mesin.

Katalog REST Iceberg

Lakehouse runtime catalog mengelola tabel Apache Iceberg melalui endpoint katalog REST Iceberg, yang menyediakan antarmuka REST standar untuk kompatibilitas luas dengan mesin open source seperti Apache Spark, Apache Flink, dan Trino. Anda membuat tabel ini dari mesin open source dan menyimpannya di Cloud Storage. Opsi ini paling baik jika Anda ingin alur kerja ETL dikelola oleh mesin open source dan hanya memerlukan akses baca dari BigQuery.

Key features include:

  • Metastore: Lakehouse runtime catalog.
  • Storage: Cloud Storage.
  • Storage optimization: Managed by you or a third party.
  • Read and write access:
    • Open-source engines: Read and write.
    • BigQuery: Read only.
  • Use cases: Open lakehouse with high-performance, enterprise-grade storage for advanced analytics, streaming, and AI.

Metastore Hive

Lakehouse runtime catalog mengelola tabel Apache Hive melalui endpoint metastore Apache Hive (HMS) yang dioptimalkan untuk kompatibilitas ExternalCatalog Apache Spark, sehingga Anda dapat berbagi data dengan lancar di seluruh Apache Spark, Apache Hive, dan BigQuery. Anda membuat tabel ini dari mesin open source dan menyimpannya di Cloud Storage. Opsi ini paling baik jika Anda ingin alur kerja ETL dikelola oleh mesin open source tanpa memerlukan metastore Hive yang dihosting sendiri secara terpisah, dan hanya memerlukan akses baca dari BigQuery.

Key features include:

  • Metastore: Lakehouse runtime catalog (through custom IMetastoreClient).
  • Storage: Cloud Storage (supporting formats like Parquet, ORC, and Avro).
  • Storage optimization: Managed by you or a third party.
  • Read and write access:
    • Open-source engines (Spark and Hive): Read and write.
    • BigQuery: Read only.
  • Use cases: Migrating existing Spark and Hive workloads to a fully managed, serverless metastore on Google Cloud.

BigQuery

BigQuery mendukung tabel Apache Iceberg, tabel native, dan tabel eksternal.

  • Tabel Apache Iceberg: Tabel Apache Iceberg yang Anda buat dan kelola dari BigQuery dan disimpan di Cloud Storage. Meskipun dapat dibaca oleh mesin open source, BigQuery adalah mesin yang mengelola metadata dan menulis ke tabel tersebut. Opsi ini paling baik jika Anda ingin alur kerja dikelola sepenuhnya oleh BigQuery.

  • Tabel native: Tabel BigQuery native. Tabel ini dikelola sepenuhnya dan menawarkan fitur analisis dan pengelolaan tercanggih. Opsi ini paling baik untuk workload non-Iceberg.

  • Tabel eksternal: Tabel ini adalah konstruksi khusus BigQuery untuk data yang disimpan di Cloud Storage, Amazon S3, atau Azure Blob Storage. Data dan metadata dikelola sendiri, dan BigQuery hanya memiliki akses baca. Pilih opsi ini untuk data yang ingin Anda kelola di katalog atau penyimpanan pihak ketiga secara langsung.

Membandingkan jenis tabel

Gunakan diagram berikut untuk membandingkan jenis tabel antara Lakehouse runtime catalog dan BigQuery.

Lakehouse

Apache Iceberg (GA) Apache Hive (Pratinjau)
Metastore Lakehouse runtime catalog Lakehouse runtime catalog
Storage Cloud Storage Cloud Storage
Storage optimization Customer or third-party managed Customer or third-party managed
Read / Write Open source engines (read/write)

BigQuery (hanya baca)
Open source engines (read/write)

BigQuery (hanya baca)
Advanced operations None None
Use cases Open lakehouse Migrating existing Spark and Hive workloads to a fully managed, serverless metastore

BigQuery

BigQuery-managed Iceberg External tables Standard tables
Metastore BigQuery External or self-hosted metastore BigQuery
Storage Cloud Storage Cloud Storage / Amazon S3 / Azure BigQuery
Storage optimization Google managed Customer or third-party managed Google managed
Read / Write Open source engines (read only with Iceberg libraries, read/write interoperability with BigQuery Storage API)

BigQuery (read/write)

Open source engines (read/write)

BigQuery (hanya baca)
Open source engines (read/write interoperability with BigQuery Storage API)

BigQuery (read/write)

Advanced operations High-throughput streaming with BigQuery Storage Write API, Change Data Capture (CDC), and multi-statement transactions None High-throughput streaming with BigQuery Storage Write API, Change Data Capture (CDC), and multi-statement transactions
Use cases Open lakehouse with high-performant, enterprise-grade storage for advanced analytics, streaming, and AI Staging tables for BigQuery loads, legacy query-only tables Enterprise-grade storage for advanced analytics, streaming, and AI

Langkah berikutnya