Informazioni sui tipi e sulle funzionalità delle tabelle

Lakehouse for Apache Iceberg supporta più tipi di tabelle, offrendo diversi livelli di gestione, prestazioni e interoperabilità per il tuo lakehouse su Google Cloud. In base all'origine dei dati, ai requisiti del motore di scrittura e alle esigenze di controllo, puoi scegliere i formati di tabella supportati dal catalogo runtime Lakehouse o da BigQuery.

Formati di tabella supportati

Sono supportate solo le tabelle Apache Iceberg V2; le tabelle Iceberg V1 non sono supportate. Se hai tabelle Iceberg V1 esistenti, devi eseguirne l'upgrade alla versione 2 (ad esempio eseguendo ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); o utilizzando operazioni del motore simili) prima di utilizzarle con Lakehouse for Apache Iceberg.

Formati di tabella per catalogo e motore

Seleziona un catalogo o un motore di seguito per scoprire i formati di tabella supportati, la configurazione del metastore, le funzionalità di ottimizzazione dello spazio di archiviazione e l'interoperabilità del motore.

Catalogo REST Iceberg

Il catalogo runtime Lakehouse gestisce le tabelle Apache Iceberg tramite l'endpoint del catalogo REST Iceberg, fornendo un'interfaccia REST standard per un'ampia compatibilità con i motori open source come Apache Spark, Apache Flink e Trino. Puoi creare queste tabelle dai motori open source e archiviarle in Cloud Storage. Questa opzione è ideale se vuoi che il flusso di lavoro ETL sia gestito da motori open source e richieda solo l'accesso in lettura da BigQuery.

Alcuni esempi delle principali funzionalità:

  • Metastore: catalogo runtime Lakehouse.
  • Spazio di archiviazione: Cloud Storage.
  • Ottimizzazione dello spazio di archiviazione: gestita da te o da una terza parte.
  • Accesso in lettura e scrittura:
    • Motori open source: lettura e scrittura.
    • BigQuery: solo lettura.
  • Casi d'uso: lakehouse open con spazio di archiviazione di livello aziendale e ad alte prestazioni per analisi avanzate, streaming e AI.

Metastore Hive

Il catalogo runtime Lakehouse gestisce le tabelle Apache Hive tramite un endpoint del metastore Apache Hive (HMS) ottimizzato per la compatibilità con ExternalCatalog di Apache Spark, consentendoti di condividere facilmente i dati tra Apache Spark, Apache Hive e BigQuery. Puoi creare queste tabelle dai motori open source e archiviarle in Cloud Storage. Questa opzione è ideale se vuoi che il flusso di lavoro ETL sia gestito da motori open source senza la necessità di un metastore Hive self-hosting separato e richieda solo l'accesso in lettura da BigQuery.

Alcuni esempi delle principali funzionalità:

  • Metastore: catalogo runtime Lakehouse (tramite IMetastoreClient).
  • Spazio di archiviazione: Cloud Storage (che supporta formati come Parquet, ORC, e Avro).
  • Ottimizzazione dello spazio di archiviazione: gestita da te o da una terza parte.
  • Accesso in lettura e scrittura:
    • Motori open source (Spark e Hive): lettura e scrittura.
    • BigQuery: solo lettura.
  • Casi d'uso: migrazione dei carichi di lavoro Spark e Hive esistenti a un metastore serverless completamente gestito su Google Cloud.

BigQuery

BigQuery supporta tabelle Apache Iceberg, tabelle native e tabelle esterne.

  • Tabelle Apache Iceberg: si tratta di tabelle Apache Iceberg che crei e gestisci da BigQuery e archivi in Cloud Storage. Sebbene possano essere lette da motori open source, BigQuery è il motore che gestisce i metadati e scrive su di essi. Questa opzione è ideale se vuoi che il flusso di lavoro sia completamente gestito da BigQuery.

  • Tabelle native: si tratta di tabelle BigQuery native. Sono completamente gestite e offrono le funzionalità di analisi e gestione più avanzate. Questa opzione è ideale per i carichi di lavoro non Iceberg.

  • Tabelle esterne: si tratta di costrutti specifici di BigQuery per i dati archiviati in Cloud Storage, Amazon S3 o Archiviazione BLOB di Azure. I dati e i metadati sono autogestiti e BigQuery ha solo accesso in lettura. Scegli questa opzione per i dati che vuoi gestire direttamente in un catalogo o in uno spazio di archiviazione di terze parti.

Confrontare i tipi di tabella

Utilizza il seguente grafico per confrontare i tipi di tabella tra il catalogo runtime Lakehouse e BigQuery.

Lakehouse

Apache Iceberg (GA) Apache Hive (anteprima)
Metastore Catalogo runtime Lakehouse Catalogo runtime Lakehouse
Spazio di archiviazione Cloud Storage Cloud Storage
Ottimizzazione dello spazio di archiviazione Gestita dal cliente o da terze parti Gestita dal cliente o da terze parti
Lettura / scrittura Motori open source (lettura/scrittura)

BigQuery (solo lettura)
Motori open source (lettura/scrittura)

BigQuery (solo lettura)
Operazioni avanzate Nessuna Nessuna
Casi d'uso Lakehouse open Migrazione dei carichi di lavoro Spark e Hive esistenti a un metastore serverless completamente gestito

BigQuery

Iceberg gestito da BigQuery Tabelle esterne Tabelle standard
Metastore BigQuery Metastore esterno o self-hosting BigQuery
Spazio di archiviazione Cloud Storage Cloud Storage / Amazon S3 / Azure BigQuery
Ottimizzazione dello spazio di archiviazione Gestita da Google Gestita dal cliente o da terze parti Gestita da Google
Lettura / scrittura Motori open source (solo lettura con le librerie Iceberg, interoperabilità di lettura/scrittura con l'API BigQuery Storage)

BigQuery (lettura/scrittura)

Motori open source (lettura/scrittura)

BigQuery (solo lettura)
Motori open source (interoperabilità di lettura/scrittura con API BigQuery Storage)

BigQuery (lettura/scrittura)

Operazioni avanzate Streaming a velocità effettiva elevata con l'API BigQuery Storage di scrittura, Change Data Capture (CDC) e transazioni multi-istruzione Nessuna Streaming a velocità effettiva elevata con l'API BigQuery Storage di scrittura, Change Data Capture (CDC) e transazioni multi-istruzione
Casi d'uso Lakehouse open con spazio di archiviazione di livello aziendale e ad alte prestazioni per analisi avanzate, streaming e AI Tabelle di staging per i caricamenti di BigQuery, tabelle legacy di sola query Spazio di archiviazione di livello aziendale per analisi avanzate, streaming e AI

Passaggi successivi