Lakehouse for Apache Iceberg supporta più tipi di tabelle, offrendo diversi livelli di gestione, prestazioni e interoperabilità per il tuo lakehouse su Google Cloud. In base all'origine dei dati, ai requisiti del motore di scrittura e alle esigenze di controllo, puoi scegliere i formati di tabella supportati dal catalogo runtime Lakehouse o da BigQuery.
Formati di tabella supportati
Sono supportate solo le tabelle Apache Iceberg V2; le tabelle Iceberg V1 non sono supportate. Se hai tabelle Iceberg V1 esistenti, devi eseguirne l'upgrade alla versione 2 (ad esempio eseguendo ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); o utilizzando operazioni del motore simili) prima di utilizzarle con Lakehouse for Apache Iceberg.
Formati di tabella per catalogo e motore
Seleziona un catalogo o un motore di seguito per scoprire i formati di tabella supportati, la configurazione del metastore, le funzionalità di ottimizzazione dello spazio di archiviazione e l'interoperabilità del motore.
Catalogo REST Iceberg
Il catalogo runtime Lakehouse gestisce le tabelle Apache Iceberg tramite l'endpoint del catalogo REST Iceberg, fornendo un'interfaccia REST standard per un'ampia compatibilità con i motori open source come Apache Spark, Apache Flink e Trino. Puoi creare queste tabelle dai motori open source e archiviarle in Cloud Storage. Questa opzione è ideale se vuoi che il flusso di lavoro ETL sia gestito da motori open source e richieda solo l'accesso in lettura da BigQuery.
Alcuni esempi delle principali funzionalità:
- Metastore: catalogo runtime Lakehouse.
- Spazio di archiviazione: Cloud Storage.
- Ottimizzazione dello spazio di archiviazione: gestita da te o da una terza parte.
- Accesso in lettura e scrittura:
- Motori open source: lettura e scrittura.
- BigQuery: solo lettura.
- Casi d'uso: lakehouse open con spazio di archiviazione di livello aziendale e ad alte prestazioni per analisi avanzate, streaming e AI.
Metastore Hive
Il catalogo runtime Lakehouse gestisce le tabelle Apache Hive tramite un endpoint del metastore Apache Hive (HMS) ottimizzato per la compatibilità con ExternalCatalog di Apache Spark, consentendoti di condividere facilmente i dati tra Apache Spark, Apache Hive e BigQuery. Puoi creare queste tabelle dai motori open source e archiviarle in Cloud Storage. Questa opzione è ideale se vuoi che il flusso di lavoro ETL sia gestito da motori open source senza la necessità di un metastore Hive self-hosting separato e richieda solo l'accesso in lettura da BigQuery.
Alcuni esempi delle principali funzionalità:
- Metastore: catalogo runtime Lakehouse (tramite
IMetastoreClient). - Spazio di archiviazione: Cloud Storage (che supporta formati come Parquet, ORC, e Avro).
- Ottimizzazione dello spazio di archiviazione: gestita da te o da una terza parte.
- Accesso in lettura e scrittura:
- Motori open source (Spark e Hive): lettura e scrittura.
- BigQuery: solo lettura.
- Casi d'uso: migrazione dei carichi di lavoro Spark e Hive esistenti a un metastore serverless completamente gestito su Google Cloud.
BigQuery
BigQuery supporta tabelle Apache Iceberg, tabelle native e tabelle esterne.
Tabelle Apache Iceberg: si tratta di tabelle Apache Iceberg che crei e gestisci da BigQuery e archivi in Cloud Storage. Sebbene possano essere lette da motori open source, BigQuery è il motore che gestisce i metadati e scrive su di essi. Questa opzione è ideale se vuoi che il flusso di lavoro sia completamente gestito da BigQuery.
Tabelle native: si tratta di tabelle BigQuery native. Sono completamente gestite e offrono le funzionalità di analisi e gestione più avanzate. Questa opzione è ideale per i carichi di lavoro non Iceberg.
Tabelle esterne: si tratta di costrutti specifici di BigQuery per i dati archiviati in Cloud Storage, Amazon S3 o Archiviazione BLOB di Azure. I dati e i metadati sono autogestiti e BigQuery ha solo accesso in lettura. Scegli questa opzione per i dati che vuoi gestire direttamente in un catalogo o in uno spazio di archiviazione di terze parti.
Confrontare i tipi di tabella
Utilizza il seguente grafico per confrontare i tipi di tabella tra il catalogo runtime Lakehouse e BigQuery.
Lakehouse
| Apache Iceberg (GA) | Apache Hive (anteprima) | |
|---|---|---|
| Metastore | Catalogo runtime Lakehouse | Catalogo runtime Lakehouse |
| Spazio di archiviazione | Cloud Storage | Cloud Storage |
| Ottimizzazione dello spazio di archiviazione | Gestita dal cliente o da terze parti | Gestita dal cliente o da terze parti |
| Lettura / scrittura |
Motori open source (lettura/scrittura) BigQuery (solo lettura) |
Motori open source (lettura/scrittura) BigQuery (solo lettura) |
| Operazioni avanzate | Nessuna | Nessuna |
| Casi d'uso | Lakehouse open | Migrazione dei carichi di lavoro Spark e Hive esistenti a un metastore serverless completamente gestito |
BigQuery
| Iceberg gestito da BigQuery | Tabelle esterne | Tabelle standard | |
|---|---|---|---|
| Metastore | BigQuery | Metastore esterno o self-hosting | BigQuery |
| Spazio di archiviazione | Cloud Storage | Cloud Storage / Amazon S3 / Azure | BigQuery |
| Ottimizzazione dello spazio di archiviazione | Gestita da Google | Gestita dal cliente o da terze parti | Gestita da Google |
| Lettura / scrittura |
Motori open source (solo lettura con le librerie Iceberg, interoperabilità di lettura/scrittura con l'API BigQuery Storage)
BigQuery (lettura/scrittura) |
Motori open source (lettura/scrittura) BigQuery (solo lettura) |
Motori open source (interoperabilità di lettura/scrittura con
API BigQuery Storage) BigQuery (lettura/scrittura) |
| Operazioni avanzate | Streaming a velocità effettiva elevata con l'API BigQuery Storage di scrittura, Change Data Capture (CDC) e transazioni multi-istruzione | Nessuna | Streaming a velocità effettiva elevata con l'API BigQuery Storage di scrittura, Change Data Capture (CDC) e transazioni multi-istruzione |
| Casi d'uso | Lakehouse open con spazio di archiviazione di livello aziendale e ad alte prestazioni per analisi avanzate, streaming e AI | Tabelle di staging per i caricamenti di BigQuery, tabelle legacy di sola query | Spazio di archiviazione di livello aziendale per analisi avanzate, streaming e AI |
Passaggi successivi
Scopri come gestire le tabelle Apache Iceberg.
Scopri come importare tabelle Iceberg esterne utilizzando Dataflow.
Scopri come utilizzare la federazione di cataloghi con BigQuery.