Lakehouse for Apache Iceberg unterstützt mehrere Tabellentypen und bietet unterschiedliche Verwaltungs-, Leistungs- und Interoperabilitätsstufen für Ihr Lakehouse auf Google Cloud. Je nach Datenquelle, Anforderungen an die Schreib-Engine und Kontrollanforderungen können Sie Tabellenformate auswählen, die entweder vom Lakehouse-Laufzeitkatalog oder von BigQuery unterstützt werden.
Unterstützte Tabellenformate
Es werden nur Apache Iceberg V2-Tabellen unterstützt. Iceberg V1-Tabellen werden nicht unterstützt. Wenn Sie vorhandene Iceberg V1-Tabellen haben, müssen Sie sie auf V2 aktualisieren (z. B. durch Ausführen von ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); oder ähnlicher Engine-Vorgänge), bevor Sie sie mit Lakehouse for Apache Iceberg verwenden.
Tabellenformate nach Katalog und Engine
Wählen Sie unten einen Katalog oder eine Engine aus, um mehr über die unterstützten Tabellenformate, die Metastore-Konfiguration, die Möglichkeiten zur Speicheroptimierung und die Interoperabilität der Engine zu erfahren.
Iceberg-REST-Katalog
Der Lakehouse-Laufzeitkatalog verwaltet Apache Iceberg-Tabellen über den Iceberg-REST-Katalogendpunkt und bietet eine standardmäßige REST-Schnittstelle für eine breite Kompatibilität mit Open-Source-Engines wie Apache Spark, Apache Flink und Trino. Sie erstellen diese Tabellen aus Open-Source-Engines und speichern sie in Cloud Storage. Diese Option ist am besten geeignet, wenn Ihr ETL-Workflow von Open-Source-Engines verwaltet werden soll und Sie nur Lesezugriff von BigQuery benötigen.
Besondere Merkmale:
- Metastore: Lakehouse-Laufzeitkatalog.
- Speicher: Cloud Storage.
- Speicheroptimierung: Wird von Ihnen oder einem Drittanbieter verwaltet.
- Lese- und Schreibzugriff:
- Open-Source-Engines: Lese- und Schreibzugriff.
- BigQuery: Nur Lesezugriff.
- Anwendungsfälle: Offenes Lakehouse mit leistungsstarkem Speicher auf Unternehmensniveau für erweiterte Analysen, Streaming und KI.
Hive-Metastore
Der Lakehouse-Laufzeitkatalog verwaltet Apache Hive-Tabellen über einen Apache Hive-Metastore-Endpunkt (HMS), der für die Apache Spark ExternalCatalog-Kompatibilität optimiert ist. So können Sie Daten nahtlos zwischen Apache Spark, Apache Hive und BigQuery austauschen. Sie erstellen diese Tabellen aus Open-Source-Engines und speichern sie in Cloud Storage. Diese Option ist am besten geeignet, wenn Ihr ETL-Workflow von Open-Source-Engines verwaltet werden soll, ohne dass ein separater selbst gehosteter Hive-Metastore erforderlich ist, und Sie nur Lesezugriff von BigQuery benötigen.
Besondere Merkmale:
- Metastore: Lakehouse-Laufzeitkatalog (über benutzerdefinierten
IMetastoreClient). - Speicher: Cloud Storage (unterstützt Formate wie Parquet, ORC, und Avro).
- Speicheroptimierung: Wird von Ihnen oder einem Drittanbieter verwaltet.
- Lese- und Schreibzugriff:
- Open-Source-Engines (Spark und Hive): Lese- und Schreibzugriff.
- BigQuery: Nur Lesezugriff.
- Anwendungsfälle: Migration vorhandener Spark- und Hive-Arbeitslasten zu einem vollständig verwalteten, serverlosen Metastore auf Google Cloud.
BigQuery
BigQuery unterstützt Apache Iceberg-Tabellen, native Tabellen und externe Tabellen.
Apache Iceberg-Tabellen: Das sind Apache Iceberg-Tabellen, die Sie in BigQuery erstellen und verwalten und in Cloud Storage speichern. Sie können zwar von Open-Source-Engines gelesen werden, aber BigQuery verwaltet die Metadaten und schreibt in sie. Diese Option ist am besten geeignet, wenn Ihr Workflow vollständig von BigQuery verwaltet werden soll.
Native Tabellen: Das sind native BigQuery-Tabellen. Sie werden vollständig verwaltet und bieten die fortschrittlichsten Analyse- und Verwaltungsfunktionen. Diese Option ist am besten für Nicht-Iceberg-Arbeitslasten geeignet.
Externe Tabellen: Diese Tabellen sind BigQuery-spezifische Konstrukte für Daten, die in Cloud Storage, Amazon S3 oder Azure Blob Storage gespeichert sind. Die Daten und Metadaten werden selbst verwaltet und BigQuery hat nur Lesezugriff. Wählen Sie diese Option für Daten aus, die Sie direkt in einem Drittanbieterkatalog oder -speicher verwalten möchten.
Tabellentypen vergleichen
In der folgenden Tabelle werden die Tabellentypen zwischen dem Lakehouse-Laufzeitkatalog und BigQuery verglichen.
Lakehouse
| Apache Iceberg (GA) | Apache Hive (Vorschau) | |
|---|---|---|
| Metastore | Lakehouse-Laufzeitkatalog | Lakehouse-Laufzeitkatalog |
| Speicher | Cloud Storage | Cloud Storage |
| Speicheroptimierung | Verwaltung durch Kunden oder Drittanbieter | Verwaltung durch Kunden oder Drittanbieter |
| Lesen / Schreiben |
Open-Source-Engines (Lesen/Schreiben) BigQuery (Lesezugriff) |
Open-Source-Engines (Lesen/Schreiben) BigQuery (Lesezugriff) |
| Erweiterte Vorgänge | Keine | – |
| Anwendungsfälle | Offenes Lakehouse | Migration vorhandener Spark- und Hive-Arbeitslasten zu einem vollständig verwalteten, serverlosen Metastore |
BigQuery
| Von BigQuery verwaltetes Iceberg | Externe Tabellen | Standardtabellen | |
|---|---|---|---|
| Metastore | BigQuery | Externer oder selbst gehosteter Metastore | BigQuery |
| Speicher | Cloud Storage | Cloud Storage / Amazon S3 / Azure | BigQuery |
| Speicheroptimierung | Von Google verwaltet | Verwaltung durch Kunden oder Drittanbieter | Von Google verwaltet |
| Lesen / Schreiben |
Open-Source-Engines (nur Lesen mit Iceberg
Bibliotheken, Interoperabilität mit Lesen/Schreiben mit der BigQuery Storage API)
BigQuery (Lesen/Schreiben) |
Open-Source-Engines (Lesen/Schreiben) BigQuery (Lesezugriff) |
Open-Source-Engines (Interoperabilität mit Lesen/Schreiben mit der
BigQuery Storage API) BigQuery (Lesen/Schreiben) |
| Erweiterte Vorgänge | Streaming mit hohem Durchsatz mit der BigQuery Storage Write API, Change Data Capture (CDC) und Transaktionen mit mehreren Anweisungen | Keine | Streaming mit hohem Durchsatz mit der BigQuery Storage Write API, Change Data Capture (CDC) und Transaktionen mit mehreren Anweisungen |
| Anwendungsfälle | Offenes Lakehouse mit leistungsstarkem Speicher auf Unternehmensniveau für erweiterte Analysen, Streaming und KI | Staging-Tabellen für BigQuery-Ladevorgänge, Legacy-Tabellen nur für Abfragen | Speicher auf Unternehmensniveau für erweiterte Analysen, Streaming und KI |
Nächste Schritte
Erfahren Sie, wie Sie Apache Iceberg-Tabellen verwalten.
Erfahren Sie, wie Sie externe Iceberg-Tabellen mit Dataflow importieren.
Katalogföderation mit BigQuery verwenden