Unterstützte Tabellenformate
Es werden nur Apache Iceberg V2-Tabellen unterstützt. Iceberg V1-Tabellen werden nicht unterstützt. Wenn Sie vorhandene Iceberg V1-Tabellen haben, müssen Sie sie auf V2 aktualisieren (z. B. durch Ausführen von ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); oder ähnlichen Engine-Vorgängen), bevor Sie sie in den Lakehouse-Laufzeitkatalog importieren.
In Ihrem Anwendungsfall müssen Sie möglicherweise eine externe Iceberg REST Catalog-Tabelle (IRC) mit einer vorhandenen Lakehouse for Apache Iceberg-Tabelle verbinden. Mit der Job-Builder-UI von Dataflow können Sie eine Pipeline erstellen, mit der Sie Ihre externen Open-Source-Iceberg-Katalogtabellen mit wenig oder gar keinem Code in Lakehouse migrieren. So können Sie Daten in einem einheitlichen, von Lakehouse verwalteten Iceberg-Format für die engineübergreifende Analyse zusammenführen.
Verwenden Sie die folgenden Verbindungsdetails, um Daten aus externen Iceberg-Katalogen zu importieren.
Hinweis
Zum Importieren von Daten benötigen Sie Folgendes:
- Verbindungsinformationen für den externen Iceberg REST Catalog. Beispiel: Katalogname, Namespace, Tabellenname, Konto-URI und Rolle für den Zugriff auf den Katalog.
- Einen Lakehouse-Iceberg-Katalog, -Namespace und eine Tabelle, in die die Daten importiert werden sollen.
Unterstützung und Einschränkungen
Beim Importieren von Daten aus externen Iceberg-Katalogen in Lakehouse für Apache Iceberg mit Dataflow gelten die folgenden Einschränkungen:
- Mit dieser Funktion können Daten aus extern verfügbaren Iceberg-Anbietern gelesen werden, die IRC (Iceberg Rest Catalog) in Lakehouse unterstützen. Andere Iceberg-Katalogtypen werden nicht unterstützt.
- Diese Funktion unterstützt Batch- und Streamingpipelines.
Externe Iceberg-Katalogtabelle importieren
So importieren Sie eine externe Iceberg-Katalogtabelle in Lakehouse für Apache Iceberg:
Rufen Sie in der Google Cloud Console die Seite Metastore von Lakehouse auf.
Wählen Sie den Katalog, den Namespace und die Tabelle aus, in die Sie Daten importieren möchten.
Klicken Sie auf der Seite Tabellendetails auf und dann auf Tabelle importieren.
Wählen Sie im Dialogfeld Importkonfiguration die Option Tabelle aus einem Apache Iceberg REST-Katalog in Lakehouse importieren (Batch) aus.
Die Seite Job Builder von Dataflow wird geöffnet.
Gehen Sie so vor:
Klicken Sie auf den Pfeil, um den Quellbereich Iceberg-Tabelle zu maximieren.
Geben Sie im Feld Iceberg-Tabelle die Kennung der Apache Iceberg-Tabelle ein.
Geben Sie im Feld Katalogname den Namen des Katalogs ein.
Geben Sie im Feld Filter den zu verwendenden Iceberg-Filter ein. Beispiel:
id > 5.Optional: Wenn Sie Änderungen an den Quelltabelle-Spalten angeben möchten, verwenden Sie die Abschnitte Spalten beibehalten oder Spalten entfernen.
Wählen Sie im Abschnitt Katalogeigenschaften in der Liste Katalogtyp den Typ des Katalogs aus.
Geben Sie im Feld Katalog-URI den URI des Katalogs ein. Beispiel:
http://localhost:8181.Geben Sie im Feld Warehouse-Name den Katalognamen ein.
Bei einigen externen Iceberg REST Catalog-Anbietern wird das Warehouse abstrahiert und der Katalogname als Warehouse-Name angegeben.
Wählen Sie in der Liste Authentifizierungstyp den Authentifizierungstyp aus. Beispiel:
OAUTH2.
Optional: Fügen Sie im Abschnitt Transformationen Transformationen zu den Quelldaten hinzu.
Gehen Sie so vor:
- Optional: Prüfen Sie den Senkenbereich Lakehouse-Tabelle. Die Informationen in diesem Bereich, z. B. die Lakehouse-Tabelle, der Katalogname und der Warehouse-Standort, sind in der Regel bereits ausgefüllt.
Klicken Sie im Abschnitt Dataflow-Optionen auf Job ausführen.
Nächste Schritte
- Weitere Informationen zum Erstellen eines benutzerdefinierten Jobs mit der Job-Builder-UI
- Weitere Informationen finden Sie unter Einführung in Lakehouse-Tabellen für Apache Iceberg in BigQuery.
- Lesen Sie den Blogpost BigLake evolved: Build open, high-performance, enterprise Iceberg-native lakehouses.