Katalog erstellen

Durch das Erstellen eines Katalogs (z. B. eines Apache Iceberg REST-Katalogs oder eines Apache Hive-Katalogs) wird ein Verwaltungsendpunkt im Lakehouse-Laufzeitkatalog eingerichtet. Dieser Endpunkt verweist auf einen zugrunde liegenden Cloud Storage-Warehouse-Bucket und bietet eine Metadatenebene, über die Abfrage-Engines und Open-Source-Arbeitslasten direkt mit Ihren Tabellen interagieren können.

Wenn Sie Ihren Katalog für Lakehouse für Apache Iceberg erstellen, können Sie zwischen Endnutzer-Anmeldedaten oder dem Modus für die Bereitstellung von Anmeldedaten für die Delegierung des Speicherzugriffs wählen.

Hinweis

  1. Prüfen Sie, ob für Ihr Google Cloud Projekt die Abrechnung aktiviert ist.

  2. Aktivieren Sie die BigLake API.

    Erforderliche Rollen zum Aktivieren von APIs

    Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Informationen zum Zuweisen von Rollen.

    API aktivieren

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen eines Katalogs benötigen:

  • Alle:
  • Automatisch bereitgestelltes Dienstkonto für den Lakehouse-Laufzeitkatalog im Modus für die Bereitstellung von Anmeldedaten: Storage Object User (roles/storage.objectUser) für den Ziel-Cloud Storage-Bucket. Nachdem Sie den Katalog erstellt haben, weisen Sie dem automatisch bereitgestellten Dienstkonto für den Lakehouse-Laufzeitkatalog Ihres Katalogs explizit die Rolle „Storage Object User“ (roles/storage.objectUser) für Ihren Speicher-Bucket zu.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Katalog erstellen

Erstellen Sie einen Katalogendpunkt.

Console

  1. Öffnen Sie in der Google Cloud Console die Seite Lakehouse.

    Zu Lakehouse

  2. Wählen Sie Katalog erstellen aus. Die Seite Katalog erstellen wird geöffnet.

  3. Wählen Sie den Katalogtyp aus:

    • Wenn Sie einen Apache Iceberg REST-Katalog erstellen möchten, wählen Sie Iceberg-REST-Katalog aus.
    • Wenn Sie einen Apache Hive-Katalog erstellen möchten, wählen Sie Hive-Katalog aus.
  4. Geben Sie unter Cloud Storage-Bucket auswählen den Namen des Cloud Storage-Buckets ein, der mit Ihrem Katalog verwendet werden soll. Alternativ können Sie auf Durchsuchen klicken, um aus einer Liste vorhandener Buckets auszuwählen oder einen zu erstellen. Sie können nur einen Katalog pro Cloud Storage-Bucket haben.

  5. Wählen Sie unter Authentifizierungsmethode entweder Endnutzer-Anmeldedaten oder Modus für die Bereitstellung von Anmeldedaten aus.

    Wenn Sie Credential vending mode auswählen, benötigt das automatisch bereitgestellte Dienstkonto für den Lakehouse Laufzeitkatalog die explizite Rolle Storage Object User (roles/storage.objectUser) für den Ziel-Cloud Storage Bucket. Standardmäßig wird es mit Lesezugriff erstellt. Ohne diese Rolle haben die bereitgestellten Anmeldedaten nicht den erforderlichen Umfang, um Speichervorgänge auszuführen.

  6. Wählen Sie Erstellen aus.

    Ihr Katalog wird erstellt und die Seite Katalogdetails wird geöffnet.

  7. Wählen Sie unter Authentifizierungsmethode die Option Bucket-Berechtigungen festlegen aus.

  8. Wählen Sie im Dialogfeld Bestätigen aus.

    Dadurch wird geprüft, ob das Dienstkonto Ihres Katalogs die Rolle „Storage Object Admin“ für Ihren Speicher-Bucket hat. Wenn Sie Kataloge mit gcloud oder Terraform erstellen, müssen Sie diese Rolle manuell zuweisen.

REST

Wenn Sie einen Katalogverwaltungsendpunkt mit der REST API erstellen möchten, senden Sie eine POST Anfrage an den CreateIcebergCatalog Endpunkt:

POST /iceberg/v1/restcatalog/extensions/projects/PROJECT_ID/catalogs?icebergCatalogId=CATALOG_ID

Der Anfragetext muss eine IcebergCatalog-JSON-Nutzlast enthalten, die die Katalogkonfiguration definiert, z. B. das zugrunde liegende Cloud Storage-Bucket-Warehouse und den Authentifizierungsmodus.

Ersetzen Sie Folgendes:

  • PROJECT_ID: Ihre Google Cloud Projekt-ID.
  • CATALOG_ID: die ID Ihres Lakehouse-Laufzeitkatalogs.