La création d'un catalogue (tel qu'un catalogue REST Apache Iceberg ou Apache Hive) établit un point de terminaison de gestion dans le catalogue d'environnements d'exécution Lakehouse. Ce point de terminaison pointe vers un bucket d'entrepôt Cloud Storage sous-jacent, fournissant une couche de métadonnées qui permet aux moteurs de requête et aux charges de travail Open Source d'interagir directement avec vos tables.
Lorsque vous créez votre catalogue pour Lakehouse pour Apache Iceberg, vous pouvez choisir entre les identifiants de l'utilisateur final ou le mode de distribution d'identifiants pour la délégation de l'accès au stockage.
Avant de commencer
-
Vérifiez que la facturation est activée pour votre projet Google Cloud .
-
Activez l'API BigLake.
Rôles requis pour activer les API
Pour activer les API, vous avez besoin du rôle IAM Administrateur Service Usage (
roles/serviceusage.serviceUsageAdmin), qui contient l'autorisationserviceusage.services.enable. Découvrez comment attribuer des rôles.
Rôles requis
Pour obtenir les autorisations nécessaires pour créer un catalogue, demandez à votre administrateur de vous accorder les rôles IAM suivants :
-
Toutes :
- Administrateur BigLake (
roles/biglake.admin) sur votre projet - Administrateur de l'espace de stockage (
roles/storage.admin) sur votre projet
- Administrateur BigLake (
-
Compte de service du catalogue d'exécution Lakehouse provisionné automatiquement en mode de distribution d'identifiants :
Utilisateur d'objets Storage (
roles/storage.objectUser) sur le bucket Cloud Storage cible. Après avoir créé le catalogue, accordez explicitement le rôle Utilisateur d'objets de stockage (roles/storage.objectUser) sur votre bucket de stockage au compte de service du catalogue Lakehouse Runtime provisionné automatiquement.
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Créer un catalogue
Créez un point de terminaison de catalogue.
Console
Dans la console Google Cloud , ouvrez la page Lakehouse.
Sélectionnez Créer un catalogue. La page Créer un catalogue s'ouvre.
Sélectionnez le type de catalogue :
- Pour créer un catalogue Apache Iceberg REST, sélectionnez Catalogue Iceberg REST.
- Pour créer un catalogue Apache Hive, sélectionnez Catalogue Hive.
Pour Sélectionner un bucket Cloud Storage, saisissez le nom du bucket Cloud Storage à utiliser avec votre catalogue. Vous pouvez également sélectionner Parcourir pour choisir un bucket existant dans une liste ou en créer un. Vous ne pouvez avoir qu'un seul catalogue par bucket Cloud Storage.
Pour Méthode d'authentification, sélectionnez Identifiants de l'utilisateur final ou Mode de distribution d'identifiants.
Si vous sélectionnez le mode de distribution des identifiants, le compte de service du catalogue d'exécution Lakehouse provisionné automatiquement nécessite le rôle explicite Utilisateur d'objets Storage (
roles/storage.objectUser) sur le bucket Cloud Storage cible. Par défaut, il est créé avec un accès en lecture seule. Sans ce rôle, les identifiants vendus ne disposent pas d'un champ d'application suffisant pour effectuer des opérations d'écriture de stockage.Sélectionnez Créer.
Votre catalogue est créé et la page Informations sur le catalogue s'ouvre.
Sous Méthode d'authentification, sélectionnez Définir les autorisations du bucket.
Dans la boîte de dialogue, sélectionnez Confirmer.
Cela permet de vérifier que le compte de service de votre catalogue dispose du rôle Administrateur des objets Storage sur votre bucket de stockage. Si vous créez des catalogues à l'aide de
gcloudou de Terraform, vous devez accorder ce rôle manuellement.
REST
Pour créer un point de terminaison de gestion de catalogue à l'aide de l'API REST, envoyez une requête POST au point de terminaison CreateIcebergCatalog :
POST /iceberg/v1/restcatalog/extensions/projects/PROJECT_ID/catalogs?icebergCatalogId=CATALOG_ID
Le corps de la requête doit contenir une charge utile JSON IcebergCatalog définissant la configuration du catalogue, comme l'entrepôt de bucket Cloud Storage sous-jacent et le mode d'authentification.
Remplacez les éléments suivants :
PROJECT_ID: ID de votre projet Google Cloud .CATALOG_ID: ID de votre catalogue d'exécution Lakehouse.