Formats de table compatibles
Seules les tables Apache Iceberg V2 sont compatibles. Les tables Iceberg V1 ne le sont pas. Si vous disposez de tables Iceberg V1 existantes, vous devez les mettre à niveau vers la version V2 (par exemple, en exécutant ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); ou en utilisant des opérations de moteur similaires) avant de les importer dans le catalogue d'environnements d'exécution Lakehouse.
Votre cas d'utilisation peut nécessiter que vous connectiez une table de catalogue REST Iceberg (IRC) externe à une table Lakehouse pour Apache Iceberg existante. L'UI du générateur de jobs de Dataflow vous permet de créer un pipeline qui migre vos tables de catalogue Iceberg Open Source externes vers Lakehouse de manière low-code ou no-code. Ce processus vous permet de consolider les données dans un format Iceberg unifié géré par Lakehouse pour l'analyse multimoteur.
Utilisez les informations de connexion suivantes pour importer des données à partir de catalogues Iceberg externes.
Avant de commencer
Pour importer des données, vous avez besoin des éléments suivants :
- Informations de connexion pour le catalogue REST Iceberg externe. Par exemple : nom du catalogue, espace de noms, nom de la table, URI du compte et rôle permettant d'accéder au catalogue.
- Un catalogue, un espace de noms et une table Lakehouse Iceberg dans lesquels importer les données.
Compatibilité et limites
L'importation de données à partir de catalogues Iceberg externes vers Lakehouse pour Apache Iceberg à l'aide de Dataflow présente les limites suivantes :
- Cette fonctionnalité permet de lire des données à partir de fournisseurs Iceberg disponibles en externe qui sont compatibles avec IRC (catalogue REST Iceberg) dans Lakehouse. Les autres types de catalogues Iceberg ne sont pas compatibles.
- Cette fonctionnalité est compatible avec les pipelines de traitement par lot et par flux.
Importer une table de catalogue Iceberg externe
Pour importer une table de catalogue Iceberg externe dans Lakehouse pour Apache Iceberg, procédez comme suit :
Dans la Google Cloud console, accédez à la page Metastore de Lakehouse.
Sélectionnez le catalogue, l'espace de noms et la table dans lesquels vous souhaitez importer des données.
Sur la page Table details (Détails de la table), cliquez sur Import table (Importer la table).
Dans la boîte de dialogue Import configuration (Configuration de l'importation), sélectionnez Import a table from an Apache Iceberg REST Catalog into Lakehouse (Batch) (Importer une table depuis un catalogue REST Apache Iceberg dans Lakehouse (lot)).
La page Job builder (Générateur de jobs) de Dataflow s'ouvre.
Dans la section Sources :
Pour développer le panneau source Iceberg table, cliquez sur la expander arrow.
Dans le champ Iceberg table (Table Iceberg), saisissez l'identifiant de la table Apache Iceberg.
Dans le champ Catalog name (Nom du catalogue), saisissez le nom du catalogue.
Dans le champ Filter (Filtre), saisissez le filtre Iceberg à utiliser. Exemple :
id > 5.Facultatif : Pour spécifier les modifications apportées aux colonnes de la table source, utilisez les sections Keep columns (Conserver les colonnes) ou Drop columns (Supprimer les colonnes).
Dans la liste Catalog type (Type de catalogue) de la section Catalog properties (Propriétés du catalogue), sélectionnez le type de catalogue.
Dans le champ Catalog URI (URI du catalogue), saisissez l'URI du catalogue. Exemple :
http://localhost:8181.Dans le champ Warehouse name (Nom de l'entrepôt), saisissez le nom du catalogue.
Pour certains fournisseurs de catalogues REST Iceberg externes, l'entrepôt est abstrait et le nom du catalogue est fourni comme nom de l'entrepôt.
Dans la liste Authentication type (Type d'authentification), sélectionnez le type d'authentification. Exemple :
OAUTH2.
Facultatif : Dans la section Transforms (Transformations), ajoutez des transformations aux données sources.
Dans la section Sink (Récepteur) :
- Facultatif : Examinez le panneau de récepteur Lakehouse table (Table Lakehouse). Les informations de ce panneau, telles que la table Lakehouse, le nom du catalogue et l'emplacement de l'entrepôt, sont généralement préremplies.
Dans la section Dataflow options (Options Dataflow), cliquez sur Run job (Exécuter le job).
Étape suivante
- Découvrez comment créer un job personnalisé avec l'UI du générateur de jobs.
- Pour en savoir plus, consultez Présentation des tables Lakehouse pour Apache Iceberg dans BigQuery.
- Lisez l'article de blog BigLake a évolué : créez des lakehouses ouverts, hautes performances et natifs Iceberg pour les entreprises.