La lakehouse cross-cloud per Apache Iceberg consente di eseguire query sui dati archiviati in altri provider cloud direttamente da Google Cloud senza eseguire la migrazione dei file o creare pipeline ETL complesse.
Nell'ambito di Lakehouse, questa funzionalità ti consente di eseguire analisi unificate e applicare l'AI ai tuoi set di dati distribuiti utilizzando BigQuery, ambienti Apache Spark autonomi o Managed Service for Apache Spark.
Casi d'uso
Lakehouse cross-cloud supporta diversi casi d'uso chiave per accedere ai dati di più provider di servizi cloud:
- Lo spostamento ridotto dei dati ti consente di eseguire query direttamente sui dati archiviati in altri ambienti cloud, semplificando l'accesso ai dati e l'elaborazione.
- L'analisi unificata ti consente di eseguire analisi avanzate con funzionalità coerenti e ottimizzazione hardware su tutti i tuoi dati, indipendentemente da dove si trovano.
- L'AI e il ML cross-cloud ti consentono di applicare modelli di AI, agenti autonomi e machine learning direttamente ai tuoi dati remoti senza eseguirne la migrazione.
Come funziona Lakehouse cross-cloud
Le query cross-cloud Lakehouse eseguono query sui dati remoti utilizzando il seguente processo:
- Rilevamento dei metadati: Google Cloud's Lakehouse si connette a cataloghi REST Apache Iceberg remoti, come Databricks Unity o AWS Glue. Lakehouse rileva i dati senza copiare alcun file. A seconda del provider di catalogo remoto, Lakehouse esegue l'autenticazione in modo sicuro tramite Secret Manager o la federazione di token OpenID Connect con Google come Identity Provider (federazione di token OIDC).
- Trasporto sicuro:la scelta di instradare il traffico su un interconnessione privata (ad esempio Dedicated CCI o Partner Interconnect) riduce significativamente i costi di trasferimento dei dati rispetto a internet pubblico e rende la latenza altamente prevedibile.
- Esecuzione ottimizzata: quando le query leggono i dati dai cloud remoti, Lakehouse memorizza temporaneamente nella cache locale questi segmenti di dati all'interno di Google Cloud su uno spazio di archiviazione specializzato. Le query successive utilizzano la cache locale, che evita una parte significativa dei costi di uscita cross-cloud.
Cataloghi supportati
Lakehouse cross-cloud supporta l'esecuzione di query sui dati dei seguenti fornitori di cataloghi remoti:
- Databricks Unity Catalog: supportato su Amazon Web Services (AWS) e Google Cloud.
- AWS Glue:supportato su Amazon Web Services (AWS).
Concetti principali
Questa sezione descrive i componenti chiave essenziali per l'utilizzo di Lakehouse cross-cloud.
Cataloghi REST Apache Iceberg remoti
Questo è il livello dei metadati. Ti connetti ai cataloghi REST Apache Iceberg remoti. Lakehouse rileva i dati senza copiare alcun file. Tramite la federazione dei token OIDC o le credenziali OAuth, Lakehouse esegue l'autenticazione in modo sicuro senza richiedere chiavi di accesso a lunga durata.
Livello di trasporto
Questo è il livello di trasporto. Puoi configurare Lakehouse per eseguire query sui dati archiviati in provider cloud remoti tramite internet pubblico o un interconnessione privata dedicata.
Seleziona il metodo di trasporto che corrisponde ai tuoi requisiti di architettura e sicurezza:
Di proprietà del cliente (CCI)
Puoi configurare BigQuery per eseguire query sui dati archiviati nei bucket Amazon S3 di Amazon Web Services (AWS) tramite una connessione di rete privata e dedicata utilizzando Cross-Cloud Interconnect o Partner Interconnect.
L'utilizzo di un interconnessione privata offre i seguenti vantaggi:
- Maggiore sicurezza:i dati vengono trasferiti tramite una connessione di rete privata tra Google Cloud e AWS, evitando la rete internet pubblica.
- Costi ridotti:potenzialmente tariffe in uscita inferiori da AWS rispetto all'uscita da internet, soprattutto se combinata con la capacità di interconnessione privata.
- Rendimento coerente:latenza di rete e larghezza di banda più prevedibili rispetto a internet pubblico.
Panoramica dell'architettura
Per attivare le query private, configura un percorso da BigQuery al tuo bucket AWS Amazon S3 tramite l'interconnessione privata. Un componente chiave di Google Cloud Virtual Private Cloud (VPC) è un bilanciatore del carico interno (ILB). L'ILB distribuisce le richieste da BigQuery agli endpoint privati per Amazon S3 all'interno del tuo VPC AWS, che vengono sottoposti a provisioning utilizzando AWS PrivateLink.
L'utilizzo di un bilanciatore del carico interno con più interfacce di rete elastiche (ENI) come backend è essenziale per il bilanciamento del carico, la scalabilità e l'alta disponibilità. Questo vale sia che utilizzi Dedicated Interconnect o Partner Interconnect.
Il flusso di lavoro delle query private segue questa procedura:
- BigQuery utilizza una connessione configurata con un servizio Service Directory.
- Service Directory risolve il nome del servizio nell'indirizzo IP interno del bilanciamento del carico interno Google Cloud .
- L'ILB riceve le richieste da BigQuery e le distribuisce ai backend configurati.
- I backend del bilanciatore del carico interno sono gruppi di endpoint di rete (NEG) di connettività ibrida, ognuno dei quali punta all'indirizzo IP privato di un'interfaccia di rete in AWS VPC.
- Il traffico scorre dall'ILB, attraverso i NEG, attraverso l'interconnessione privata, fino alle ENI AWS.
- Le interfacce di rete AWS, parte di un endpoint VPC di interfaccia Amazon S3 (AWS PrivateLink), forniscono l'accesso privato al servizio Amazon S3.
Rete internet pubblica (nessun CCI)
Se non configuri un interconnessione privata, le query al catalogo remoto vengono inviate tramite la rete internet pubblica per impostazione predefinita.
Quando esegui query sui dati su internet pubblico, considera le seguenti implicazioni:
- Crittografia standard:le richieste di accesso ai dati e i trasferimenti di dati vengono criptati in transito utilizzando i protocolli TLS standard su internet pubblico.
- Costi di uscita:il trasferimento di dati comporta addebiti standard per l'uscita da internet dal tuo provider cloud remoto (ad esempio AWS), che sono in genere superiori alle tariffe di uscita dell'interconnessione privata.
- Latenza variabile:le prestazioni di rete, la larghezza di banda e la latenza dipendono dal routing e dalla congestione di internet pubblico, con conseguenti tempi di esecuzione delle query meno prevedibili rispetto a un interconnessione privata dedicata.
- Configurazione semplificata:non richiede infrastruttura di rete aggiuntiva, peering VPC o configurazione di Service Directory in Google Cloud o nel tuo provider di servizi cloud remoto.
Panoramica dell'architettura
Quando esegue query sui dati su internet pubblico, Lakehouse si connette direttamente agli endpoint di archiviazione di oggetti e cataloghi remoti senza richiedere un'infrastruttura di rete cloud privata Google Cloud o remota.
Il flusso di lavoro della query internet pubblica segue questo processo:
- BigQuery avvia una query su una tabella federata definita nel catalogo Lakehouse.
- Lakehouse esegue l'autenticazione in modo sicuro con il catalogo Apache Iceberg remoto utilizzando le credenziali archiviate in Secret Manager o la federazione di token OIDC.
- Lakehouse recupera i metadati della tabella e i file manifest su internet pubblico per identificare i file di dati sottostanti pertinenti (ad esempio in AWS Amazon S3).
- Le richieste di accesso ai dati per gli oggetti sottostanti vengono inviate direttamente da Google Cloud su internet pubblico utilizzando la crittografia TLS standard.
- Il servizio di archiviazione remota verifica la richiesta utilizzando credenziali temporanee con ambito fornite da Lakehouse e restituisce i blocchi di dati richiesti su internet pubblico a Google Cloud.
Passaggi successivi
- Configura la lakehouse cross-cloud per AWS Glue.
- Configura Lakehouse cross-cloud per Databricks Unity Catalog.