Cross-cloud Lakehouse for Apache Iceberg를 사용하면 파일 마이그레이션이나 복잡한 ETL 파이프라인 빌드 없이 Google Cloud 에서 직접 다른 클라우드 제공업체에 저장된 데이터를 쿼리할 수 있습니다.
Lakehouse의 일부인 이 기능을 사용하면 BigQuery, 독립형 Apache Spark 환경 또는 Managed Service for Apache Spark를 사용하여 분산 데이터 세트 전반에서 통합 분석을 실행하고 AI를 적용할 수 있습니다.
사용 사례
크로스 클라우드 레이크하우스는 여러 클라우드 제공업체에서 데이터에 액세스하기 위한 몇 가지 주요 사용 사례를 지원합니다.
- 데이터 이동 감소를 사용하면 다른 클라우드 환경에 저장된 데이터를 직접 쿼리하여 데이터 액세스 및 처리를 간소화할 수 있습니다.
- 통합 분석을 사용하면 데이터가 어디에 있든 모든 데이터에서 일관된 기능과 하드웨어 최적화를 통해 고급 분석을 실행할 수 있습니다.
- 크로스 클라우드 AI 및 ML을 사용하면 데이터를 이전하지 않고도 AI 모델, 자율 에이전트, 머신러닝을 원격 데이터에 직접 적용할 수 있습니다.
크로스 클라우드 레이크하우스 작동 방식
교차 클라우드 레이크하우스는 다음 프로세스를 사용하여 원격 데이터를 쿼리합니다.
- 메타데이터 검색: Google Cloud의 Lakehouse는 Databricks Unity 또는 AWS Glue와 같은 원격 Apache Iceberg REST 카탈로그에 연결됩니다. 레이크하우스는 파일을 복사하지 않고 데이터를 검색합니다. 원격 카탈로그 제공업체에 따라 Lakehouse는 Secret Manager 또는 Google을 ID 공급자 (OIDC 토큰 연합)로 사용하는 OpenID Connect 토큰 연합을 통해 안전하게 인증합니다.
- 보안 전송: 비공개 상호 연결(예: Dedicated CCI 또는 Partner Interconnect)을 통해 트래픽을 라우팅하면 공개 인터넷에 비해 데이터 전송 비용이 크게 절감되고 지연 시간을 매우 예측 가능하게 만들 수 있습니다.
- 최적화된 실행: 쿼리가 원격 클라우드에서 데이터를 읽으면 Lakehouse가 전문 스토리지의 Google Cloud 내에 해당 데이터 세그먼트를 로컬로 일시적으로 캐시합니다. 후속 쿼리는 로컬 캐시를 사용하므로 상당한 부분의 교차 클라우드 이그레스 요금이 발생하지 않습니다.
지원되는 카탈로그
크로스 클라우드 레이크하우스는 다음 원격 카탈로그 제공업체의 데이터 쿼리를 지원합니다.
- Databricks Unity Catalog: Amazon Web Services (AWS) 및Google Cloud에서 지원됩니다.
- AWS Glue: Amazon Web Services (AWS)에서 지원됩니다.
핵심 개념
이 섹션에서는 크로스 클라우드 레이크하우스를 사용하는 데 필수적인 주요 구성요소를 설명합니다.
원격 Apache Iceberg REST 카탈로그
이는 메타데이터 레이어입니다. 원격 Apache Iceberg REST 카탈로그에 연결합니다. 레이크하우스는 파일을 복사하지 않고 데이터를 검색합니다. OIDC 토큰 페더레이션 또는 OAuth 사용자 인증 정보를 통해 레이크하우스는 장기 액세스 키가 필요 없이 안전하게 인증합니다.
전송 계층
전송 계층입니다. 공개 인터넷 또는 전용 비공개 인터커넥트를 통해 원격 클라우드 제공업체에 저장된 데이터를 쿼리하도록 Lakehouse를 구성할 수 있습니다.
아키텍처 및 보안 요구사항에 맞는 전송 방법을 선택합니다.
고객 소유 (CCI)
Cross-Cloud Interconnect 또는 Partner Interconnect를 사용하여 비공개 전용 네트워크 연결을 통해 Amazon Web Services (AWS) Amazon S3 버킷에 저장된 데이터를 쿼리하도록 BigQuery를 구성할 수 있습니다.
비공개 인터커넥트를 사용하면 다음과 같은 이점이 있습니다.
- 보안 강화: 데이터가 Google Cloud 와 AWS 간의 비공개 네트워크 연결을 통해 이동하므로 공개 인터넷을 사용하지 않습니다.
- 비용 절감: 특히 비공개 Interconnect 용량과 결합할 경우 인터넷 이그레스에 비해 AWS의 이그레스 요금이 낮아질 수 있습니다.
- 일관된 성능: 공개 인터넷에 비해 네트워크 지연 시간과 대역폭을 더 예측할 수 있습니다.
아키텍처 개요
비공개 쿼리를 사용 설정하려면 비공개 인터커넥트를 통해 BigQuery에서 AWS Amazon S3 버킷으로 가는 경로를 구성합니다. Google Cloud 가상 프라이빗 클라우드(VPC)의 핵심 구성요소는 내부 부하 분산기(ILB)입니다. ILB는 BigQuery의 요청을 AWS PrivateLink를 사용하여 프로비저닝된 AWS VPC 내 Amazon S3의 비공개 엔드포인트로 분산합니다.
여러 탄력적 네트워크 인터페이스 (ENI)를 백엔드로 사용하는 ILB는 부하 분산, 확장성, 고가용성에 필수적입니다. 이는 Dedicated CCI를 사용하든 Partner Interconnect를 사용하든 적용됩니다.
비공개 쿼리 워크플로는 다음 프로세스를 따릅니다.
- BigQuery는 서비스 디렉터리 서비스로 구성된 연결을 사용합니다.
- 서비스 디렉터리는 서비스 이름을 Google Cloud ILB의 내부 IP 주소로 확인합니다.
- ILB는 BigQuery에서 요청을 수신하고 구성된 백엔드에 요청을 분산합니다.
- ILB 백엔드는 하이브리드 연결 네트워크 엔드포인트 그룹 (NEG)이며, 각 백엔드는 AWS VPC의 ENI 비공개 IP 주소를 가리킵니다.
- 트래픽은 ILB에서 NEG를 통해 비공개 인터커넥트를 거쳐 AWS ENI로 흐릅니다.
- Amazon S3 VPC 인터페이스 엔드포인트 (AWS PrivateLink)의 일부인 AWS ENI는 Amazon S3 서비스에 대한 비공개 액세스를 제공합니다.
공개 인터넷 (CCI 없음)
비공개 인터커넥트를 구성하지 않으면 원격 카탈로그에 대한 쿼리가 기본적으로 공개 인터넷을 통해 전송됩니다.
공용 인터넷을 통해 데이터를 쿼리할 때는 다음 사항을 고려하세요.
- 표준 암호화: 데이터 액세스 요청과 데이터 전송은 공개 인터넷에서 표준 TLS 프로토콜을 사용하여 전송 중에 암호화됩니다.
- 이그레스 비용: 데이터 전송에는 원격 클라우드 제공업체 (예: AWS)의 표준 인터넷 이그레스 요금이 부과되며, 이는 일반적으로 비공개 상호 연결 이그레스 요율보다 높습니다.
- 가변 지연 시간: 네트워크 성능, 대역폭, 지연 시간은 공개 인터넷 라우팅 및 혼잡에 따라 달라지므로 전용 비공개 상호 연결에 비해 쿼리 실행 시간을 예측하기가 어렵습니다.
- 간소화된 설정: Google Cloud 또는 원격 클라우드 제공업체에서 추가 네트워킹 인프라, VPC 피어링 또는 서비스 디렉터리 구성이 필요하지 않습니다.
아키텍처 개요
공개 인터넷을 통해 데이터를 쿼리할 때 Lakehouse는 비공개 Google Cloud 또는 원격 클라우드 네트워킹 인프라 없이 원격 카탈로그 및 객체 스토리지 엔드포인트에 직접 연결됩니다.
공개 인터넷 쿼리 워크플로는 다음 프로세스를 따릅니다.
- BigQuery는 Lakehouse 카탈로그에 정의된 페더레이션 테이블에 대해 쿼리를 시작합니다.
- Lakehouse는 Secret Manager에 저장된 사용자 인증 정보 또는 OIDC 토큰 제휴를 사용하여 원격 Apache Iceberg 카탈로그를 통해 안전하게 인증합니다.
- Lakehouse는 공개 인터넷에서 테이블 메타데이터와 매니페스트 파일을 가져와 관련 기본 데이터 파일(예: AWS Amazon S3)을 식별합니다.
- 기본 객체에 대한 데이터 액세스 요청은 표준 TLS 암호화를 사용하여 공개 인터넷을 통해Google Cloud 에서 직접 전송됩니다.
- 원격 스토리지 서비스는 Lakehouse에서 제공한 임시 범위 지정 사용자 인증 정보를 사용하여 요청을 확인하고 공개 인터넷을 통해 요청된 데이터 블록을 Google Cloud에 반환합니다.