クロスクラウドの Lakehouse について

Cross-cloud Lakehouse for Apache Iceberg を使用すると、ファイルを移行したり、複雑な ETL パイプラインを構築したりすることなく、他のクラウド プロバイダに保存されているデータに直接クエリを実行できます。 Google Cloud

この機能は Lakehouse の一部として、BigQuery、 スタンドアロンの Apache Spark 環境、または Managed Service for Apache Spark を使用して、分散データセット全体で統合 分析を実行し、AI を適用できます。

ユースケース

クロス クラウド Lakehouse は、複数のクラウド プロバイダにまたがるデータへのアクセスに関する次の主要なユースケースをサポートしています。

  • データ移動の削減 により、他のクラウド環境に保存されているデータに直接クエリを実行できるため、データアクセスと処理が簡素化されます。
  • 統合分析 により、データの保存場所に関係なく、すべてのデータに対して一貫した機能とハードウェアの最適化を使用して高度な分析を実行できます。
  • クロス クラウド AI と ML により、AI モデル、自律エージェント、機械学習をリモートデータに直接適用できます。データを移行する必要はありません。

クロス クラウド Lakehouse の仕組み

クロス クラウド Lakehouse は、次のプロセスを使用してリモートデータにクエリを実行します。

  1. メタデータの検出: Google Cloudの Lakehouse は、Databricks Unity や AWS Glue などのリモート Apache Iceberg REST カタログに接続します。Lakehouse は、ファイルをコピーせずにデータを検出します。 リモート カタログ プロバイダに応じて、Lakehouse は Secret Manager または OpenID Connect トークン フェデレーション(Google を ID プロバイダとする OIDC トークン フェデレーション)を介して安全に認証します。
  2. 安全な転送: トラフィックをプライベート インターコネクト(Dedicated CCI や Partner Interconnect など)経由でルーティングすると、パブリック インターネットと比較してデータ転送の費用が大幅に削減され、レイテンシを予測しやすくなります。
  3. 最適化された実行: クエリがリモート クラウドからデータを読み取ると、 Lakehouse はこれらのデータセグメントをローカルに一時的にキャッシュします 専用ストレージ内 Google Cloud に。以降のクエリではローカル キャッシュが使用されるため、クロス クラウドの下り(外向き)料金の大部分を回避できます。

サポートされているカタログ

クロス クラウド Lakehouse は、次のリモート カタログ プロバイダからのデータのクエリをサポートしています。

  • Databricks Unity Catalog: Amazon Web Services(AWS)と Google Cloudでサポートされています。
  • AWS Glue: Amazon Web Services(AWS)でサポートされています。

基本コンセプト

このセクションでは、クロス クラウド Lakehouse の使用に不可欠な主要コンポーネントについて説明します。

リモート Apache Iceberg REST カタログ

これはメタデータ レイヤです。リモート Apache Iceberg REST カタログに接続します。 Lakehouse は、ファイルをコピーせずにデータを検出します。OIDC トークン フェデレーションまたは OAuth 認証情報を使用して、Lakehouse は有効期間の長いアクセスキーを必要とせずに安全に認証します。

トランスポート層

これはトランスポート レイヤです。パブリック インターネットまたは専用のプライベート インターコネクト経由で、リモート クラウド プロバイダに保存されているデータをクエリするように Lakehouse を構成できます。

アーキテクチャとセキュリティの要件に合った転送方法を選択します。

お客様所有(CCI)

**Cross-Cloud Interconnect** または **Partner Interconnect** を使用して、プライベート専用ネットワーク接続経由で Amazon Web Services(AWS)Amazon S3 バケットに保存されているデータをクエリするように BigQuery を構成できます。

プライベート インターコネクトを使用すると、次のメリットがあります。

  • セキュリティの強化: データは と AWS 間のプライベート ネットワーク接続を介して転送されるため、パブリック インターネットを経由しません。 Google Cloud
  • コストの削減: 特にプライベート インターコネクトの容量と組み合わせた場合、インターネットの下り(外向き)と比較して AWS からの下り(外向き)料金が低くなる可能性があります。
  • 一貫したパフォーマンス: パブリック インターネットと比較して、ネットワークのレイテンシと帯域幅を予測しやすくなります。

アーキテクチャの概要

プライベート クエリを有効にするには、プライベート インターコネクトを介して BigQuery から AWS Amazon S3 バケットへのパスを構成します。Virtual Private Cloud(VPC)(VPC)の主要コンポーネントは、 Google Cloud 内部ロードバランサ(ILB)です。ILB は、BigQuery から AWS VPC 内の Amazon S3 のプライベート エンドポイントにリクエストを分散します。これらのエンドポイントは AWS PrivateLink を使用してプロビジョニングされます。

複数の Elastic Network Interface(ENI)をバックエンドとして使用する ILB は、負荷分散、スケーラビリティ、高可用性に不可欠です。これは、Dedicated CCI を使用する場合でも Partner Interconnect を使用する場合でも同様です。

プライベート クエリのワークフローは次のプロセスに従います。

  1. BigQuery は、Service Directory サービスで構成された接続を使用します。
  2. Service Directory は、サービス名を ILB の Google Cloud 内部 IP アドレスに解決します。
  3. ILB は BigQuery からリクエストを受信し、構成されたバックエンドに分散します。
  4. ILB バックエンドはハイブリッド接続ネットワーク エンドポイント グループ(NEG)です。各 NEG は、AWS VPC 内の ENI のプライベート IP アドレスを指します。
  5. トラフィックは ILB から NEG を経由して、プライベート インターコネクトを介して AWS ENI に流れます。
  6. AWS ENI は、Amazon S3 VPC インターフェース エンドポイント(AWS PrivateLink)の一部であり、Amazon S3 サービスへのプライベート アクセスを提供します。

パブリック インターネット(CCI なし)

プライベート インターコネクトを構成しない場合、リモート カタログへのクエリはデフォルトでパブリック インターネット経由で転送されます。

パブリック インターネット経由でデータをクエリする場合は、次の影響を考慮してください。

  • 標準暗号化: データアクセス リクエストとデータ転送は、パブリック インターネット経由で標準の TLS プロトコルを使用して転送中に暗号化されます。
  • 下り(外向き)の費用: データ転送には、リモート クラウド プロバイダ(AWS など)から標準のインターネット下り(外向き)料金が発生します。通常、この料金はプライベート インターコネクトの下り(外向き)レートよりも高くなります。
  • レイテンシの変動: ネットワーク パフォーマンス、帯域幅、レイテンシはパブリック インターネットのルーティングと輻輳に依存するため、専用のプライベート インターコネクトと比較してクエリの実行時間を予測しにくくなります。
  • 設定の簡素化: やリモート クラウド プロバイダで、追加のネットワーク インフラストラクチャ、 VPC ピアリング、Service Directory の構成は必要ありません。 Google Cloud

アーキテクチャの概要

パブリック インターネット経由でデータをクエリする場合、Lakehouse はプライベート Google Cloud またはリモート クラウドのネットワーク インフラストラクチャを必要とせずに、リモート カタログとオブジェクト ストレージ エンドポイントに 直接接続します。

パブリック インターネット クエリのワークフローは次のプロセスに従います。

  1. BigQuery は、Lakehouse カタログで定義されたフェデレーション テーブルに対してクエリを開始します。
  2. Lakehouse は、Secret Manager に保存されている認証情報または OIDC トークン フェデレーションを使用して、リモート Apache Iceberg カタログで安全に認証します。
  3. Lakehouse は、パブリック インターネット経由でテーブル メタデータとマニフェスト ファイルを取得して、関連する基盤となるデータファイル(AWS Amazon S3 など)を特定します。
  4. 基盤となるオブジェクトのデータアクセス リクエストは、標準の TLS 暗号化を使用してパブリック インターネット経由で Google Cloud から直接送信されます。
  5. リモート ストレージ サービスは、Lakehouse によって提供される一時的なスコープ付き 認証情報を使用してリクエストを検証し、リクエストされた データブロックをパブリック インターネット経由で Google Cloudに返します。

次のステップ