2026 年 4 月 20 日より、BigLake は Lakehouse for Apache Iceberg に名称変更されました。BigLake metastore は、Lakehouse ランタイムカタログと呼ばれるようになりました。Lakehouse API、クライアントライブラリ、CLI コマンド、IAM 名は変更されず、引き続き BigLake を参照します。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

クロスクラウドの Lakehouse について

Cross-cloud Lakehouse for Apache Iceberg を使用すると、ファイルを移行したり、複雑な ETL パイプラインを構築したりすることなく、他のクラウドプロバイダに保存されているデータに直接クエリを実行できます。 Google Cloud

この機能は Lakehouse の一部として、BigQuery、スタンドアロンの Apache Spark 環境、または Managed Service for Apache Spark を使用して、分散データセット全体で統合分析を実行し、AI を適用できます。

ユースケース

クロスクラウド Lakehouse は、複数のクラウドプロバイダにまたがるデータへのアクセスに関する次の主要なユースケースをサポートしています。

データ移動の削減 により、他のクラウド環境に保存されているデータに直接クエリを実行できるため、データアクセスと処理が簡素化されます。
統合分析 により、データの保存場所に関係なく、すべてのデータに対して一貫した機能とハードウェアの最適化を使用して高度な分析を実行できます。
クロスクラウド AI と ML により、AI モデル、自律エージェント、機械学習をリモートデータに直接適用できます。データを移行する必要はありません。

クロスクラウド Lakehouse の仕組み

クロスクラウド Lakehouse は、次のプロセスを使用してリモートデータにクエリを実行します。

メタデータの検出: Google Cloudの Lakehouse は、Databricks Unity や AWS Glue などのリモート Apache Iceberg REST カタログに接続します。Lakehouse は、ファイルをコピーせずにデータを検出します。リモートカタログプロバイダに応じて、Lakehouse は Secret Manager または OpenID Connect トークンフェデレーション（Google を ID プロバイダとする OIDC トークンフェデレーション）を介して安全に認証します。
安全な転送: トラフィックをプライベートインターコネクト（Dedicated CCI や Partner Interconnect など）経由でルーティングすると、パブリックインターネットと比較してデータ転送の費用が大幅に削減され、レイテンシを予測しやすくなります。
最適化された実行: クエリがリモートクラウドからデータを読み取ると、 Lakehouse はこれらのデータセグメントをローカルに一時的にキャッシュします専用ストレージ内 Google Cloud に。以降のクエリではローカルキャッシュが使用されるため、クロスクラウドの下り（外向き）料金の大部分を回避できます。

サポートされているカタログ

クロスクラウド Lakehouse は、次のリモートカタログプロバイダからのデータのクエリをサポートしています。

Databricks Unity Catalog: Amazon Web Services（AWS）と Google Cloudでサポートされています。
AWS Glue: Amazon Web Services（AWS）でサポートされています。

基本コンセプト

このセクションでは、クロスクラウド Lakehouse の使用に不可欠な主要コンポーネントについて説明します。

リモート Apache Iceberg REST カタログ

これはメタデータレイヤです。リモート Apache Iceberg REST カタログに接続します。 Lakehouse は、ファイルをコピーせずにデータを検出します。OIDC トークンフェデレーションまたは OAuth 認証情報を使用して、Lakehouse は有効期間の長いアクセスキーを必要とせずに安全に認証します。

トランスポート層

これはトランスポートレイヤです。パブリックインターネットまたは専用のプライベートインターコネクト経由で、リモートクラウドプロバイダに保存されているデータをクエリするように Lakehouse を構成できます。

アーキテクチャとセキュリティの要件に合った転送方法を選択します。

お客様所有（CCI）

**Cross-Cloud Interconnect** または **Partner Interconnect** を使用して、プライベート専用ネットワーク接続経由で Amazon Web Services（AWS）Amazon S3 バケットに保存されているデータをクエリするように BigQuery を構成できます。

プライベートインターコネクトを使用すると、次のメリットがあります。

セキュリティの強化: データはと AWS 間のプライベートネットワーク接続を介して転送されるため、パブリックインターネットを経由しません。 Google Cloud
コストの削減: 特にプライベートインターコネクトの容量と組み合わせた場合、インターネットの下り（外向き）と比較して AWS からの下り（外向き）料金が低くなる可能性があります。
一貫したパフォーマンス: パブリックインターネットと比較して、ネットワークのレイテンシと帯域幅を予測しやすくなります。

アーキテクチャの概要

プライベートクエリを有効にするには、プライベートインターコネクトを介して BigQuery から AWS Amazon S3 バケットへのパスを構成します。Virtual Private Cloud（VPC）（VPC）の主要コンポーネントは、 Google Cloud 内部ロードバランサ（ILB）です。ILB は、BigQuery から AWS VPC 内の Amazon S3 のプライベートエンドポイントにリクエストを分散します。これらのエンドポイントは AWS PrivateLink を使用してプロビジョニングされます。

複数の Elastic Network Interface（ENI）をバックエンドとして使用する ILB は、負荷分散、スケーラビリティ、高可用性に不可欠です。これは、Dedicated CCI を使用する場合でも Partner Interconnect を使用する場合でも同様です。

プライベートクエリのワークフローは次のプロセスに従います。

BigQuery は、Service Directory サービスで構成された接続を使用します。
Service Directory は、サービス名を ILB の Google Cloud 内部 IP アドレスに解決します。
ILB は BigQuery からリクエストを受信し、構成されたバックエンドに分散します。
ILB バックエンドはハイブリッド接続ネットワークエンドポイントグループ（NEG）です。各 NEG は、AWS VPC 内の ENI のプライベート IP アドレスを指します。
トラフィックは ILB から NEG を経由して、プライベートインターコネクトを介して AWS ENI に流れます。
AWS ENI は、Amazon S3 VPC インターフェースエンドポイント（AWS PrivateLink）の一部であり、Amazon S3 サービスへのプライベートアクセスを提供します。

パブリックインターネット（CCI なし）

プライベートインターコネクトを構成しない場合、リモートカタログへのクエリはデフォルトでパブリックインターネット経由で転送されます。

パブリックインターネット経由でデータをクエリする場合は、次の影響を考慮してください。

標準暗号化: データアクセスリクエストとデータ転送は、パブリックインターネット経由で標準の TLS プロトコルを使用して転送中に暗号化されます。
下り（外向き）の費用: データ転送には、リモートクラウドプロバイダ（AWS など）から標準のインターネット下り（外向き）料金が発生します。通常、この料金はプライベートインターコネクトの下り（外向き）レートよりも高くなります。
レイテンシの変動: ネットワークパフォーマンス、帯域幅、レイテンシはパブリックインターネットのルーティングと輻輳に依存するため、専用のプライベートインターコネクトと比較してクエリの実行時間を予測しにくくなります。
設定の簡素化: やリモートクラウドプロバイダで、追加のネットワークインフラストラクチャ、 VPC ピアリング、Service Directory の構成は必要ありません。 Google Cloud

アーキテクチャの概要

パブリックインターネット経由でデータをクエリする場合、Lakehouse はプライベート Google Cloud またはリモートクラウドのネットワークインフラストラクチャを必要とせずに、リモートカタログとオブジェクトストレージエンドポイントに直接接続します。

パブリックインターネットクエリのワークフローは次のプロセスに従います。

BigQuery は、Lakehouse カタログで定義されたフェデレーションテーブルに対してクエリを開始します。
Lakehouse は、Secret Manager に保存されている認証情報または OIDC トークンフェデレーションを使用して、リモート Apache Iceberg カタログで安全に認証します。
Lakehouse は、パブリックインターネット経由でテーブルメタデータとマニフェストファイルを取得して、関連する基盤となるデータファイル（AWS Amazon S3 など）を特定します。
基盤となるオブジェクトのデータアクセスリクエストは、標準の TLS 暗号化を使用してパブリックインターネット経由で Google Cloud から直接送信されます。
リモートストレージサービスは、Lakehouse によって提供される一時的なスコープ付き認証情報を使用してリクエストを検証し、リクエストされたデータブロックをパブリックインターネット経由で Google Cloudに返します。

次のステップ

AWS Glue 用のクロスクラウド Lakehouse を設定する。
Databricks Unity Catalog 用のクロスクラウド Lakehouse を設定する。

クロスクラウドの Lakehouse について コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ユースケース

クロス クラウド Lakehouse の仕組み

サポートされているカタログ

基本コンセプト

リモート Apache Iceberg REST カタログ

トランスポート層

お客様所有（CCI）

アーキテクチャの概要

パブリック インターネット（CCI なし）

アーキテクチャの概要

次のステップ

クロスクラウドの Lakehouse について

クロスクラウド Lakehouse の仕組み

パブリックインターネット（CCI なし）