2026 年 4 月 20 日より、BigLake は Lakehouse for Apache Iceberg に名称変更されました。BigLake metastore は、Lakehouse ランタイムカタログと呼ばれるようになりました。Lakehouse API、クライアントライブラリ、CLI コマンド、IAM 名は変更されず、引き続き BigLake を参照します。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Apache Spark ストアドプロシージャで Lakehouse ランタイムカタログを使用する

Apache Spark ストアドプロシージャは、Lakehouse for Apache Iceberg 内でジョブを実行します。Lakehouse ランタイムカタログに接続することで、これらのプロシージャは基盤となるデータウェアハウスに対して Spark SQL コマンドを直接実行します。

始める前に

Google Cloud プロジェクトに対する課金を有効にします。詳しくは、プロジェクトで課金が有効になっているかどうかを確認する方法をご覧ください。
BigQuery API と Dataproc API を有効にします。

API を有効にする

必要なロール

Apache Spark ストアドプロシージャを使用するには、ストアドプロシージャに必要なロールを確認し、必要なロールを付与します。

メタデータサービスとして Lakehouse ランタイムカタログで Apache Spark とストアドプロシージャを使用するために必要な権限を取得するには、次の IAM ロールを付与するよう管理者に依頼してください。

Apache Spark で Lakehouse ランタイムカタログテーブルを作成する。
- プロジェクト内の Spark Connection サービスアカウントに対する BigQuery データ編集者（roles/bigquery.dataEditor）
- プロジェクトの Spark Connection サービスアカウントに対するストレージオブジェクトユーザー（roles/storage.objectUser）
BigQuery で Lakehouse ランタイムカタログテーブルに対してクエリを実行する:
- プロジェクトに対する BigQuery データ閲覧者（roles/bigquery.dataViewer）
- プロジェクトに対する BigQuery ユーザー（roles/bigquery.user）
- プロジェクトに対するストレージオブジェクト閲覧者（roles/storage.objectViewer）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

ストアドプロシージャを作成して実行する

次の例は、Lakehouse ランタイムカタログを使用してストアドプロシージャを作成し、実行する方法を示しています。

[BigQuery] ページに移動します。

[BigQuery] に移動

クエリエディタで、CREATE PROCEDURE ステートメントのサンプルコードを追加します。

CREATE OR REPLACE PROCEDURE
`PROJECT_ID.BQ_DATASET_ID.PROCEDURE_NAME`()
WITH CONNECTION `PROJECT_ID.REGION.SPARK_CONNECTION_ID` OPTIONS (engine='SPARK',
runtime_version='1.1',
properties=[("spark.sql.catalog.CATALOG_NAME.warehouse",
"WAREHOUSE_DIRECTORY"),
("spark.sql.catalog.CATALOG_NAME.gcp_location",
"LOCATION"),
("spark.sql.catalog.CATALOG_NAME.gcp_project",
"PROJECT_ID"),
("spark.sql.catalog.CATALOG_NAME",
"org.apache.iceberg.spark.SparkCatalog"),
("spark.sql.catalog.CATALOG_NAME.catalog-impl",
"org.apache.iceberg.gcp.bigquery.BigQueryMetastoreCatalog"),
("spark.jars.packages",
"org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.6.1")],
jar_uris=["gs://spark-lib/bigquery/iceberg-bigquery-catalog-1.6.1-1.0.2.jar"])
LANGUAGE python AS R"""
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("Lakehouse runtime catalog Iceberg") \
.getOrCreate()
spark.sql("USE CATALOG_NAME;")
spark.sql("CREATE NAMESPACE IF NOT EXISTS NAMESPACE_NAME;")
spark.sql("USE NAMESPACE_NAME;")
spark.sql("CREATE TABLE TABLE_NAME (id int, data string) USING ICEBERG LOCATION 'WAREHOUSE_DIRECTORY'")
spark.sql("DESCRIBE TABLE_NAME;")
spark.sql("INSERT INTO TABLE_NAME VALUES (1, \"first row\");")
spark.sql("SELECT * from TABLE_NAME;")
spark.sql("ALTER TABLE TABLE_NAME ADD COLUMNS (newDoubleCol double);")
spark.sql("DESCRIBE TABLE_NAME;")
""";
CALL `PROJECT_ID.BQ_DATASET_ID.PROCEDURE_NAME`();

次のように置き換えます。

PROJECT_ID: 実際の Google Cloud プロジェクト ID。
BQ_DATASET_ID: プロシージャを含む BigQuery データセットの ID。
PROCEDURE_NAME: 作成または置き換えるプロシージャの名前。
REGION: Apache Spark 接続のロケーション。
LOCATION: BigQuery リソースのロケーション。
SPARK_CONNECTION_ID: Apache Spark 接続の ID。
CATALOG_NAME: 使用しているカタログの名前。
WAREHOUSE_DIRECTORY: データウェアハウスが格納されている Cloud Storage フォルダの URI。
NAMESPACE_NAME: 使用している名前空間。

次のステップ

Lakehouse ランタイムカタログのオプション機能を設定します。

Apache Spark ストアド プロシージャで Lakehouse ランタイム カタログを使用する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

始める前に

必要なロール

ストアド プロシージャを作成して実行する

次のステップ

Apache Spark ストアドプロシージャで Lakehouse ランタイムカタログを使用する

ストアドプロシージャを作成して実行する