Knowledge Catalog の非構造化データのデータ プロファイル スキャンは、Cloud Storage 内の PDF などのダークデータや非構造化ファイルを、BigQuery 内の構造化されたクエリ可能なアセットに変換します。標準の検出ツールはサイズやタイプなどのファイルレベルのメタデータに限定されますが、Vertex AI Gemini モデルを搭載した非構造化データのデータ プロファイル スキャンはファイルの内容を分析します。AI エージェントのグラウンディングと高度な分析に必要なビジネス コンテキストを自動的に抽出します。
この自動化により、ドキュメントの手動解析やカスタム ETL コードが不要になり、これまでアクセスできなかったデータを検出、分類、使用できるようになります。
非構造化データのデータ プロファイル スキャンは、非構造化ファイルの コンテンツを分析して情報を抽出し、スキーマを推測します。これは、既存の構造化テーブルのメタデータに基づいて説明と SQL クエリを生成する構造化データのデータ 分析情報 機能や、null カウントや値の分布などの指標を計算する標準の統計データ プロファイリングとは異なります。
自動検出とセマンティック プロファイリング
開始点に応じて、次の 2 つの異なるワークフローを使用して非構造化データのプロファイリングを行うことができます。
Cloud Storage 検出スキャン中: 検出 スキャンは、Cloud Storage 内の 非構造化ファイルを自動的に特定し、分析のために BigQuery の 1 つ以上の オブジェクト テーブルにカタログ化します。オブジェクト テーブルは、Cloud Storage 内にある非構造化データ オブジェクトの読み取り専用テーブルです。[セマンティック推論を有効にする] を有効にして検出スキャンを実行すると、非構造化データ プロファイリングの自動エントリ ポイントとして機能します。
非構造化データのスタンドアロン データ プロファイル スキャンとして: 既存の BigQuery オブジェクト テーブルがある場合は、それらのテーブルで非構造化データのデータ プロファイル スキャンを直接実行できます。このスタンドアロン ワークフローでは、DataScan 仕様でカスタマイズされたプロンプトを指定して抽出をガイドすることもできます。
非構造化データのプロファイリングが実行されると( 検出スキャン中に自動的に実行されるか、スタンドアロン スキャンとして実行されるか)、オブジェクト テーブルが Knowledge Catalog のエントリとして 登録されます。エントリは、メタデータをキャプチャするデータアセットを表します。検出スキャンによって複数のテーブルが作成されると、各エントリに独自の [分析情報] タブが表示されます。このエントリを開いて、 生成されたデータ分析情報を確認できます。 システムは次の処理を行います。
ファイルを識別してグループ化します(検出スキャンのみ)。Cloud Storage 内の非構造化ファイルを自動的に識別して、オブジェクト テーブルに整理します。これらのオブジェクト テーブルは、非構造化データへの構造化インターフェースを提供する読み取り専用テーブルです。
非構造化データのデータ プロファイル スキャンを実行します。Vertex AI Gemini モデルを使用して、ファイル内のコンテンツを分析し、その意味と構造を把握します。これには、生成 AI を使用してファイル コンテンツから特定の属性(
Company、Product、Serial Numberなど)を抽出する エンティティ推論が含まれます。また、これらのエンティティの接続方法を特定してセマンティック グラフを作成する関係抽出も含まれます。Component is_part_of Productスタンドアロン プロファイル スキャンを実行している場合は、DataScan 仕様でカスタマイズされたプロンプトを指定してこの抽出をガイドできます。スキーマとグラフ プロファイルを生成します。AI が推奨する リレーショナル スキーマを提供し、
Graph Profileアスペクト (dataplex-types.global.graph-profile)をオブジェクト テーブルを表す カタログ エントリにアタッチします。アスペクトを使用すると、エントリ内のメタデータをキャプチャできます。 このメタデータ アスペクトには、エンティティ(NodeType)と関係(EdgeType)の推測されたスキーマが含まれています。メタデータを強化します。AI が生成したメタデータを Knowledge Catalog に自動的に入力します。これにより、データを検索して抽出できるようになります。
データベース スキーマを手動で設計する代わりに、ワンクリック SQL またはパイプライン オーケストレーションを使用してデータ抽出を実行できます。 このプロセスでは、推測されたエンティティと関係が、物理 BigQuery テーブルやビューなどの構造化された形式に具体化されます。
API メソッド
次の REST API メソッドを使用して、非構造化データのデータ プロファイル スキャンとその結果のカタログ エントリを構成、実行、管理できます。
| API メソッド | 説明 |
|---|---|
projects.locations.dataScans.create |
検出スキャン(dataDiscoverySpec を使用)または非構造化データのスタンドアロン データ プロファイル スキャン(unstructuredDataProfileSpec を使用)を作成します。 |
projects.locations.dataScans.run |
オンデマンドのデータ プロファイル スキャンまたは検出スキャン ジョブをトリガーして、非構造化ファイルを分析し、セマンティック分析情報を生成します。 |
projects.locations.dataScans.get |
既存のデータ プロファイル スキャンの構成の詳細と最新のジョブ結果を取得します。 |
projects.locations.dataScans.jobs.list |
特定のデータ プロファイル スキャンまたは検出スキャンの過去のスキャン ジョブを一覧表示します。 |
projects.locations.dataScans.jobs.get |
特定のデータ プロファイル スキャン ジョブの詳細な実行結果とログを取得します。 |
projects.locations.entryGroups.entries.get |
オブジェクト テーブルを表すカタログ エントリを取得します。これには、アタッチされた AI 生成のメタデータ アスペクト(GraphProfile など)が含まれます。 |
projects.locations.entryGroups.entries.patch |
カタログ エントリを更新して、メタデータ アスペクト(dataplex-types.global.graph-profile など)をアタッチ、変更、キュレートします。 |
ユースケース
非構造化データのデータ プロファイル スキャンは、次のようなさまざまな業界ドメインでさまざまな目的に使用できます。
パイプラインの設定とゼロ ETL 正規化。カスタム パーサーを自動スキーマ提案とワンクリック デプロイに置き換えて、Cloud Storage から BigQuery へのデータ抽出を容易にし、データを BigQuery テーブル、ビュー、セマンティック グラフに具体化します。
たとえば、e コマースや小売業では、マーケットプレイスはカスタム解析コードを記述せずに、数百もの異なる PDF レイアウトのサプライヤー請求書と購入注文書を、まとまりのある統一された BigQuery スキーマ(
Unit Pr.、Price/Pkg、Item Costを単一のUnit_Price列にマッピング)に自動的に正規化できます。医療機関では、生物統計学者が多施設共同臨床試験プロトコルと症例報告書(CRF)を構造化テーブルに取り込んで、迅速なコホート分析を行うことができます。コンテンツの分類と検証。AI が生成したメタデータで強化された検索可能なアセットにダークデータを自動的にグループ化することで、データ スチュワードは抽出されたエンティティの大規模な人間による検証とモニタリングを行うことができます。
たとえば、金融サービスでは、M&A のデュー デリジェンスを実施する投資銀行は、過去の契約書と信用契約書の大きなリポジトリを自動的に分類し、複雑な法人(
Contracting_Parties、Indemnity_Cap、Governing_Law)を抽出できます。データ スチュワードは、[分析情報] タブでビジュアル ナレッジグラフを調べて、データをエグゼクティブ レポートにエクスポートする前にリスクの高い負債を特定できます。AI エージェントのグラウンディング。検証済みのグラフを使用して、検索拡張生成(RAG)エージェントをグラウンディングします。これにより、未加工ファイルと構造化されたビジネス ロジックを結び付ける明確な「トレーサビリティ チェーン」が提供され、ハルシネーションが軽減されます。これにより、AI エージェントは複数のテーブル結合を曖昧さなくナビゲートできます。
たとえば、製造業や産業運営では、重機メーカーは数十年にわたる非構造化のフィールド メンテナンス ログとインシデント レポートから機器の関係を抽出できます。現場の技術者が会話型 AI エージェントに、特徴のない油圧の低下を解決する方法を尋ねると、エージェントは検証済みの関係グラフ(
Error_Code indicates_failure Hydraulic_Valve)を使用して、正確な過去のインシデント レポートを引用したステップごとの修理計画を提供します。
制限事項
非構造化データのデータ プロファイル スキャンを使用する前に、次の制限事項を確認してください。
サポートされている形式。検出スキャンはさまざまな非構造化ファイル タイプを自動的に識別して BigQuery オブジェクト テーブルにグループ化しますが、非構造化データのデータ プロファイル スキャンのセマンティック推論エンジンは主に PDF ドキュメント用に最適化されています。
地域。非構造化データのデータ プロファイル スキャンは、Vertex AI Gemini 2.5 Pro モデルをサポートするロケーション(
us-central1、europe-west1、asia-southeast1など)でのみ使用できます。サポートされているリージョンのリストについては、サポートされているリージョン セクションを Gemini 2.5 Proでご覧ください。サポートされていないリージョンで作成されたスキャンは、検証エラーまたは実行エラーを返します。リソース スコープ。非構造化データのデータ プロファイル スキャンは、BigQuery オブジェクト テーブルでのみ動作します。標準の BigQuery 構造化テーブル、構造化データに対する外部テーブル、BigQuery ビューはサポートされていません。
料金
公開プレビュー期間中、非構造化データのデータ プロファイル スキャンは、特別なプロモーション条件の下でテストとテストに使用できます。
セマンティック推論。プレビュー期間中、Vertex AI Gemini モデルを使用してセマンティック情報を抽出し、検出スキャン中にグラフ プロファイルを推測する場合、料金は発生しません。
基盤となるリソースの費用。データの保存と処理に必要なリソースには、標準料金が適用されます。
Knowledge Catalog
検出スキャンは、非構造化ファイルのベースライン スキャンとグループ化に対して、Knowledge Catalog Premium 処理 SKU(DCU 時間)に基づいて課金されます。詳細については、 Knowledge Catalog の料金をご覧ください。
グラフ プロファイルなどの AI 生成のメタデータ アスペクトには、Knowledge Catalog の標準カタログ ストレージ料金が発生します。
BigQuery と Dataform
パイプライン抽出方法を使用する場合、Dataform の実行と BigQuery ジョブの標準料金が適用されます。
SQL メソッドを使用する場合、標準の BigQuery ML 料金(
ML.PROCESS_DOCUMENT)と BigQuery クエリ処理料金が適用されます。オブジェクト テーブル、推測されたメタデータ、抽出されたエンティティなど、BigQuery に具体化されたデータには、BigQuery の標準ストレージ料金とクエリ料金が発生します。詳細については、BigQuery の料金をご覧ください。
非構造化データのデータ プロファイル スキャンとセマンティック推論の公式の専用課金構造は、一般提供(GA)時に開始されます。
割り当て
標準の DataScan リソースと API の割り当ては、個々の 検出スキャンまたはデータ プロファイル スキャン ジョブに適用されます。特定の割り当てはセマンティック推論のボリュームを管理します。BigQuery オブジェクト テーブルでの非構造化データのデータ プロファイル スキャンの 1 日あたりの合計実行回数は、プロジェクトごとに 1 日 140 回 に制限されます。
検出スキャン中に非構造化データのプロファイリングが実行される場合、検出スキャンでサポートされるテーブル数の上限も適用されます。詳細については、BigQuery の割り当てと 上限をご覧ください。
次のステップ
- 非構造化データの検出スキャンを使用する方法を 確認する。
- 非構造化データのデータ プロファイルを使用する方法を確認する。
- データの検出の詳細を確認する。
- データ プロファイリングについてを読む。