Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

非構造化データの分析情報について

Knowledge Catalog の非構造化データのデータプロファイルスキャンは、Cloud Storage 内の PDF などのダークデータや非構造化ファイルを、BigQuery 内の構造化されたクエリ可能なアセットに変換します。標準の検出ツールはサイズやタイプなどのファイルレベルのメタデータに限定されますが、Vertex AI Gemini モデルを搭載した非構造化データのデータプロファイルスキャンはファイルの内容を分析します。AI エージェントのグラウンディングと高度な分析に必要なビジネスコンテキストを自動的に抽出します。

この自動化により、ドキュメントの手動解析やカスタム ETL コードが不要になり、これまでアクセスできなかったデータを検出、分類、使用できるようになります。

非構造化データのデータプロファイルスキャンは、非構造化ファイルのコンテンツを分析して情報を抽出し、スキーマを推測します。これは、既存の構造化テーブルのメタデータに基づいて説明と SQL クエリを生成する構造化データのデータ分析情報機能や、null カウントや値の分布などの指標を計算する標準の統計データプロファイリングとは異なります。

自動検出とセマンティックプロファイリング

開始点に応じて、次の 2 つの異なるワークフローを使用して非構造化データのプロファイリングを行うことができます。

Cloud Storage 検出スキャン中: 検出スキャンは、Cloud Storage 内の非構造化ファイルを自動的に特定し、分析のために BigQuery の 1 つ以上のオブジェクトテーブルにカタログ化します。オブジェクトテーブルは、Cloud Storage 内にある非構造化データオブジェクトの読み取り専用テーブルです。[セマンティック推論を有効にする] を有効にして検出スキャンを実行すると、非構造化データプロファイリングの自動エントリポイントとして機能します。
非構造化データのスタンドアロンデータプロファイルスキャンとして: 既存の BigQuery オブジェクトテーブルがある場合は、それらのテーブルで非構造化データのデータプロファイルスキャンを直接実行できます。このスタンドアロンワークフローでは、DataScan 仕様でカスタマイズされたプロンプトを指定して抽出をガイドすることもできます。

非構造化データのプロファイリングが実行されると（検出スキャン中に自動的に実行されるか、スタンドアロンスキャンとして実行されるか）、オブジェクトテーブルが Knowledge Catalog のエントリとして登録されます。エントリは、メタデータをキャプチャするデータアセットを表します。検出スキャンによって複数のテーブルが作成されると、各エントリに独自の [分析情報] タブが表示されます。このエントリを開いて、生成されたデータ分析情報を確認できます。システムは次の処理を行います。

ファイルを識別してグループ化します（検出スキャンのみ）。Cloud Storage 内の非構造化ファイルを自動的に識別して、オブジェクトテーブルに整理します。これらのオブジェクトテーブルは、非構造化データへの構造化インターフェースを提供する読み取り専用テーブルです。
非構造化データのデータプロファイルスキャンを実行します。Vertex AI Gemini モデルを使用して、ファイル内のコンテンツを分析し、その意味と構造を把握します。これには、生成 AI を使用してファイルコンテンツから特定の属性（Company、Product、Serial Number など）を抽出する エンティティ推論が含まれます。また、これらのエンティティの接続方法を特定してセマンティックグラフを作成する関係抽出も含まれます。Component is_part_of Productスタンドアロンプロファイルスキャンを実行している場合は、DataScan 仕様でカスタマイズされたプロンプトを指定してこの抽出をガイドできます。
スキーマとグラフプロファイルを生成します。AI が推奨するリレーショナルスキーマを提供し、Graph Profile アスペクト（dataplex-types.global.graph-profile）をオブジェクトテーブルを表すカタログエントリにアタッチします。アスペクトを使用すると、エントリ内のメタデータをキャプチャできます。このメタデータアスペクトには、エンティティ（NodeType）と関係（EdgeType）の推測されたスキーマが含まれています。
メタデータを強化します。AI が生成したメタデータを Knowledge Catalog に自動的に入力します。これにより、データを検索して抽出できるようになります。

データベーススキーマを手動で設計する代わりに、ワンクリック SQL またはパイプラインオーケストレーションを使用してデータ抽出を実行できます。このプロセスでは、推測されたエンティティと関係が、物理 BigQuery テーブルやビューなどの構造化された形式に具体化されます。

API メソッド

次の REST API メソッドを使用して、非構造化データのデータプロファイルスキャンとその結果のカタログエントリを構成、実行、管理できます。

API メソッド	説明
`projects.locations.dataScans.create`	検出スキャン（`dataDiscoverySpec` を使用）または非構造化データのスタンドアロンデータプロファイルスキャン（`unstructuredDataProfileSpec` を使用）を作成します。
`projects.locations.dataScans.run`	オンデマンドのデータプロファイルスキャンまたは検出スキャンジョブをトリガーして、非構造化ファイルを分析し、セマンティック分析情報を生成します。
`projects.locations.dataScans.get`	既存のデータプロファイルスキャンの構成の詳細と最新のジョブ結果を取得します。
`projects.locations.dataScans.jobs.list`	特定のデータプロファイルスキャンまたは検出スキャンの過去のスキャンジョブを一覧表示します。
`projects.locations.dataScans.jobs.get`	特定のデータプロファイルスキャンジョブの詳細な実行結果とログを取得します。
`projects.locations.entryGroups.entries.get`	オブジェクトテーブルを表すカタログエントリを取得します。これには、アタッチされた AI 生成のメタデータアスペクト（`GraphProfile` など）が含まれます。
`projects.locations.entryGroups.entries.patch`	カタログエントリを更新して、メタデータアスペクト（`dataplex-types.global.graph-profile` など）をアタッチ、変更、キュレートします。

ユースケース

非構造化データのデータプロファイルスキャンは、次のようなさまざまな業界ドメインでさまざまな目的に使用できます。

パイプラインの設定とゼロ ETL 正規化。カスタムパーサーを自動スキーマ提案とワンクリックデプロイに置き換えて、Cloud Storage から BigQuery へのデータ抽出を容易にし、データを BigQuery テーブル、ビュー、セマンティックグラフに具体化します。

たとえば、e コマースや小売業では、マーケットプレイスはカスタム解析コードを記述せずに、数百もの異なる PDF レイアウトのサプライヤー請求書と購入注文書を、まとまりのある統一された BigQuery スキーマ（Unit Pr.、Price/Pkg、Item Cost を単一の Unit_Price 列にマッピング）に自動的に正規化できます。医療機関では、生物統計学者が多施設共同臨床試験プロトコルと症例報告書（CRF）を構造化テーブルに取り込んで、迅速なコホート分析を行うことができます。
コンテンツの分類と検証。AI が生成したメタデータで強化された検索可能なアセットにダークデータを自動的にグループ化することで、データスチュワードは抽出されたエンティティの大規模な人間による検証とモニタリングを行うことができます。

たとえば、金融サービスでは、M&A のデューデリジェンスを実施する投資銀行は、過去の契約書と信用契約書の大きなリポジトリを自動的に分類し、複雑な法人（Contracting_Parties、Indemnity_Cap、Governing_Law）を抽出できます。データスチュワードは、[分析情報] タブでビジュアルナレッジグラフを調べて、データをエグゼクティブレポートにエクスポートする前にリスクの高い負債を特定できます。
AI エージェントのグラウンディング。検証済みのグラフを使用して、検索拡張生成（RAG）エージェントをグラウンディングします。これにより、未加工ファイルと構造化されたビジネスロジックを結び付ける明確な「トレーサビリティチェーン」が提供され、ハルシネーションが軽減されます。これにより、AI エージェントは複数のテーブル結合を曖昧さなくナビゲートできます。

たとえば、製造業や産業運営では、重機メーカーは数十年にわたる非構造化のフィールドメンテナンスログとインシデントレポートから機器の関係を抽出できます。現場の技術者が会話型 AI エージェントに、特徴のない油圧の低下を解決する方法を尋ねると、エージェントは検証済みの関係グラフ（Error_Code indicates_failure Hydraulic_Valve）を使用して、正確な過去のインシデントレポートを引用したステップごとの修理計画を提供します。

制限事項

非構造化データのデータプロファイルスキャンを使用する前に、次の制限事項を確認してください。

サポートされている形式。検出スキャンはさまざまな非構造化ファイルタイプを自動的に識別して BigQuery オブジェクトテーブルにグループ化しますが、非構造化データのデータプロファイルスキャンのセマンティック推論エンジンは主に PDF ドキュメント用に最適化されています。
地域。非構造化データのデータプロファイルスキャンは、Vertex AI Gemini 2.5 Pro モデルをサポートするロケーション（us-central1、europe-west1、asia-southeast1 など）でのみ使用できます。サポートされているリージョンのリストについては、サポートされているリージョン セクションを Gemini 2.5 Proでご覧ください。サポートされていないリージョンで作成されたスキャンは、検証エラーまたは実行エラーを返します。
リソーススコープ。非構造化データのデータプロファイルスキャンは、BigQuery オブジェクトテーブルでのみ動作します。標準の BigQuery 構造化テーブル、構造化データに対する外部テーブル、BigQuery ビューはサポートされていません。

料金

公開プレビュー期間中、非構造化データのデータプロファイルスキャンは、特別なプロモーション条件の下でテストとテストに使用できます。

セマンティック推論。プレビュー期間中、Vertex AI Gemini モデルを使用してセマンティック情報を抽出し、検出スキャン中にグラフプロファイルを推測する場合、料金は発生しません。
基盤となるリソースの費用。データの保存と処理に必要なリソースには、標準料金が適用されます。
- Knowledge Catalog
  - 検出スキャンは、非構造化ファイルのベースラインスキャンとグループ化に対して、Knowledge Catalog Premium 処理 SKU（DCU 時間）に基づいて課金されます。詳細については、 Knowledge Catalog の料金をご覧ください。
  - グラフプロファイルなどの AI 生成のメタデータアスペクトには、Knowledge Catalog の標準カタログストレージ料金が発生します。
- BigQuery と Dataform
  - パイプライン抽出方法を使用する場合、Dataform の実行と BigQuery ジョブの標準料金が適用されます。
  - SQL メソッドを使用する場合、標準の BigQuery ML 料金（ML.PROCESS_DOCUMENT）と BigQuery クエリ処理料金が適用されます。
  - オブジェクトテーブル、推測されたメタデータ、抽出されたエンティティなど、BigQuery に具体化されたデータには、BigQuery の標準ストレージ料金とクエリ料金が発生します。詳細については、BigQuery の料金をご覧ください。

非構造化データのデータプロファイルスキャンとセマンティック推論の公式の専用課金構造は、一般提供（GA）時に開始されます。

割り当て

標準の DataScan リソースと API の割り当ては、個々の検出スキャンまたはデータプロファイルスキャンジョブに適用されます。特定の割り当てはセマンティック推論のボリュームを管理します。BigQuery オブジェクトテーブルでの非構造化データのデータプロファイルスキャンの 1 日あたりの合計実行回数は、プロジェクトごとに 1 日 140 回 に制限されます。

検出スキャン中に非構造化データのプロファイリングが実行される場合、検出スキャンでサポートされるテーブル数の上限も適用されます。詳細については、BigQuery の割り当てと上限をご覧ください。