非结构化数据分析简介

知识目录中针对非结构化数据的数据剖析扫描会将 Cloud Storage 中的暗数据或非结构化文件(例如 PDF)转换为 BigQuery 中可查询的结构化资产。虽然标准发现工具仅限于文件级元数据(例如大小和类型),但由 Vertex AI Gemini 模型提供支持的非结构化数据剖析扫描会分析文件内容。它会自动提取 AI 智能体所需的业务背景信息,并为高级分析提供支持。

这种自动化功能无需手动解析文档和编写自定义 ETL 代码,让您可以发现、分类和使用以前无法访问的数据。

非结构化数据的数据分析扫描会分析非结构化文件的内容,以提取信息并推断架构。这不同于结构化数据的数据洞见功能,后者会根据现有结构化表的元数据生成说明和 SQL 查询,也不同于标准统计数据分析,后者会计算 null 计数和值分布等指标。

自动发现和语义分析

您可以根据起点使用两种不同的工作流来执行非结构化数据分析:

  • 在 Cloud Storage 发现扫描期间发现扫描会自动在 Cloud Storage 中找到非结构化文件,并将其编入 BigQuery 中的一个或多个对象表以供分析。对象表是位于 Cloud Storage 中的非结构化数据对象上的只读表。当您运行发现扫描并启用启用语义推理时,该扫描会成为非结构化数据分析的自动化入口点。

  • 作为非结构化数据的独立数据分析扫描:如果您已有现成的 BigQuery 对象表,可以直接对这些表运行非结构化数据的数据分析扫描。在此独立工作流中,您还可以在 DataScan 规范中提供自定义提示,以指导提取。

当系统执行非结构化数据分析(在发现扫描期间自动执行或作为独立扫描执行)时,会将对象表注册为 Knowledge Catalog 中的条目。条目表示您要捕获其元数据的数据资产。如果因发现扫描而创建了多个表,则每个条目都有自己的“数据洞见”标签页。然后,您可以打开相应条目,探索生成的数据分析洞见。 系统会执行以下操作:

  1. 识别文件并将其分组(仅限发现扫描)。自动识别 Cloud Storage 中的非结构化文件,并将其整理到对象表中。这些对象表是只读表,可为非结构化数据提供结构化接口。

  2. 针对非结构化数据执行数据分析扫描。使用 Vertex AI Gemini 模型分析文件中的内容,以了解其含义和结构。这包括实体推理,该功能使用生成式 AI 从文件内容中提取特定属性,例如 CompanyProductSerial Number。它还包括关系提取,用于识别这些实体之间的关联方式(例如 Component is_part_of Product),以创建语义图。如果您运行的是独立的数据分析扫描,则可以在 DataScan 规范中提供自定义提示,以指导此提取过程。

  3. 生成架构和图表配置文件。提供 AI 建议的关系型架构,并将 Graph Profile 方面 (dataplex-types.global.graph-profile) 附加到表示对象表的目录条目。借助方面,您可以在条目中捕获元数据。此元数据方面包含实体 (NodeType) 和关系 (EdgeType) 的推断架构。

  4. 丰富元数据。使用 AI 生成的元数据自动填充 Knowledge Catalog。这样一来,数据便可供搜索,并可随时提取。

您无需手动设计数据库架构,只需点击一下即可使用 SQL 或流水线编排执行数据提取。此过程会将推理出的实体和关系具体化为结构化格式,例如物理 BigQuery 表或视图。

API 方法

您可以使用以下 REST API 方法来配置、运行和管理非结构化数据的数据分析扫描及其生成的目录条目:

API 方法 说明
projects.locations.dataScans.create 创建发现服务扫描(使用 dataDiscoverySpec)或针对非结构化数据的独立数据分析扫描(使用 unstructuredDataProfileSpec)。
projects.locations.dataScans.run 触发按需数据剖析扫描或发现扫描作业,以分析非结构化文件并生成语义数据洞见。
projects.locations.dataScans.get 检索现有数据分析扫描的配置详细信息和最新作业结果。
projects.locations.dataScans.jobs.list 列出特定数据分析扫描或发现扫描的历史扫描作业。
projects.locations.dataScans.jobs.get 检索特定数据分析扫描作业的详细执行结果和日志。
projects.locations.entryGroups.entries.get 检索表示对象表的目录条目,包括其附加的 AI 生成的元数据方面(例如 GraphProfile)。
projects.locations.entryGroups.entries.patch 更新目录条目以附加、修改或整理元数据方面(例如 dataplex-types.global.graph-profile)。

使用场景

您可以在不同行业领域中将非结构化数据的数据分析文件扫描用于各种用途,包括:

  • 流水线设置和零 ETL 规范化。通过以下方式简化从 Cloud Storage 到 BigQuery 的数据提取:使用自动架构建议和一键式部署来替换自定义解析器,从而将数据具体化为 BigQuery 表、视图或语义图。

    例如,在电子商务和零售行业,市场平台可以自动将数百种不同 PDF 布局的供应商账单和采购订单规范化为统一的 BigQuery 架构(将 Unit Pr.Price/PkgItem Cost 映射到单个 Unit_Price 列),而无需编写自定义解析代码。在医疗保健行业,生物统计学家可以将多中心临床试验方案和病例报告表 (CRF) 注入到结构化表格中,以便快速进行同类群组分析。

  • 内容分类和验证。自动将暗数据分组为可搜索的资产,并使用 AI 生成的元数据进行丰富,从而让数据管理员能够大规模地对提取的实体执行人机协同验证和监控。

    例如,在金融服务领域,进行并购尽职调查的投资银行可以自动对大量历史合同和信贷协议存储区进行分类,提取复杂的法律实体(Contracting_PartiesIndemnity_CapGoverning_Law)。数据管理员可以在数据分析标签页中探索可视化知识图谱,以便在将数据导出到高管报告之前识别高风险负债。

  • AI 智能体建立依据。使用经过验证的图表为检索增强生成 (RAG) 智能体建立依据。这提供了一条清晰的“可追溯性链条”,将原始文件与结构化业务逻辑相关联,从而减少幻觉,让 AI 智能体能够毫无歧义地浏览多表联接。

    例如,在制造和工业运营领域,一家重型机械公司可以从数十年的非结构化现场维护日志和事件报告中提取设备关系。当现场技术人员向对话式 AI 智能体询问如何解决异常的液压下降问题时,该智能体可以使用经过验证的关系图 (Error_Code indicates_failure Hydraulic_Valve) 提供准确的逐步维修方案,并引用确切的历史事件报告。

限制

在对非结构化数据使用数据分析扫描之前,请查看以下限制:

  • 支持的格式。虽然发现扫描会自动识别各种非结构化文件类型并将其分组到 BigQuery 对象表中,但用于非结构化数据的数据分析扫描的语义推理引擎主要针对 PDF 文档进行了优化。

  • 地理位置。非结构化数据的数据剖析扫描仅在支持 Vertex AI Gemini 2.5 Pro 模型的地区(例如 us-central1europe-west1asia-southeast1)提供。如需查看支持的区域列表,请参阅 Gemini 2.5 Pro 中的支持的地区部分。在不受支持的区域中创建的扫描会返回验证或执行错误。

  • 资源范围。非结构化数据的数据分析扫描仅适用于 BigQuery 对象表。它们不支持标准 BigQuery 结构化表、基于结构化数据的外部表或 BigQuery 视图。

价格

在公开预览阶段,您可以根据专门的促销条款,对非结构化数据的数据分析扫描功能进行实验和测试:

  • 语义推理。在整个预览期间,使用 Vertex AI Gemini 模型提取语义信息和在发现扫描期间推断图谱配置文件无需付费。

  • 底层资源费用。存储和处理数据所需的资源按标准费用计费:

    • Knowledge Catalog

      • 探索扫描的费用根据 Knowledge Catalog Premium 处理 SKU(DCU 小时)计算,用于对非结构化文件进行基准扫描和分组。如需了解详情,请参阅 Knowledge Catalog 价格

      • AI 生成的元数据切面(包括图谱配置文件)会产生标准 Knowledge Catalog 目录存储费用。

    • BigQuery 和 Dataform

      • 如果使用流水线提取方法,则会产生 Dataform 执行和 BigQuery 作业的标准费用。

      • 如果使用 SQL 方法,则需支付标准 BigQuery ML 费用 (ML.PROCESS_DOCUMENT) 和 BigQuery 查询处理费用。

      • 任何具体化到 BigQuery 中的数据(包括对象表、推断的元数据和提取的实体)都会产生标准的 BigQuery 存储和查询费用。如需了解详情,请参阅 BigQuery 价格

非结构化数据和语义推理的数据分析扫描的官方专用结算结构将于正式版 (GA) 发布后开始生效。

配额

标准 DataScan 资源和 API 配额适用于每个单独的发现扫描或数据分析扫描作业。有一项特定配额用于控制语义推理量:每天针对 BigQuery 对象表中的非结构化数据执行数据分析扫描的总次数限制为每个项目每天 140 次

在发现扫描期间执行非结构化数据分析时,发现扫描支持的表数量也有限制。如需了解详情,请参阅 BigQuery 配额和限制

后续步骤