Acerca de la generación de perfiles de datos

Knowledge Catalog (anteriormente, Dataplex Universal Catalog) facilita la comprensión y el análisis de tus datos, ya que genera automáticamente perfiles de tus tablas de BigQuery y del catálogo de REST de Iceberg.

La creación de perfiles es como obtener un informe de salud detallado de tus datos. Te brinda estadísticas clave, como los valores comunes, cómo se distribuyen los datos (distribución) y cuántas entradas faltan (recuentos de valores nulos). Esta información acelera tu análisis.

El perfilamiento de datos recomienda reglas de verificación de la calidad de los datos para garantizar que tus datos sigan siendo confiables.

Modelo conceptual

Knowledge Catalog te permite comprender mejor el perfil de tus datos creando un análisis de perfil de datos. Un análisis de perfil de datos es un tipo de análisis de datos de Knowledge Catalog que analiza una tabla de BigQuery o de Iceberg REST Catalog para generar estadísticas.

En el siguiente diagrama, se muestra cómo Knowledge Catalog analiza los datos para generar informes sobre las características estadísticas.

Un análisis de perfil de datos analiza los datos de la tabla para generar informes sobre las características estadísticas.

Un análisis de perfil de datos se asocia con una tabla de BigQuery o una tabla del catálogo de REST de Iceberg, y analiza la tabla para generar los resultados de la generación de perfiles de datos. Un análisis de perfil de datos admite varias opciones de configuración.

Opciones de configuración

En esta sección, se describen las opciones de configuración disponibles para ejecutar análisis de perfiles de datos.

Modos de generación de perfiles

Puedes elegir entre los siguientes modos de generación de perfiles:

  • Estándar: Este es el modo predeterminado. Proporciona un perfil integral y personalizable, ya que analiza tus datos según el muestreo y los filtros que especifiques. El modo estándar es adecuado para el análisis detallado y la supervisión a largo plazo de las características de los datos.

  • Ligero (versión preliminar): Este modo proporciona análisis de perfiles de baja latencia que muestran resultados en segundos. Está optimizado para la velocidad y la rentabilidad, y admite casos de uso como los siguientes:

    • Fundamentación de las respuestas de los agentes de IA con características de datos inmediatas
    • Generación previa rentable de perfiles a gran escala para el descubrimiento de datos globales
    • Proporcionar informes de salud rápidos durante la exploración de datos interactiva

    El modo ligero tiene las siguientes limitaciones:

    • A diferencia del modo de generación de perfiles estándar, no puedes modificar el alcance, los filtros ni el tamaño de la muestra en los análisis ligeros.
    • No admite vistas de BigQuery ni tablas externas.
  • No estructurado (vista previa): Este modo usa un análisis independiente del perfil de datos para los datos no estructurados (UnstructuredDataProfileSpec) potenciado por los modelos de Gemini de Vertex AI para analizar el contenido cualitativo real de los archivos no estructurados (como los archivos PDF en Cloud Storage) con las tablas de objetos existentes de BigQuery. A diferencia de los modos de generación de perfiles estructurados (Estándar y Ligero), que calculan métricas estadísticas, como los recuentos de valores nulos y las distribuciones de valores, los análisis de perfiles de datos para datos no estructurados realizan inferencias semánticas para extraer entidades comerciales (NodeType) y relaciones (EdgeType), adjuntar un aspecto Graph Profile (dataplex-types.global.graph-profile) a la entrada del catálogo y habilitar la materialización de datos programática en tablas o vistas físicas de BigQuery.

    Nota: Los análisis de perfiles de datos para datos no estructurados están disponibles en la versión preliminar pública solo a través de la API de REST de Dataplex. No se admiten los flujos de trabajo de la Google Cloud consola ni de Google Cloud CLI.

    Para obtener más información, consulta Acerca de las estadísticas de datos no estructurados, Usa el análisis de descubrimiento para datos no estructurados (para los análisis de descubrimiento de Cloud Storage) y Usa el perfil de datos para datos no estructurados (para la generación de perfiles de tablas de objetos independientes).

Opciones de programación

Puedes programar un análisis del perfil de datos con una frecuencia definida o ejecutar el análisis a pedido. Si un trabajo de análisis se ejecuta durante más tiempo del esperado, puedes cancelarlo.

Identidad de ejecución

De forma predeterminada, Knowledge Catalog usa un agente de servicio centralizado (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) para ejecutar análisis de perfiles de datos.

También puedes anular esta identidad de ejecución predeterminada especificando una cuenta de servicio personalizada (trae tu propia cuenta de servicio) o usando tus propias credenciales de usuario final (EUC). Esto ofrece varios beneficios:

  • Principio de privilegio mínimo: Otorga solo los permisos exactos de Identity and Access Management (IAM) necesarios para tareas específicas de generación de perfiles de datos a una cuenta de servicio dedicada, lo que minimiza el acceso con exceso de aprovisionamiento.
  • Control de acceso detallado: Permisos de alcance para recursos específicos, lo que permite la integración con políticas de acceso a nivel de la fila y la columna en BigQuery.
  • Auditoría mejorada: Asigna cuentas de servicio personalizadas o credenciales de usuario a análisis específicos, lo que hace que el seguimiento y el registro de actividades sean mucho más claros en los registros de auditoría.
  • Unificación de la facturación: Cuando usas una identidad de ejecución personalizada, los cargos de procesamiento y almacenamiento se centralizan directamente en BigQuery (sin pasar por los SKU de Knowledge Catalog Premium). Esto te permite aprovechar los descuentos empresariales y los compromisos de ranuras de BigQuery.

Para obtener instrucciones sobre cómo configurar una identidad de ejecución personalizada, consulta Configura la identidad de ejecución.

Alcance

En el caso de los análisis de creación de perfiles estándar, puedes especificar el alcance de los datos que se analizarán:

  • Tabla completa: Se analiza toda la tabla en el análisis de perfil de los datos. El muestreo, los filtros de filas y los filtros de columnas se aplican a toda la tabla antes de calcular las estadísticas de generación de perfiles.

  • Incremental: Los datos incrementales que especifiques se analizarán en el análisis del perfil de datos. Especifica una columna Date o Timestamp en la tabla para que se use como incremento. Por lo general, esta es la columna en la que se particiona la tabla. El muestreo, los filtros de filas y los filtros de columnas se aplican a los datos incrementales antes de calcular las estadísticas de perfilamiento.

Filtra datos

En el caso de los análisis de generación de perfiles estándar, puedes filtrar los datos que se analizarán para la generación de perfiles con filtros de filas y columnas. El uso de filtros te ayuda a reducir el tiempo de ejecución y el costo, y a excluir los datos sensibles e innecesarios. Los análisis de generación de perfiles ligeros no admiten filtros de columnas ni de filas.

  • Filtros de filas: Los filtros de filas te permiten enfocarte en los datos de un período específico o de un segmento específico, como una región. Por ejemplo, puedes filtrar los datos con una marca de tiempo anterior a una fecha determinada.

  • Filtros de columnas: Los filtros de columnas te permiten incluir y excluir columnas específicas de tu tabla para ejecutar el análisis del perfil de datos.

Datos de muestra

En el caso de los análisis de perfilado estándar, puedes especificar un porcentaje de registros de tus datos para muestrear y ejecutar un análisis de perfil de datos. Crear análisis de perfil de datos en una muestra más pequeña de datos puede reducir el tiempo de ejecución y el costo de consultar todo el conjunto de datos.

Varios análisis del perfil de datos

Puedes crear varios análisis de perfiles de datos a la vez con la consola de Google Cloud . Puedes seleccionar hasta 100 tablas de un conjunto de datos y crear un análisis del perfil de datos para cada conjunto de datos. Para obtener más información, consulta Crea varios análisis de perfiles de datos.

Exporta los resultados del análisis a una tabla de BigQuery

Puedes exportar los resultados del análisis del perfil de datos a una tabla de BigQuery para analizarlos en detalle. Para personalizar los informes, puedes conectar los datos de la tabla de BigQuery a un panel de Looker. Puedes generar un informe agregado con la misma tabla de resultados en varios análisis.

Resultados de la generación de perfiles de datos

Los resultados de la generación de perfiles de datos incluyen los siguientes valores:

Tipo de columna Resultados de la generación de perfiles de datos
Columna numérica
  • Es el porcentaje de valores nulos.
  • Es el porcentaje de valores únicos (distintos) aproximados.
  • Los 10 valores más comunes en la columna. Puede ser inferior a 10 si la cantidad de valores únicos en la columna es inferior a 10 (no se incluyen los valores nulos). Para cada uno de estos valores más comunes, se muestra el porcentaje de su aparición en los datos analizados en el análisis actual.
  • Valores promedio, desviación estándar, mínimo, cuartil inferior aproximado, mediana aproximada, cuartil superior aproximado y máximo.
Columna de cadena
  • Es el porcentaje de valores nulos.
  • Es el porcentaje de valores únicos (distintos) aproximados.
  • Los 10 valores más comunes en la columna, que pueden ser menos de 10 si la cantidad de valores únicos en la columna es inferior a 10.
  • Longitud promedio, mínima y máxima de la cadena.
Otras columnas no anidadas (fecha, hora, marca de tiempo, binario, etcétera)
  • Es el porcentaje de valores nulos.
  • Es el porcentaje de valores únicos (distintos) aproximados.
  • Los 10 valores más comunes en la columna, que pueden ser menos de 10 si la cantidad de valores únicos en la columna es inferior a 10.
Todas las demás columnas de tipo de datos anidados o complejos (como Record, Array, JSON) o cualquier columna con el modo repeated
  • Es el porcentaje de valores nulos.

Los resultados incluyen la cantidad de registros analizados en cada trabajo.

Generación de informes y supervisión

Puedes supervisar y analizar los resultados de la generación de perfiles de datos con los siguientes informes y métodos:

  • Informes publicados con la tabla de origen en las páginas de BigQuery y Knowledge Catalog

    Si configuras un análisis de perfil de datos para publicar los resultados en BigQuery y Knowledge Catalog, puedes ver los resultados del análisis de perfil de datos más recientes en la pestaña Perfil de datos de la tabla de origen en BigQuery y Knowledge Catalog. Se puede acceder a estos resultados desde cualquier proyecto.

    Informes publicados

  • Informe histórico por trabajo

    En la página Análisis y calidad de los datos > Análisis de perfil de datos de Knowledge Catalog y BigQuery, puedes ver los informes detallados de los trabajos más recientes y los históricos. Esto incluye la información del perfil a nivel de la columna y la configuración que se usó.

    Es un informe histórico por trabajo.

  • Pestaña Análisis

    En la página Perfil y calidad de los datos > Análisis de perfil de datos de Knowledge Catalog y BigQuery, puedes usar la pestaña Análisis para ver las tendencias de una estadística determinada de una columna en varios trabajos de perfil. Por ejemplo, si tienes un análisis incremental, puedes ver cómo ha evolucionado el promedio de un valor con el tiempo.

    Pestaña Análisis

  • Crea tu propio panel o estadísticas

    Si configuraste un análisis de perfil de datos para exportar los resultados a una tabla de BigQuery, puedes crear tus propios paneles con herramientas como Data Studio.

Limitaciones

  • Solo puedes ejecutar análisis de perfiles de datos en tablas de BigQuery y del catálogo de Iceberg REST.
  • La generación de perfiles de datos es compatible con las tablas de BigQuery que tienen todos los tipos de columnas, excepto BIGNUMERIC. Si se crea un análisis para una tabla con una columna BIGNUMERIC, se produce un error de validación y no se crea correctamente.

Precios

Para obtener más información sobre los precios, consulta Precios de Knowledge Catalog.

¿Qué sigue?