Visão geral dos insights de dados

É possível usar os insights de dados para explorar dados desconhecidos com descrições geradas por IA, gráficos de relacionamento e consultas SQL. Esse recurso do Gemini no BigQuery analisa seus metadados para ajudar você a entender as estruturas e o conteúdo dos dados rapidamente. Com esses insights, você pode começar a análise sem uma configuração manual extensa.

Antes de começar

Os insights de dados são gerados usando o Gemini no BigQuery. Para começar a gerar insights, primeiro você precisa configurar o Gemini no BigQuery.

Tipos de insights de dados

É possível gerar insights de dados no nível da tabela ou do conjunto de dados:

  • Para tabelas:o Gemini gera perguntas em linguagem natural e os equivalentes em SQL para ajudar você a entender os dados em uma única tabela. Com os insights de tabelas, é possível detectar padrões de dados, anomalias, outliers ou problemas de qualidade em uma tabela. O Gemini também gera descrições de tabelas e colunas.

  • Para conjuntos de dados: (prévia) o Gemini gera um gráfico de relacionamento interativo que mostra relações entre tabelas e consultas SQL entre tabelas para ajudar você a entender como as tabelas estão relacionadas em um conjunto de dados. Com os gráficos de relacionamento, é possível descobrir como os dados são derivados, o que pode ajudar com problemas de qualidade, consistência ou redundância. Com as consultas entre tabelas, é possível encontrar relações mais amplas. Por exemplo, é possível calcular a receita por segmento de clientes aproveitando os dados em uma tabela de vendas e uma tabela de clientes.

Para investigar mais a fundo, faça perguntas complementares em tela de dados.

Insights da tabela

Os insights de tabelas ajudam você a entender o conteúdo, a qualidade e os padrões em uma única tabela do BigQuery. Por exemplo, ao gerar consultas que realizam análises estatísticas, é possível usar insights de tabelas para detectar padrões de dados, anomalias e outliers. Os insights de tabelas também podem ajudar você a detectar problemas de qualidade, especialmente quando as verificações de perfil de dados estão disponíveis para uma tabela. Ao gerar insights para uma tabela, o Gemini fornece a descrição da tabela, as descrições das colunas e a saída da verificação de perfil com base nos metadados da tabela. As seguintes opções estão disponíveis:

  • Gerar consultas:sugere perguntas em linguagem natural e fornece as consultas SQL correspondentes para respondê-las. Isso ajuda você a descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas sem escrever SQL do zero.
  • Gerar descrições:gera descrições para a tabela e as colunas. O Gemini usa a saída da verificação de perfil (se disponível) para fundamentar as descrições geradas. É possível revisar, editar e publicar essas descrições no Knowledge Catalog para melhorar a capacidade de descoberta e a documentação dos dados.

Insights do conjunto de dados

Os insights do conjunto de dados ajudam você a entender as relações e os caminhos de junção em várias tabelas em um conjunto de dados do BigQuery, o que oferece uma visão geral do conteúdo do conjunto de dados. Ao gerar insights para um conjunto de dados, o Gemini fornece o seguinte:

  • Descrição do conjunto de dados:fornece um resumo gerado por IA do conjunto de dados.
  • Relações:mostra um mapa visual e interativo que mostra as relações entre as tabelas no conjunto de dados. É possível passar o cursor sobre as conexões para conferir detalhes do relacionamento, como chaves de junção.
  • Tabela de relações:apresenta uma visualização tabular das relações entre tabelas, incluindo chaves externas e junções inferidas. As relações podem ser definidas pelo esquema (de restrições de chave primária e chave externa), com base no uso (de registros de consulta) ou o Gemini as infere com base nos nomes e descrições de tabelas e colunas.
  • Recomendações de consulta:oferece consultas SQL de exemplo que demonstram como unir dados em diferentes tabelas, com base nas relações identificadas.

Exemplo de insights de dados de tabela

Considere uma tabela chamada telco_churn com colunas como CustomerID, Tenure, InternetService, Contract, MonthlyCharges e Churn. A tabela a seguir descreve os metadados da tabela.

Nome do campo Tipo
CustomerID STRING
Gender STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contract STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT64
Churn BOOL

Os insights de dados geram as seguintes consultas de exemplo para essa tabela:

  • Identifique os clientes que assinaram todos os serviços premium e são clientes há mais de 50 meses.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifique qual serviço de Internet tem mais clientes desistentes.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      customers DESC
    LIMIT 1;
    

Exemplo de insights de dados do conjunto de dados

Considere um conjunto de dados que contém tabelas order_items e inventory_items. Os insights do conjunto de dados podem inferir que order_items.inventory_item_id está relacionado a inventory_items.id.

Com base nessas relações, o Gemini pode gerar a seguinte consulta entre tabelas:

Identifique as cinco principais categorias de produtos com o maior preço médio de venda e o custo médio correspondente.

SELECT
  ii.product_category,
  AVG(oi.sale_price) AS avg_sale_price,
  AVG(ii.cost) AS avg_cost
FROM
  `ecommerce_data.order_items` AS oi
JOIN
  `ecommerce_data.inventory_items` AS ii
ON oi.inventory_item_id = ii.id
GROUP BY
  ii.product_category
ORDER BY
  avg_sale_price DESC
LIMIT 5;

Fluxos de trabalho de insights de dados

Esta seção descreve os principais fluxos de trabalho que diferentes papéis de usuário podem realizar usando o recurso de insights de dados no BigQuery.

Workflows para consumidores de dados

Esses fluxos de trabalho se concentram em tarefas para analistas de dados, analistas de negócios e outros usuários que precisam encontrar, entender e analisar dados.

  • Entender uma tabela do BigQuery:entenda rapidamente o esquema, o conteúdo e os usos potenciais de uma tabela específica. É possível realizar as seguintes tarefas depois de selecionar uma tabela no BigQuery Studio:

    • Revise as descrições de tabelas e colunas geradas automaticamente.

    • Examine as perguntas sugeridas em linguagem natural e as consultas SQL equivalentes para entender as nuances dos dados.

    • Adapte e execute as consultas sugeridas para iniciar a análise.

    Para mais informações sobre como gerar e visualizar insights de tabelas, consulte Gerar insights de tabelas.

  • Explorar um conjunto de dados inteiro:descubra as relações entre as tabelas em um conjunto de dados e entenda a estrutura geral dele. É possível realizar as seguintes tarefas depois de selecionar um conjunto de dados no BigQuery Studio:

    • Gere e visualize insights do conjunto de dados.

    • Use o gráfico de relacionamento interativo para visualizar as conexões de tabelas.

    • Analise a tabela de relações para chaves de junção e tipos de conexão (definidos pelo esquema, com base no uso, inferidos pelo LLM).

    • Use consultas SQL sugeridas entre tabelas para consultar várias tabelas de maneira eficaz.

    Para mais informações sobre como gerar e visualizar insights do conjunto de dados, consulte Gerar insights do conjunto de dados.

Workflows para produtores de dados

Esses fluxos de trabalho são para engenheiros de dados, engenheiros de análise e outras pessoas que criam e gerenciam ativos de dados.

  • Gerar documentação de dados de referência:crie e mantenha automaticamente descrições de metadados essenciais. É possível realizar as seguintes tarefas:

    • Após a criação ou modificação da tabela, acione os insights de dados para gerar descrições de tabelas e colunas. Também é possível gerar essas descrições em escala usando a API de geração de metadados automatizada do Knowledge Catalog.

    • Revise e refine o texto gerado por IA para garantir a precisão técnica e a relevância comercial.

    Para mais informações sobre como gerar descrições de tabelas e colunas, consulte Gerar insights de tabelas.

  • Melhorar a compreensão do conjunto de dados para os usuários: facilite o entendimento e o uso dos conjuntos de dados fornecidos pelos consumidores. É possível realizar as seguintes tarefas:

    • Gere insights de conjuntos de dados importantes, especialmente aqueles com relações complexas.

    • Garanta que as verificações de perfil de dados sejam executadas em tabelas para fornecer um contexto avançado para insights mais precisos e úteis.

    Para mais informações, consulte Gerar insights do conjunto de dados e Insights fundamentais para os resultados da criação de perfil de dados.

Workflows para administradores de dados

Esses fluxos de trabalho oferecem suporte a administradores de dados e equipes de governança na manutenção da integridade e da confiança dos dados.

  • Validar e auditar metadados gerados por IA:garanta a precisão e a confiabilidade dos metadados produzidos por insights de dados. É possível realizar as seguintes tarefas:

    • Revise rotineiramente as descrições e relações geradas pelo recurso de insights.

    • Compare as relações inferidas no gráfico de relacionamento com modelos de dados e lógica de negócios estabelecidos.

    • Revise e corrija imprecisões nos metadados gerados por IA.

    Para mais informações, consulte Gerar insights de tabelas e Gerar insights do conjunto de dados.

Preços

Para saber mais sobre os preços desse recurso, consulte Visão geral dos preços do Gemini no BigQuery.

Cotas e limites

Para informações sobre cotas e limites desse recurso, consulte Cotas do Gemini no BigQuery.

Limitações

Os insights de dados têm as seguintes limitações:

  • Os insights de dados estão disponíveis para visualizações e tabelas do BigQuery, do BigLake e externas.

  • Para clientes multicloud, os dados de outras nuvens não estão disponíveis.

  • Os insights de dados não são compatíveis com os tipos de coluna GEO ou JSON.

  • A execução de insights não garante a apresentação de consultas todas as vezes. Para aumentar a probabilidade de gerar consultas mais engajadoras, reinicie o pipeline de insights.

  • Para tabelas com controle de acesso no nível da coluna e permissões de usuário restritas, será possível gerar insights se você tiver acesso de leitura a todas as colunas da tabela. Para executar as consultas geradas, você precisa ter permissões suficientes .

  • O Gemini gera descrições de colunas para um máximo de 350 colunas em uma tabela.

  • Para insights de conjuntos de dados, não é possível editar relações no gráfico de relacionamento.

  • A geração de novos insights de conjuntos de dados substitui os insights anteriores desse conjunto de dados.

  • Os insights de conjuntos de dados não são compatíveis com conjuntos de dados vinculados.

Locais

É possível usar insights de dados em todos os locais do BigQuery. Para saber onde o Gemini no BigQuery processa seus dados, consulte Onde o Gemini no BigQuery processa seus dados.

A seguir