Analisar causas de vazamento de informações de identificação pessoal (PII)

Neste cenário, você recebe um alerta de que dados confidenciais do consumidor (especificamente nome e sobrenome) aparecem em uma visualização visível para toda a organização.

Essas informações são originalmente destinadas apenas a fins funcionais específicos, como criação de contas, faturamento e envio. No entanto, por meio de uma série de transformações e da criação de uma visualização de análise, as informações de identificação pessoal (PII, na sigla em inglês) vazam para um esquema de análise mais amplo.

Neste tutorial, você usa a linhagem de dados para rastrear o fluxo de dados sensíveis até o processo que os move de um local confiável para um não confiável.

Primeiros passos

Para concluir o caso de uso, primeiro configure o ambiente e execute as transformações de dados. Use a página de pré-requisitos e configuração para conectar um repositório remoto ao Dataform. Esse repositório contém o código necessário para configurar o conjunto de dados e transformar os dados.

Depois de configurar o ambiente, use o BigQuery e o Lineage Explorer para identificar onde as PII cruzam um limite de segurança.

Analisar o vazamento de informações pessoais com o Lineage Explorer

Depois de preparar o conjunto de dados, rastreie o vazamento de informações pessoais usando a guia Linhagem do BigQuery.

Neste exemplo, você rastreia a coluna user_email da visualização pública até a origem dela:

  1. No Google Cloud console, acesse a página BigQuery.
  2. Use o campo de pesquisa para encontrar a tabela order_status_stats.
  3. Clique na guia Linhagem.
  4. No painel Lineage Explorer, faça o seguinte:
    1. Na seção Linhagem no nível da coluna, selecione o nome da coluna user_email na lista.
    2. Na seção Direção, selecione a direção Upstream.
    3. Clique em Aplicar.
  5. Siga o gráfico uma etapa para trás. O gráfico mostra que o e-mail é extraído da visualização intermediária status_counts_by_user_v.
  6. Clique no nó do processo entre a visualização e as dependências upstream. O nó do processo mostra que uma operação de mesclagem ocorre entre dados de pedidos anônimos e uma tabela que contém informações de identidade.

A linhagem prova que as informações pessoais passam de uma tabela funcional restrita para um esquema de análise mais amplo, em que usuários não autorizados podem vê-las.

Para mais informações sobre como visualizar dados com o gráfico de linhagem de dados, consulte Visualização do gráfico de linhagem.