Neste cenário, você recebe um alerta de que dados confidenciais do consumidor (especificamente nome e sobrenome) aparecem em uma visualização visível para toda a organização.
Essas informações são originalmente destinadas apenas a fins funcionais específicos, como criação de contas, faturamento e envio. No entanto, por meio de uma série de transformações e da criação de uma visualização de análise, as informações de identificação pessoal (PII, na sigla em inglês) vazam para um esquema de análise mais amplo.
Neste tutorial, você usa a linhagem de dados para rastrear o fluxo de dados sensíveis até o processo que os move de um local confiável para um não confiável.
Primeiros passos
Para concluir o caso de uso, primeiro configure o ambiente e execute as transformações de dados. Use a página de pré-requisitos e configuração para conectar um repositório remoto ao Dataform. Esse repositório contém o código necessário para configurar o conjunto de dados e transformar os dados.
Depois de configurar o ambiente, use o BigQuery e o Lineage Explorer para identificar onde as PII cruzam um limite de segurança.
Analisar o vazamento de informações pessoais com o Lineage Explorer
Depois de preparar o conjunto de dados, rastreie o vazamento de informações pessoais usando a guia Linhagem do BigQuery.
Neste exemplo, você rastreia a coluna user_email da visualização pública até a origem dela:
- No Google Cloud console, acesse a página BigQuery.
- Use o campo de pesquisa para encontrar a tabela
order_status_stats. - Clique na guia Linhagem.
- No painel Lineage Explorer, faça o seguinte:
- Na seção Linhagem no nível da coluna, selecione o nome da coluna
user_emailna lista. - Na seção Direção, selecione a direção Upstream.
- Clique em Aplicar.
- Na seção Linhagem no nível da coluna, selecione o nome da coluna
- Siga o gráfico uma etapa para trás. O gráfico mostra que o e-mail é extraído da visualização intermediária
status_counts_by_user_v. - Clique no nó do processo entre a visualização e as dependências upstream. O nó do processo mostra que uma operação de mesclagem ocorre entre dados de pedidos anônimos e uma tabela que contém informações de identidade.
A linhagem prova que as informações pessoais passam de uma tabela funcional restrita para um esquema de análise mais amplo, em que usuários não autorizados podem vê-las.
Para mais informações sobre como visualizar dados com o gráfico de linhagem de dados, consulte Visualização do gráfico de linhagem.