Rastrear a linhagem de dados com o Catálogo de Conhecimento

Esta página explica como rastrear a linhagem de dados da sua instância do Looker (Google Cloud Core) usando o Knowledge Catalog.

A linhagem de dados é o processo de rastreamento do fluxo de dados nos seus sistemas. Ao integrar o Looker (Google Cloud Core) ao Knowledge Catalog, é possível visualizar a jornada completa dos dados, desde a origem no BigQuery até o consumo downstream em dashboards e Looks, passando pela camada semântica do Looker (visualizações e análises do LookML).

Essa visibilidade ajuda os engenheiros e administradores de dados a realizar a análise de impacto. Por exemplo, antes de descartar uma coluna em uma tabela do BigQuery, é possível verificar o gráfico de linhagem para saber exatamente quais dashboards do Looker seriam afetados pela mudança.

Antes de começar

Para usar a linhagem de dados com o Looker (Google Cloud Core), é necessário atender aos seguintes pré-requisitos:

  1. Looker (Google Cloud Core): a linhagem de dados é compatível com todos os tipos de edição de instâncias do Looker (Google Cloud Core). As instâncias do Looker (original) não são integradas ao Knowledge Catalog.
  2. Permissões necessárias:para visualizar gráficos de linhagem, você precisa dos seguintes papéis do IAM:
    • Leitor de esquema do Looker (roles/looker.schemaViewer) no projeto que hospeda a instância do Looker (Google Cloud Core)
    • Leitor do Dataplex (roles/dataplex.viewer) ou permissões equivalentes para visualizar recursos do Knowledge Catalog
    • Leitor da linhagem de dados (roles/datalineage.viewer) para ler dados de linhagem

Ativar a linhagem de dados

Para ativar a linhagem de dados, conclua cada uma das etapas a seguir:

  1. Ative a integração do Knowledge Catalog para o Looker (Google Cloud Core) : a integração entre a instância do Looker (Google Cloud Core) e o Knowledge Catalog é ativada por padrão no Google Cloud console. Se a integração tiver sido desativada, será necessário ativá-la novamente. Consulte Ativar a integração para instruções.
  2. Ative o recurso de visualização da linhagem do Knowledge Catalog no Looker: O recurso de visualização Linhagem do Knowledge Catalog está desativado por padrão na página Recursos de visualização do painel Admin na instância do Looker (Google Cloud Core).
  3. Ative a API Data Lineage:é necessário ativar a API Data Lineage (datalineage.googleapis.com) em qualquer Google Cloud projeto que hospede a instância do Looker (Google Cloud Core) e os dados do BigQuery.

    Ativar API Data Lineage

  4. Ative a ingestão de linhagem no nível do serviço:Ensure se a integração de linhagem e do Looker (Google Cloud Core) no nível do serviço está ativada. A linhagem no nível do serviço segue os seguintes estados padrão:
    • Para evitar implicações de preços futuras, a ingestão de linhagem no nível do serviço do Looker (Google Cloud Core) é desativada por padrão para projetos que, na data de lançamento da visualização desse recurso, tinham a API Data Lineage ativada e hospedavam pelo menos uma instância do Looker (Google Cloud Core).
    • A ingestão de linhagem no nível do serviço é ativada por padrão para instâncias do Looker (Google Cloud Core) criadas após a data de lançamento da visualização desse recurso em projetos com a API Data Lineage ativada.

Para conferir a configuração de linhagem de um Google Cloud projeto, consulte a documentação Receber a configuração atual. Se a integração com o Looker (Google Cloud Core) estiver desativada, o comando vai retornar uma saída semelhante a esta:

    {
    "name": "projects/123456789012/locations/global/config",
    "ingestion": {
      "rules": [
        {
          "integrationSelector": {
            "integration": "LOOKER_CORE"
          },
          "lineageEnablement": {
            "enabled": false
          }
        }
      ]
    },
    "etag": "Wb35wDxTTLd6Z+QAL+Yd4g=="
  }

O ID do projeto na resposta vai refletir o ID na sua solicitação. O campo etag é um checksum gerado pelo servidor e baseado no valor atual da configuração.

Visualizar a linhagem de dados

Depois que a integração for ativada e a sincronização inicial for concluída (o que pode levar até 24 horas), será possível visualizar a linhagem no console do Knowledge Catalog.

  1. No Google Cloud console, acesse a página Knowledge Catalog.

    Acessar o Knowledge Catalog

  2. Clique em Pesquisar no painel de navegação à esquerda.
  3. Pesquise uma tabela do BigQuery ou um recurso do Looker (Google Cloud Core), como um dashboard ou uma análise.
    • É possível usar o painel Filtros para filtrar por Sistema > Looker.
  4. Clique no nome do recurso para abrir a página de detalhes.
  5. Clique na guia Linhagem.

O gráfico de linhagem mostra o recurso como um nó central, com fontes upstream à esquerda e consumidores downstream à direita.

Interpretar o gráfico de linhagem

O gráfico de linhagem consiste em nós e links:

  • Nós:representam recursos de dados. Os recursos compatíveis do Looker (Google Cloud Core) incluem o seguinte:
    • Dashboard do Looker
    • Elemento do dashboard do Looker (bloco)
    • Look do Looker
    • Análise do LookML
    • Visualização do LookML
  • Links:representam o fluxo de dados. Por exemplo, um link de uma tabela do BigQuery para uma visualização do LookML indica que a visualização seleciona dados dessa tabela.

Identificar proprietários de recursos

Para descobrir quem é o proprietário de um recurso downstream que pode ser afetado por uma mudança, siga estas etapas:

  1. No gráfico de linhagem, clique no nó do recurso (por exemplo, um dashboard do Looker).
  2. Um painel de informações é aberto no lado direito da tela.
  3. Procure a seção Aspectos para encontrar o Proprietário (endereço de e-mail).

Filtrar a lista de linhagem

Na visualização de Lista da linhagem, é possível filtrar entidades por nome ou valor da propriedade. Por exemplo, modelos complexos do LookML podem gerar gráficos de linhagem grandes com muitas entidades intermediárias. Para se concentrar no impacto comercial, é possível filtrar por tipo de entidade seguindo estas etapas:

  1. Na guia Linhagem, alterne para a visualização de Lista.
  2. Localize as opções de Filtro na barra de ferramentas.
  3. No filtro Entidade , insira Dashboard do Looker e Look do Looker para filtrar tipos intermediários, como Visualização do LookML e Análise do Looker.

A lista de entidades é atualizada para mostrar apenas os tipos de recursos selecionados, facilitando a identificação do conteúdo voltado para o usuário.

Limitações

A integração de linhagem do Looker (Google Cloud Core) tem as seguintes limitações durante a versão de visualização:

  • Fontes de dados:na visualização, a linhagem é compatível apenas com fontes de dados do BigQuery.
  • Granularidade:a linhagem é fornecida no nível do objeto (tabela, visualização, análise, dashboard). A linhagem no nível da coluna está indisponível.
  • Latência:os dados de linhagem não são em tempo real. O processo de sincronização normalmente leva quatro horas. No entanto, a sincronização pode levar até oito horas, dependendo do momento das exportações de metadados do Looker e do consumo de dados de linhagem. As mudanças feitas no Looker ou no BigQuery podem levar algum tempo para aparecer no gráfico de linhagem.
  • SQL complexo:o LookML definido com SQL personalizado complexo (por exemplo, modelos do Liquid, tabelas derivadas com junções complexas) pode não ser totalmente analisado, o que pode resultar em nós desconectados.

Preços

Durante a versão de visualização, não há cobrança pelos recursos de linhagem de dados usados com essa integração.

Quando a linhagem de dados estiver disponível para o público em geral, haverá cobrança. Para evitar implicações de preços futuras, a ingestão de linhagem do Looker (Google Cloud Core) é desativada por padrão para projetos que, na data de lançamento da visualização desse recurso, tinham a API Data Lineage ativada e hospedavam pelo menos uma instância do Looker (Google Cloud Core).

Para mais informações, consulte a página de preços do Knowledge Catalog.

A seguir