Sobre a replicação entre regiões e a recuperação de desastres

A replicação entre regiões e a recuperação de desastres para o catálogo de execução do Lakehouse protegem contra interrupções regionais. Como parte do Lakehouse para Apache Iceberg, esse recurso permite o failover de tabelas que usam o endpoint do catálogo REST do Apache Iceberg.

Ao gerenciar failovers, é possível escolher entre failovers leves para testes planejados ou failovers graves para restaurar o serviço rapidamente.

Como funciona

O catálogo de execução do Lakehouse seleciona automaticamente as regiões principal e secundária para os metadados do catálogo. A região principal processa todos os metadados de confirmação da tabela e os replica na região secundária para backup.

A qualquer momento, especialmente durante um desastre, é possível alternar as regiões principal e secundária do catálogo usando a operação de failover. Essa ação alterna a região principal do catálogo e todos os namespaces e tabelas contidos.

Replicação entre regiões

A replicação entre regiões envolve dois componentes principais: replicação de dados e replicação de metastore. O recurso de recuperação de desastres se baseia na replicação entre regiões para permitir o failover.

  • Replicação de dados: o Cloud Storage replica automaticamente os dados do catálogo em várias regiões quando você usa um bucket birregional ou multirregional. Se ocorrer uma interrupção regional, os dados vão continuar acessíveis sem alterações nos caminhos de armazenamento.

  • Replicação de metastore: para endpoints de catálogo REST do Iceberg, o catálogo de execução do Lakehouse replica automaticamente o metastore quando você usa um bucket birregional (ou birregional personalizado). A replicação de metastore começa quando você cria o catálogo. O catálogo de execução do Lakehouse seleciona uma região principal e uma secundária nas regiões definidas na configuração do Cloud Storage. A região principal veicula todos os metadados de confirmação da tabela e os replica na região secundária para backup.

Recuperação de desastres com failover

O recurso de recuperação de desastres permite alternar as regiões principal e secundária de um catálogo. A operação de failover alterna a região principal do catálogo e todos os namespaces e tabelas. Os failovers têm dois modos: failover leve e failover grave.

  • Failover leve: um failover leve evita a perda de dados. Nesse modo, a nova região principal começa a aceitar gravações somente depois que todos os dados anteriores forem sincronizados da região principal anterior. Use um failover leve para testes de recuperação de desastres ou outros cenários planejados.

  • Failover grave: um failover grave prioriza a disponibilidade em relação à consistência dos dados e foi projetado para restaurar o serviço. Nesse modo, a região principal sempre assume o controle e aceita o tráfego de gravação, independentemente do estado atual da região principal. Por exemplo, ao usar um failover grave, a nova região principal pode assumir o controle mesmo que a anterior esteja inacessível.

Limitações

Enquanto esse recurso estiver na prévia, o REPLICATION_TIMESTAMP vai rastrear apenas os metadados do catálogo, e não os arquivos do Cloud Storage. Para manter a perda de dados com um limite inferior, consulte a documentação Disponibilidade e durabilidade de dados do Cloud Storage.

A seguir