La replicación entre regiones y la recuperación ante desastres para el catálogo de tiempo de ejecución de Lakehouse protegen contra las interrupciones regionales. Como parte de Lakehouse para Apache Iceberg, esta capacidad permite la conmutación por error para las tablas que usan el extremo del catálogo de REST de Apache Iceberg.
Cuando administres las conmutaciones por error, puedes elegir entre conmutaciones por error leves para pruebas planificadas o conmutaciones por error graves para restablecer el servicio rápidamente.
Cómo funciona
El catálogo de tiempo de ejecución de Lakehouse selecciona automáticamente las regiones principal y secundaria para los metadatos del catálogo. La región principal procesa todos los metadatos de confirmación de la tabla y, luego, los replica en la región secundaria para la copia de seguridad.
En cualquier momento, en especial durante un desastre, puedes cambiar las regiones principal y secundaria del catálogo con la operación de conmutación por error. Esta acción cambia la región principal del catálogo y todos los espacios de nombres y las tablas que contiene.
Replicación entre regiones
La replicación entre regiones incluye dos componentes principales: la replicación de datos y la replicación de metastore. La función de recuperación ante desastres se basa en la replicación entre regiones para habilitar la conmutación por error.
Replicación de datos: Cloud Storage replica automáticamente los datos de tu catálogo en varias regiones cuando usas un bucket birregional o multirregional. Si se produce una interrupción regional, tus datos seguirán accesibles sin cambios en las rutas de almacenamiento.
Replicación de metastore: Para los extremos del catálogo de REST de Iceberg, el catálogo de tiempo de ejecución de Lakehouse replica automáticamente tu metastore cuando usas un bucket birregional (o birregional personalizado). La replicación de metastore comienza cuando creas el catálogo. El catálogo de tiempo de ejecución de Lakehouse selecciona una región principal y una secundaria de las regiones definidas en tu configuración de Cloud Storage. La región principal entrega todos los metadatos de confirmación de la tabla y los replica en la región secundaria para la copia de seguridad.
Recuperación ante desastres con conmutación por error
La función de recuperación ante desastres te permite cambiar las regiones principal y secundaria de un catálogo. La operación de conmutación por error cambia la región principal del catálogo y todos sus espacios de nombres y tablas. Las conmutaciones por error tienen dos modos: conmutación por error leve y conmutación por error grave.
Conmutación por error leve: Una conmutación por error leve evita la pérdida de datos. En este modo, la nueva región principal comienza a aceptar escrituras solo después de que se sincronicen todos los datos anteriores de la región principal anterior. Usa una conmutación por error leve para las pruebas de recuperación ante desastres o cualquier otra situación planificada.
Conmutación por error grave: Una conmutación por error grave prioriza la disponibilidad por sobre la coherencia de los datos y está diseñada para restablecer el servicio. En este modo, la región principal siempre toma el control y acepta el tráfico de escritura, independientemente del estado actual de la región principal. Por ejemplo, cuando se usa una conmutación por error grave, la nueva región principal puede tomar el control incluso si no se puede acceder a la región principal anterior.
Limitaciones
Mientras esta función esté en versión preliminar, el REPLICATION_TIMESTAMP solo hará un seguimiento de los metadatos del catálogo, en lugar de los archivos de Cloud Storage. Para mantener la pérdida de datos con un límite inferior, consulta la documentación Disponibilidad y durabilidad de los datos de Cloud Storage.
¿Qué sigue?
- Usa la replicación entre regiones y la recuperación ante desastres con el extremo del catálogo de tiempo de ejecución de Lakehouse.