[EN]
RCA – Document Reading and Input Process Service Disruption
Timeline
Customer Impact
Root Cause
The incident was caused by a network partition between internal cloud environments, which disrupted communication required for document-reading and input processing services. Following restoration, recovery traffic exceeded normal operating levels, leading to memory exhaustion on parts of the infrastructure and extending the degradation period.
Resolution & Preventive Actions
[ES]
RCA – Interrupción del Servicio de Lectura de Documentos y Procesamiento de Inputs
Timeline
Una partición de red interrumpió la conectividad entre nuestras APIs principales, impidiendo que las operaciones de procesamiento de inputs y lectura de documentos fueran procesadas correctamente.
Después de restablecer la conectividad, el backlog acumulado y el tráfico de reintentos provocaron un aumento repentino de carga. Los inputs estaban siendo procesados correctamente, pero las verificaciones se completaban sin el paso de lectura de documentos, ralentizando la recuperación y generando un desempeño degradado hasta que los servicios se estabilizaron.
Impacto para Clientes
Causa Raíz
El incidente fue causado por una partición de red entre entornos internos de nube, lo que interrumpió la comunicación requerida para los servicios de lectura de documentos y procesamiento de inputs.
Tras la restauración, el tráfico de recuperación superó los niveles normales de operación, provocando agotamiento de memoria en parte de la infraestructura y extendiendo el período de degradación.
Resolución y Acciones Preventivas
[PT]
RCA – Interrupção do serviço de leitura de documentos e processamento de inputs
Timeline
Uma falha na rede interrompeu a conectividade entre nossas principais APIs, impedindo que as operações de processamento de inputs e leitura de documentos fossem executadas corretamente.
Após restabelecer a conectividade, o acúmulo de tarefas pendentes e o tráfego de novas tentativas provocaram um aumento repentino na carga. Os inputs estavam sendo processados corretamente, mas as verificações eram concluídas sem a etapa de leitura de documentos, retardando a recuperação e gerando um desempenho degradado até que os serviços se estabilizassem.
Impacto para os clientes
Causa Raiz
O incidente foi causado por uma divisão de rede entre ambientes internos de nuvem, o que interrompeu a comunicação necessária para os serviços de leitura de documentos e processamento de inputs.
Após a restauração, o tráfego de recuperação excedeu os níveis normais de operação, causando esgotamento de memória em parte da infraestrutura e prolongando o período de degradação.
Resolução e ações preventivas