[Incident] Platform Service Degradation

Incident Report for MetaMap

Postmortem

[EN]
RCA – Document Reading and Input Process Service Disruption

Timeline

  • 22:00 – 23:30 UTC | Outage A network partition interrupted connectivity between our main APIs preventing input processing and document-reading operations from being processed successfully.
  • 23:30 – 00:30 UTC | Degradation After connectivity was restored, the accumulated backlog and retry traffic caused a sudden load spike. Inputs were being processed correctly but verifications were being completed without the document-reading step, slowing recovery and resulting in degraded performance until services stabilized.

Customer Impact

  • Document-reading requests failed or experienced elevated response times during the incident window.
  • Some users may have needed to retry verification attempts.
  • No data loss or security impact occurred.

Root Cause
The incident was caused by a network partition between internal cloud environments, which disrupted communication required for document-reading and input processing services. Following restoration, recovery traffic exceeded normal operating levels, leading to memory exhaustion on parts of the infrastructure and extending the degradation period.

Resolution & Preventive Actions

  • Restored network connectivity between affected environments.
  • Stabilized services and increased infrastructure capacity.
  • Reviewing network resiliency and monitoring improvements.
  • Enhancing scaling behavior and recovery handling for post-outage traffic spikes.

[ES]
RCA – Interrupción del Servicio de Lectura de Documentos y Procesamiento de Inputs

Timeline

  • 22:00 – 23:30 UTC | Interrupción

Una partición de red interrumpió la conectividad entre nuestras APIs principales, impidiendo que las operaciones de procesamiento de inputs y lectura de documentos fueran procesadas correctamente.

  • 23:30 – 00:30 UTC | Degradación

Después de restablecer la conectividad, el backlog acumulado y el tráfico de reintentos provocaron un aumento repentino de carga. Los inputs estaban siendo procesados correctamente, pero las verificaciones se completaban sin el paso de lectura de documentos, ralentizando la recuperación y generando un desempeño degradado hasta que los servicios se estabilizaron.

Impacto para Clientes

  • Las solicitudes de lectura de documentos fallaron o experimentaron tiempos de respuesta elevados durante la ventana del incidente.
  • Algunos usuarios pudieron haber necesitado reintentar sus verificaciones.
  • No ocurrió pérdida de datos ni impacto de seguridad.

Causa Raíz
El incidente fue causado por una partición de red entre entornos internos de nube, lo que interrumpió la comunicación requerida para los servicios de lectura de documentos y procesamiento de inputs.

Tras la restauración, el tráfico de recuperación superó los niveles normales de operación, provocando agotamiento de memoria en parte de la infraestructura y extendiendo el período de degradación.

Resolución y Acciones Preventivas

  • Se restableció la conectividad de red entre los entornos afectados.
  • Se estabilizaron los servicios y se incrementó la capacidad de infraestructura.
  • Se están revisando mejoras de resiliencia de red y monitoreo.
  • Se están fortaleciendo los mecanismos de escalamiento y recuperación ante picos de tráfico posteriores a incidentes.

[PT]
RCA – Interrupção do serviço de leitura de documentos e processamento de inputs

Timeline

  • 22:00 – 23:30 UTC | Interrupção

Uma falha na rede interrompeu a conectividade entre nossas principais APIs, impedindo que as operações de processamento de inputs e leitura de documentos fossem executadas corretamente.

  • 23:30 – 00:30 UTC | Degradação

Após restabelecer a conectividade, o acúmulo de tarefas pendentes e o tráfego de novas tentativas provocaram um aumento repentino na carga. Os inputs estavam sendo processados corretamente, mas as verificações eram concluídas sem a etapa de leitura de documentos, retardando a recuperação e gerando um desempenho degradado até que os serviços se estabilizassem.

Impacto para os clientes

  • As solicitações de leitura de documentos falharam ou apresentaram tempos de resposta elevados durante o período do incidente.
  • Alguns usuários podem ter precisado repetir suas verificações.
  • Não houve perda de dados nem impacto na segurança.

Causa Raiz
O incidente foi causado por uma divisão de rede entre ambientes internos de nuvem, o que interrompeu a comunicação necessária para os serviços de leitura de documentos e processamento de inputs.

Após a restauração, o tráfego de recuperação excedeu os níveis normais de operação, causando esgotamento de memória em parte da infraestrutura e prolongando o período de degradação.

Resolução e ações preventivas

  • A conectividade de rede entre os ambientes afetados foi restabelecida.
  • Os serviços foram estabilizados e a capacidade da infraestrutura foi aumentada.
  • Melhorias na resiliência da rede e no monitoramento estão sendo analisadas.
  • Os mecanismos de escalonamento e recuperação diante de picos de tráfego pós-incidentes estão sendo reforçados.
Posted May 07, 2026 - 16:15 UTC

Resolved

This incident has been resolved.
Posted May 07, 2026 - 00:30 UTC

Monitoring

[EN]:
The engineering team has released a fix successfully, new verifications are being completed within the expected timeframe. We are monitoring the results to make sure that the inconsistency was fully resolved and we are working on fixing the verifications that remained affected before the released solution.

[ES]:
El equipo de ingeniería ha lanzado una corrección con éxito y las verificaciones nuevas se están completando dentro del tiempo esperado. Estamos supervisando los resultados para asegurarnos de que la inconsistencia se ha resuelto por completo y estamos trabajando para corregir las verificaciones que seguían viéndose afectadas antes de la solución lanzada.

[PT]:
A equipe de engenharia lançou uma correção com sucesso, e novas verificações estão sendo concluídas dentro do prazo previsto. Estamos monitorando os resultados para garantir que a inconsistência tenha sido totalmente resolvida e trabalhando para corrigir as verificações que continuavam afetadas antes da solução lançada.
Posted May 06, 2026 - 23:30 UTC

Investigating

[EN]
We are currently experiencing a temporary issue on our platform that may affect some verifications. Our engineering team is actively working on a resolution and we will keep you informed as soon as we have any updates.

[ES]
Actualmente estamos experimentando un inconveniente temporal en nuestra plataforma que puede afectar a algunas verificaciones. Nuestro equipo de ingeniería ya se encuentra trabajando en una solución y los mantendremos informados tan pronto como tengamos novedades.

[PT]
Atualmente, estamos a enfrentar um inconveniente temporário na nossa plataforma que pode afetar algumas verificações. A nossa equipa de engenharia já está a trabalhar numa solução e iremos mantê-lo informado assim que tivermos novidades.
Posted May 06, 2026 - 22:00 UTC
This incident affected: API / SDKs.