[Incident] Service and Dashboard Intermittence

Incident Report for MetaMap

Postmortem

[EN]:

Summary:
Between January 12 and January 13, the platform experienced a major outage followed by degraded performance due to an abnormal spike in legitimate traffic. Automated protection mechanisms throttled critical ingestion services to preserve system stability. Recovery efforts caused temporary delays due to retries and queued requests. No data or security impact occurred.

Timeline:

  • Jan 12, 15:10–23:20 UTC: Major outage caused by automated throttling of core services.
  • Jan 13, 14:05–18:10 UTC: Degraded performance during recovery due to retries and backlog processing.

Root Cause:
A sudden increase in legitimate request volume exceeded platform thresholds and was detected as suspicious. Automated self-protection mechanisms throttled core input-receiving services. Subsequent retries and accumulated queues contributed to temporary degraded performance after initial stabilisation.

Impact:
SDK users encountered blank screens and “Something went wrong” errors.
API requests and asset uploads (including selfies) were intermittently delayed or failed.
Verification completion times increased.

  • Impact was operational only; all requests were legitimate, with no security or data issues.

Actions Taken:

  • Isolated the source of abnormal traffic into separate infrastructure.
  • Increased capacity and actively managed request queues to stabilize the platform.
  • Implemented global rate limits across services to prevent recurrence.

Next Steps:

  • Continue increasing capacity and improving workload isolation.
  • Enhance throttling and back-pressure mechanisms to reduce blast radius during traffic spikes.

[ES]:

Resumen

Entre el 12 y el 13 de enero, la plataforma experimentó una interrupción mayor seguida de un período de desempeño degradado debido a un incremento anormal de tráfico legítimo. Los mecanismos automáticos de protección activaron limitaciones en servicios críticos para preservar la estabilidad del sistema. Durante la recuperación, los reintentos y la acumulación de solicitudes generaron demoras temporales. No hubo impacto en seguridad ni en datos.

Línea de Tiempo

  • 12 de enero, 15:10–23:20 UTC: Interrupción mayor causada por la limitación automática de servicios críticos.
  • 13 de enero, 14:05–18:10 UTC: Desempeño degradado durante la recuperación debido a reintentos y procesamiento de solicitudes acumuladas.

Causa Raíz

Un aumento repentino de tráfico legítimo superó los umbrales definidos de la plataforma y fue identificado como comportamiento sospechoso. Como medida de autoprotección, el sistema aplicó limitaciones a los servicios centrales de recepción de entradas. Posteriormente, los reintentos y las colas acumuladas contribuyeron al desempeño degradado.

Impacto

Usuarios del SDK visualizaron pantallas en blanco y errores de “Algo salió mal”.
Solicitudes vía API y cargas de activos (incluidas selfies) presentaron fallas o demoras intermitentes.
Se incrementó el tiempo de finalización de verificaciones.

  • El impacto fue exclusivamente operativo; todas las solicitudes eran legítimas y no hubo incidentes de seguridad ni pérdida de datos.

Acciones Tomadas

  • Se aisló la fuente del tráfico anormal en infraestructuras separadas.
  • Se incrementó la capacidad y se gestionaron activamente las colas de solicitudes.
  • Se implementaron límites de tasa globales en todos los servicios.

Próximos Pasos

  • Continuar incrementando la capacidad y mejorando el aislamiento de cargas.
  • Fortalecer los mecanismos de limitación y control de presión para reducir impactos futuros.

[PT]:

Resumo

Entre 12 e 13 de janeiro, a plataforma enfrentou uma indisponibilidade maior seguida por um período de degradação de performance devido a um aumento anormal de tráfego legítimo. Mecanismos automáticos de proteção acionaram limitações em serviços críticos para preservar a estabilidade do sistema. Durante a recuperação, tentativas de reenvio e acúmulo de requisições causaram atrasos temporários. Não houve impacto em segurança ou dados.

Linha do Tempo

  • 12 de janeiro, 15:10–23:20 UTC: Indisponibilidade maior causada por limitação automática de serviços críticos.
  • 13 de janeiro, 14:05–18:10 UTC: Performance degradada durante a recuperação devido a reprocessamento e filas acumuladas.

Causa Raiz

Um aumento repentino de tráfego legítimo excedeu os limites definidos da plataforma e foi identificado como comportamento suspeito. Como mecanismo de autoproteção, o sistema aplicou limitações aos serviços centrais de recebimento de entradas. Em seguida, reprocessamentos e filas acumuladas contribuíram para a degradação temporária da performance.

Impacto

Usuários do SDK visualizaram telas em branco e erros de “Algo deu errado”.
Requisições via API e uploads de ativos (incluindo selfies) apresentaram falhas ou atrasos intermitentes.
O tempo para conclusão das verificações aumentou.

  • O impacto foi apenas operacional; todas as requisições eram legítimas e não houve incidentes de segurança nem perda de dados.

Ações Tomadas

  • A fonte do tráfego anormal foi isolada em infraestruturas separadas.
  • A capacidade foi aumentada e as filas de requisições foram gerenciadas ativamente.
  • Foram implementados limites globais de taxa em todos os serviços.

Próximos Passos

  • Continuar aumentando a capacidade e melhorando o isolamento entre ambientes.
  • Evoluir os mecanismos de limitação e controle de carga para evitar impactos generalizados.
Posted Jan 14, 2026 - 15:27 UTC

Resolved

[EN]:
This incident has been resolved, and our system is working as you know it. Thanks for your patience.

[ES]:
Este inconveniente ha sido solucionado, y nuestro sistema está funcionando tal y como lo conoces. Gracias por su paciencia.

[PT]:
Este incidente já foi resolvido, e nosso sistema está funcionando como você o conhece. Obrigado pela paciência.
Posted Jan 13, 2026 - 00:43 UTC

Investigating

[EN]:
Our team very recently recognised a disruption in our system that is preventing both verification creation and dashboard access. Our engineering team is already working on the solution with the highest priority. We will update you here as soon as we receive further information on the situation.

Thank you for your patience and understanding!

[ES]:
Nuestro equipo ha detectado recientemente una interrupción en nuestro sistema que impide tanto la creación de verificaciones como el acceso al dashboard. Nuestro equipo de ingeniería ya está trabajando en la solución con la máxima prioridad. Les mantendremos informados aquí tan pronto como recibamos más información sobre la situación.

¡Gracias por su paciencia y comprensión!

[PT]:
Nossa equipe identificou recentemente uma falha em nosso sistema que está impedindo a criação de verificações e o dashboard. Nossa equipe de engenharia já está trabalhando na solução com a máxima prioridade. Assim que tivermos mais informações sobre a situação, atualizaremos você aqui.

Agradecemos sua paciência e compreensão!
Posted Jan 12, 2026 - 15:48 UTC
This incident affected: API / SDKs and Dashboard.