[Incident] - Sending inputs presents a lagged performance
Incident Report for MetaMap
Postmortem

[EN]: Post-Mortem: System Issue on July 15th

Incident Summary

  • Incident Occurred: July 15th, 10:27 (GMT-6)
  • Duration: 1 hour and 12 minutes
  • Incident Recurrence: July 15th, 12:57 (GMT-6)
  • Duration: 2 hours and 30 minutes

Impact

  • Completed verifications were not appearing in the dashboard and finished as expired.
  • The SDK was stuck on the loading screen, preventing users from progressing with their verifications.

Root Cause

  • The issue was caused by a downtime from our provider responsible for the alteration detection step. The error received from the integration with them led to disruptions affecting our uptime.

Resolution

  • After the provider's downtime was resolved, the system began functioning correctly, and the impact was mitigated.

Continuous Improvement

  • We are in the process of integrating Incode's alteration detection model as an internal solution. This integration will provide us with control over its availability and ensure it is seamlessly integrated into our architecture.
  • The integration with Incode's model is expected to be completed by mid-August.
  • In the meantime, we are closely monitoring the system and making architectural adjustments to mitigate similar issues in the future. Our goal is to allow users to complete their verifications without affecting the conversion rate, even if similar incidents occur.

Conclusion
We are committed to improving our system's resilience and reliability. The ongoing integration with Incode's alteration detection model and the architectural adjustments will ensure that we minimize the impact of similar issues in the future and provide a seamless experience for our users.

[ES]: Post-Mortem: Problema del Sistema del 15 de Julio

Resumen del Incidente

  • Incidente Ocurrido: 15 de julio, 10:27 (GMT-6)
  • Duración: 1 hora y 12 minutos
  • Recurrencia del Incidente: 15 de julio, 12:57 (GMT-6)
  • Duración: 2 horas y 30 minutos

Impacto

  • Las verificaciones completadas no aparecían en el panel de control y se finalizaban como expiradas.
  • El SDK se quedaba atascado en la pantalla de carga, impidiendo a los usuarios progresar con sus verificaciones.

Causa Raíz

  • El problema fue causado por una interrupción en el proveedor responsable del paso de detección de alteraciones. El error recibido de la integración con ellos provocó interrupciones que afectaron nuestro tiempo de actividad.

Resolución

  • Una vez que se resolvió la interrupción del proveedor, el sistema comenzó a funcionar correctamente y el impacto fue mitigado.

Mejora Continua

  • Estamos en proceso de integrar el modelo de detección de alteraciones de Incode como una solución interna. Esta integración nos proporcionará control sobre su disponibilidad y garantizará que esté integrada sin problemas en nuestra arquitectura.
  • Se espera que la integración con el modelo de Incode esté completada para mediados de agosto.
  • Mientras tanto, estamos monitoreando el sistema de cerca y realizando ajustes arquitectónicos para mitigar problemas similares en el futuro. Nuestro objetivo es permitir que los usuarios completen sus verificaciones sin afectar la tasa de conversión, incluso si ocurren incidentes similares.

Conclusión

  • Estamos comprometidos a mejorar la resiliencia y confiabilidad de nuestro sistema. La integración continua con el modelo de detección de alteraciones de Incode y los ajustes arquitectónicos garantizarán que minimicemos el impacto de problemas similares en el futuro y proporcionemos una experiencia fluida para nuestros usuarios.

[PT]: Post-Mortem: Problema no Sistema em 15 de Julho

Resumo do Incidente

  • Incidente Ocorreu: 15 de julho, 10:27 (GMT-6)
  • Duração: 1 hora e 12 minutos
  • Recorrência do Incidente: 15 de julho, 12:57 (GMT-6)
  • Duração: 2 horas e 30 minutos

Impacto

  • As verificações concluídas não apareciam no painel de controle e eram finalizadas como expiradas.
  • O SDK ficava preso na tela de carregamento, impedindo os usuários de prosseguir com suas verificações.

Causa Raiz

  • O problema foi causado por uma interrupção do nosso provedor responsável pela etapa de detecção de alterações. O erro recebido da integração com eles levou a interrupções que afetaram nosso tempo de atividade.

Resolução

  • Depois que a interrupção do provedor foi resolvida, o sistema começou a funcionar corretamente e o impacto foi mitigado.

Melhoria Contínua

  • Estamos em processo de integrar o modelo de detecção de alterações da Incode como uma solução interna. Esta integração nos dará controle sobre sua disponibilidade e garantirá que esteja integrada perfeitamente à nossa arquitetura.
  • Espera-se que a integração com o modelo da Incode seja concluída até meados de agosto.
  • Enquanto isso, estamos monitorando o sistema de perto e fazendo ajustes arquitetônicos para mitigar problemas semelhantes no futuro. Nosso objetivo é permitir que os usuários concluam suas verificações sem afetar a taxa de conversão, mesmo que ocorram incidentes semelhantes.

Conclusão

  • Estamos comprometidos em melhorar a resiliência e a confiabilidade do nosso sistema. A integração contínua com o modelo de detecção de alterações da Incode e os ajustes arquitetônicos garantirão que minimizemos o impacto de problemas semelhantes no futuro e proporcionemos uma experiência tranquila para nossos usuários.
Posted Jul 18, 2024 - 01:34 UTC

Resolved
[EN]
After a period of monitoring, we can assure that the system is back to its normal operation.

[ES]
Después de un periodo de monitoreo, podemos garantizar de que el sistema volvió a su estado normal.

[PT]
Após um tempo de monitoramento, podemos garantir que o sistema está de volta ao seu estado normal.
Posted Jul 16, 2024 - 00:11 UTC
Monitoring
[EN]
The situation is starting to stabilize in the system, but we will continue to monitor the platform closely to guarantee that in the next hours the overall process remains that way.

[ES]
La situación empezó a estabilizarse, sin embargo, seguiremos atentos para asegurarnos de que en las próximas horas el proceso general se mantiene como hasta ahora.

[PT]
A situação está começando a estabilizar-se, porém continuaremos monitorando a plataforma de perto para garantir que nas próximas horas, o processo geral permaneça assim.
Posted Jul 15, 2024 - 22:20 UTC
Investigating
[EN]:

Our internal team has noticed an incident related to sending inputs and creating verifications.
Generating long waiting times for these steps.

We are already working on it.
As soon as we have news, we will return to you to update you on the matter.
Our most sincere apologies regarding the impact of this incident and rest assured that our team is already working to solve the issue ASAP.


[ES]:

Nuestro equipo interno ha notado un incidente relacionado con el envío de entradas y creación de verificaciones.
Generando largos tiempos de espera para estos pasos.

Ya estamos trabajando en ello.
Tan pronto como tengamos noticias, nos comunicaremos con usted para informarle sobre el asunto.
Nuestras más sinceras disculpas por el impacto de este incidente y tenga la seguridad de que nuestro equipo ya está trabajando para resolver el problema lo antes posible.


[PT]:

Nossa equipe interna percebeu um incidente relacionado ao envio de inputs e criar verificações
Gerando longos tempos de espera para estas etapas.

Já estamos trabalhando nisso.
Assim que tivermos novidades, retornaremos para atualizá-los sobre o assunto.
Nossas mais sinceras desculpas pelo impacto deste incidente e garantimos que nossa equipe já está trabalhando para resolver o problema o mais rápido possível.
Posted Jul 15, 2024 - 19:10 UTC
This incident affected: API / SDKs.