[Incident] - Verifications are not being completed as expected
Incident Report for MetaMap
Postmortem

[EN]: Post-Mortem: System Issue on July 15th

Incident Summary

  • Incident Occurred: July 15th, 10:27 (GMT-6)
  • Duration: 1 hour and 12 minutes
  • Incident Recurrence: July 15th, 12:57 (GMT-6)
  • Duration: 2 hours and 30 minutes

Impact

  • Completed verifications were not appearing in the dashboard and finished as expired.
  • The SDK was stuck on the loading screen, preventing users from progressing with their verifications.

Root Cause

  • The issue was caused by a downtime from our provider responsible for the alteration detection step. The error received from the integration with them led to disruptions affecting our uptime.

Resolution

  • After the provider's downtime was resolved, the system began functioning correctly, and the impact was mitigated.

Continuous Improvement

  • We are in the process of integrating Incode's alteration detection model as an internal solution. This integration will provide us with control over its availability and ensure it is seamlessly integrated into our architecture.
  • The integration with Incode's model is expected to be completed by mid-August.
  • In the meantime, we are closely monitoring the system and making architectural adjustments to mitigate similar issues in the future. Our goal is to allow users to complete their verifications without affecting the conversion rate, even if similar incidents occur.

Conclusion
We are committed to improving our system's resilience and reliability. The ongoing integration with Incode's alteration detection model and the architectural adjustments will ensure that we minimize the impact of similar issues in the future and provide a seamless experience for our users.

[ES]: Post-Mortem: Problema del Sistema del 15 de Julio

Resumen del Incidente

  • Incidente Ocurrido: 15 de julio, 10:27 (GMT-6)
  • Duración: 1 hora y 12 minutos
  • Recurrencia del Incidente: 15 de julio, 12:57 (GMT-6)
  • Duración: 2 horas y 30 minutos

Impacto

  • Las verificaciones completadas no aparecían en el panel de control y se finalizaban como expiradas.
  • El SDK se quedaba atascado en la pantalla de carga, impidiendo a los usuarios progresar con sus verificaciones.

Causa Raíz

  • El problema fue causado por una interrupción en el proveedor responsable del paso de detección de alteraciones. El error recibido de la integración con ellos provocó interrupciones que afectaron nuestro tiempo de actividad.

Resolución

  • Una vez que se resolvió la interrupción del proveedor, el sistema comenzó a funcionar correctamente y el impacto fue mitigado.

Mejora Continua

  • Estamos en proceso de integrar el modelo de detección de alteraciones de Incode como una solución interna. Esta integración nos proporcionará control sobre su disponibilidad y garantizará que esté integrada sin problemas en nuestra arquitectura.
  • Se espera que la integración con el modelo de Incode esté completada para mediados de agosto.
  • Mientras tanto, estamos monitoreando el sistema de cerca y realizando ajustes arquitectónicos para mitigar problemas similares en el futuro. Nuestro objetivo es permitir que los usuarios completen sus verificaciones sin afectar la tasa de conversión, incluso si ocurren incidentes similares.

Conclusión

  • Estamos comprometidos a mejorar la resiliencia y confiabilidad de nuestro sistema. La integración continua con el modelo de detección de alteraciones de Incode y los ajustes arquitectónicos garantizarán que minimicemos el impacto de problemas similares en el futuro y proporcionemos una experiencia fluida para nuestros usuarios.

[PT]: Post-Mortem: Problema no Sistema em 15 de Julho

Resumo do Incidente

  • Incidente Ocorreu: 15 de julho, 10:27 (GMT-6)
  • Duração: 1 hora e 12 minutos
  • Recorrência do Incidente: 15 de julho, 12:57 (GMT-6)
  • Duração: 2 horas e 30 minutos

Impacto

  • As verificações concluídas não apareciam no painel de controle e eram finalizadas como expiradas.
  • O SDK ficava preso na tela de carregamento, impedindo os usuários de prosseguir com suas verificações.

Causa Raiz

  • O problema foi causado por uma interrupção do nosso provedor responsável pela etapa de detecção de alterações. O erro recebido da integração com eles levou a interrupções que afetaram nosso tempo de atividade.

Resolução

  • Depois que a interrupção do provedor foi resolvida, o sistema começou a funcionar corretamente e o impacto foi mitigado.

Melhoria Contínua

  • Estamos em processo de integrar o modelo de detecção de alterações da Incode como uma solução interna. Esta integração nos dará controle sobre sua disponibilidade e garantirá que esteja integrada perfeitamente à nossa arquitetura.
  • Espera-se que a integração com o modelo da Incode seja concluída até meados de agosto.
  • Enquanto isso, estamos monitorando o sistema de perto e fazendo ajustes arquitetônicos para mitigar problemas semelhantes no futuro. Nosso objetivo é permitir que os usuários concluam suas verificações sem afetar a taxa de conversão, mesmo que ocorram incidentes semelhantes.

Conclusão

  • Estamos comprometidos em melhorar a resiliência e a confiabilidade do nosso sistema. A integração contínua com o modelo de detecção de alterações da Incode e os ajustes arquitetônicos garantirão que minimizemos o impacto de problemas semelhantes no futuro e proporcionemos uma experiência tranquila para nossos usuários.
Posted Jul 18, 2024 - 01:38 UTC

Resolved
[EN]
After a period of monitoring, we can assure that the system is back to its normal operation.

[ES]
Después de un periodo de monitoreo, podemos garantizar de que el sistema volvió a su estado normal.

[PT]
Após um tempo de monitoramento, podemos garantir que o sistema está de volta ao seu estado normal.
Posted Jul 16, 2024 - 00:11 UTC
Monitoring
[EN]:
Our internal team fixed the incident, and all the verifications seem to be processed as expected now.
We will continue to monitor the case for the next hour.

Again, we appreciate your patience while we were resolving the case.


[ES]:
Nuestro equipo interno pudo solucionar el incidente y todas las verificaciones parecen procesarse como se esperaba ahora.
Continuaremos monitoreando el caso durante la próxima hora.

Nuevamente, agradecemos su paciencia durante la resolución del caso.


[PT]:
Nossa equipe interna conseguiu resolver o incidente e todas as verificações parecem estar sendo processadas conforme o esperado.
Continuaremos monitorando o caso pela próxima hora.

Mais uma vez, agradecemos sua paciência durante a resolução do caso.
Posted Jul 15, 2024 - 18:06 UTC
Investigating
[EN]:
Our internal team has noticed an incident and is already working on it since we have noticed that some verifications are not being completed as expected.

As soon as we have news, we will return to you to update you on the matter.
We regret the impact of this issue and rest assured that our team is already working to solve the issue ASAP.



[ES]:
Nuestro equipo interno ha notado una incidencia y ya esta trabajando en ello ya que hemos notado que algunas verificaciones no estan siendo finalizadas tal cual es esperado.

Tan pronto tengamos novedades, regresaremos con ustedes para actualizarlos al respecto.
​Lamentamos la afectación de este issue y tengan la seguridad que nuestro equipo ya esta trabajando para resolver el incidente ASAP


[PT]:
Nossa equipe interna percebeu um incidente e já está trabalhando nele, pois percebemos que algumas verificações não estão sendo concluídas conforme o esperado.

Assim que tivermos novidades, retornaremos para atualizá-los sobre o assunto.
Lamentamos o impacto deste problema e temos certeza de que nossa equipe já está trabalhando para resolver o incidente o mais rápido possível.
Posted Jul 15, 2024 - 17:11 UTC
This incident affected: API / SDKs.