Sparked Host LLC - Fallas de conexión saliente – Detalles del incidente

Sistemas funcionando con normalidad

Fallas de conexión saliente

Resuelto
Rendimiento degradado
Iniciado el hace alrededor de 1 mesDuró 5 días

Afectado

Ubicaciones
Miami
Actualizaciones
  • Resuelto
    Resuelto

    Hemos esperado aproximadamente un día completo después de que se estableció la conectividad estable.

    Lo que sigue es un análisis posterior (modificado para su publicación pública) de nuestro proveedor de mitigación de DDoS:

    Surgió un problema que afectaba las conexiones salientes en el rango 216.173.77.0/24. El problema se atribuyó a nuestro algoritmo de protección, que marcó incorrectamente el tráfico TCP SYN-ACK legítimo como un ataque. Inicialmente, exploramos varias causas potenciales, incluidos problemas de enrutamiento, antes de confirmar la fuente del problema dentro del sistema de protección.

    Para mitigar el impacto mientras se investigaba más, se implementaron medidas temporales para los clientes afectados. Estas incluyeron ajustes para permitir el tráfico a través de reglas específicas mientras trabajábamos en una solución más integral. Se implementó una solución rápidamente y se extendió a regiones adicionales después de pruebas exhaustivas.

    Durante el proceso de resolución, surgieron complicaciones secundarias debido a informes superpuestos sobre problemas no relacionados, como problemas de configuración de umbrales y de conectividad. Estos requirieron investigaciones independientes, pero no estaban relacionados con el problema principal.

    Los problemas de comunicación durante todo el proceso ralentizaron los esfuerzos de resolución y solución de problemas. Sin embargo, se identificó y abordó la causa raíz, y el algoritmo responsable del problema se eliminará en una próxima actualización para evitar que se repitan situaciones similares.

    Seguimos comprometidos a mejorar nuestros procesos y nuestra comunicación para garantizar un manejo más eficiente de este tipo de incidentes en el futuro. Agradecemos su comprensión y paciencia mientras trabajamos para resolver este problema de manera rápida y eficaz.

  • Supervisando
    Supervisando

    Hemos aplicado una solución general a nivel mundial. Actualmente estamos esperando una explicación completa de lo que sucedió por parte de nuestro equipo.

  • Actualizar
    Actualizar

    Seguimos solucionando los problemas de conectividad. Han identificado una posible causa y están implementando una solución a nivel mundial para intentar resolver los problemas de conectividad.

    Además, hemos observado que un efecto secundario de este comportamiento es que las velocidades de procesamiento pueden haber disminuido. Nuestras pruebas con varios servidores de speedtest(dot)net confirman esto y eso también se está solucionando.

  • Actualizar
    Actualizar

    Hemos aplicado una solución temporal que permite manualmente las conexiones salientes a través del puerto 32000-65000. Esta fue una sugerencia de nuestro servidor y está mostrando resultados positivos.

    Si continúa teniendo problemas, infórmenos e investigaremos más a fondo con usted individualmente.

  • Identificado
    Identificado

    Hemos identificado tasas elevadas de fallas en el tráfico saliente que identificamos como HTTP y HTTPS, pero que podrían estar afectando aún más a otros protocolos.

    Se ha descartado que nuestra red sea la causa del problema y se ha escalado el problema a nuestro nivel superior para resolverlo lo más rápido posible.

    Al principio pensamos que se trataba de errores de resolución de DNS. Después de una revisión más profunda y de los registros proporcionados por los clientes, se determinó que no era la causa de los errores la que afectaba a las fuentes salientes, como las API de complementos, 1.1.1.1 (DNS de Cloudflare) y otras fuentes.

    Proporcionaremos más información a medida que esté disponible.