La historia detrás de la caída de servicio del viernes 6/5/2016

Como todos sabrán, el pasado viernes 6 de mayo, Second Life tuvo problemas de características, por asi decirlo, épicas. No se podía hacer teleport, ni transferir lindens, no cargaban los perfiles, ni funcionaban las búsquedas, ni hablar de cambiar el vestuario y, finalmente, tampoco funcionaba el inicio de sesión a SL.

Este problema duró un buen tiempo, y lo único bueno de ese momento es que al menos los chats funcionaban y los usuarios podíamos mantener contacto con el resto de la gente y compartir la penuria de estar inmovilizados.

Pasada ya la crisis y con la tranquilidad actual, en el día de hoy, en el blog oficial de Second Life, April Linden, integrante del equipo de Operaciones de SL, nos explica lo sucedido en dicha oportunidad:

¡Hola! Soy un miembro del equipo de Operaciones de Second Life. El viernes por la tarde, los principales servicios de Second Life tuvieron un tiempo de inactividad no planificado, y yo quiero tomar unos minutos para explicar lo sucedido.

Poco antes de 16:15 PDT / SLT del pasado viernes (6 de mayo de 2016), el nodo principal de una de las bases de datos centrales que impulsan Second Life se cayó. El nodo de base de datos que se cayó contiene algunos de los datos más básicos de Second Life, y un montón de cosas dejan de funcionar cuando éstos son inaccesibles, como ya lo habrán visto la mayoría de los residentes.

Cuando el nodo primario en esta base de datos queda fuera de línea desactivamos un montón de servicios, para poder recuperar una copia de seguridad de una manera controlada, y luego procedemos a activarlos nuevamente de a uno a la vez.

Mi equipo se puso rápidamente en acción, y hemos sido capaces de promover una de las réplicas de la cadena de nodos para reemplazar el nodo primario que se había caído. Todos los servicios se restauraron completamente y se pusieron en línea en menos de una hora.
Un problema adicional (y totalmente inesperado) que surgió es que durante la primera parte del apagón del servicio, nuestro blog de estado estaba inaccesible. Nuestro equipo de asistencia utiliza nuestro blog de estado para informar a los residentes de lo que está pasando cuando hay problemas, y la cantidad de tráfico que recibe durante un corte de luz es bastante impresionante!

Hace unas semanas movimos nuestro blog de estado a los nuevos servidores. Puede ser muy difícil afinar un sistema para algo así como un blog de estado, porque el tráfico se incrementará, de forma repentina, de su cantidad normal a valores muy superiores. Ahora vemos que tenemos que realizar algunos ajustes adicionales con el blog de estado ahora que está en su nuevo hogar. (No olvides que también puedes seguirnos en Twitter en @SLGridStatus. ¡Es muy útil cuando el blog de estado está inaccesible!)

Como escribió Landon Linden hace un año, estando junto con mi equipo durante un apagón de servicio, es como ver «un ballet en una zona de guerra». Trabajamos duro para restaurar los servicios de Second Life desde el momento en que se caen, y esta interrupción no fue una excepción. ¡Puede ser una locura a veces!

Lo sentimos mucho por el tiempo de inactividad inesperado del fin de la semana pasada. Hay un montón de cosas divertidas que suceden en el mundo virtual en la noche del viernes, y la última cosa que queremos es que los problemas técnicos se interponen en el camino de esa diversión.

Ahora, me gustaría hacer un par de comentarios al respecto. Por un lado, como lo dije en algún artículo previo, aplaudo la decisión de Ebbe Altberg (CEO de Linden Lab) de volver a una política más abierta en la información a los usuarios, esto es algo que quienes estabamos acostumbrados a ello en la época «familiar» de Philip, Torley y otros, extrañabamos muchísimo.

Por otro, luego de terminar de redactar la traducción del post de April, algo me llamaba la atención y busqué entre los artículos ya publicados en este mismo blog y encontré eso que me molestaba.

En ESTE ARTÍCULO, durante la caída de servicio del día 11 de enero de este mismo año (bautizado «el fin de semana negro»), April también, días después, publicó una explicación de lo sucedido en dicho evento y, lo más interesante, es que la parte referente a la caída del nodo central de la base de datos, es exactamente igual que lo explicado en esta nueva ocasión. Quizás, en aquel momento mucho mejor explicado y de forma mas extensa, pero la idea es exactamente la misma.

Y lo que me llama la atención es que, una caída de ese nodo central de la base de datos en enero, otra en Mayo, apenas 4 meses después, y en ambos casos, la solución es restaurar la base de datos desde un backup de una réplica. Algo no me cierra.

Cuando se trabaja en tiempo real (y Second Life es un servicio de tiempo real), lo primero que se tiene en cuenta es la replicación de servicios, software y hardware, asi, cuando uno de estos sistemas se cae, en forma casi automática, se pone en marcha una de las réplicas y no se produce interrupción de servicio (o, si se produce, es mínima).

Quiero creer que, con los niveles de inversión que tiene Linden Lab, esto es asi, por ello me llama la atención eso de «recurrir al backup de una réplica para promoverlo como nodo central». Debe haber alguna explicación técnica que se me escapa, pero,insisto, no me cierra.

Obviamente, también insisto en que es preocupante la recurrencia del problema, 4 meses entre la ocurrencia del mismo problema es algo que llama la atención y que debe ser revisado.

Por otro lado, creo que ha sido una mala movida llevar la página de Estado del Grid al nuevo Blog de Estado o, al menos haberla configurado como se configuró. Y esto es asi porque, ese día, al estar en medio del problema, todo se mezclaba, uno intentaba acceder a la página de Second Life y era redireccionado al blog de estado que, a su vez, daba error. Y asi, todo redireccionaba al blog de estado.

Imagino que esto sucedía porque, al incorporar el Estado de Servicios al blog y sistema general de Second Life, esto fuerza a que el sistema intente verificar si el visitante ha iniciado o no sesión en SL, con el consiguiente problema de acceso al estar caído el sistema de autenticación.

Por ende, disculpen mi desconfianza, pero creo que aquí hubo mucho mas de lo que se dice.

SaludOS/2

Avatares Argentinos

La historia detrás de la caída de servicio del viernes 6/5/2016

Deja una respuesta

Recorriendo el Mundo Virtual