Second Life: Acerca de la desconexión durante el mantenimiento de la red

Esta semana Linden Lab había programado un mantenimiento integral en la red de Second Life, esto, según lo explicado por April Linden en el blog oficial de SL, implicaba la actualización de routers para mejorar la conectividad de la plataforma y prepararla para la futura migración total a la nube.

Es bien sabido por todos que el primer día de este mantenimiento fue un tanto caótico y, a poco de comenzado el mismo, el grid desconectó a los usuarios en línea y, posteriormente, LL procedió a bloquear los inicios de sesión para trabajar en el problema no previsto. Todo esto implicó no poder acceder a Second Life durante unas horas (unas 4 hs, poco mas, poco menos). Algo que no sucedía desde la época de los famosos mantenimientos de los miércoles.

Como ya es costumbre desde la asunción de Ebbe como CEO de la empresa, April Linden, en el referido blog, ha explicado los motivos de este «apagón», los cuales transcribo (traducido) a continuación:


Hola residentes!

Esta semana tuvimos uno de los períodos más largos de inactividad en los últimos tiempos (¡aproximadamente cuatro horas!), Y quiero explicar lo que sucedió.

Esta semana estábamos haciendo un mantenimiento muy necesario en la red que conecta a Second Life. Los routers centrales que conectan nuestro centro de datos a Internet se acercaban al final de su vida útil y debían actualizarse para que nuestra migración a la nube fuera más sólida.

Reemplazar los routers centrales en un sistema de producción que está en uso muy activo es realmente algo difícil de hacer. Estábamos decididos a hacerlo correctamente, por lo que pasamos más de un mes planificando todo lo que íbamos a hacer y en qué orden, incluidos los planes completos de reversión en cada paso. Incluso contratamos a un consultor de redes muy experimentado para trabajar con nosotros para asegurarnos de que tuviéramos un plan realmente sólido, todo con el objetivo de interrumpir Second Life lo menos posible y mejorarlo.

Este lunes pasado fue el gran día. Algunos de nuestros ingenieros (incluido nuestro consultor de redes) y yo (la administradora del equipo) llegamos al centro de datos, listos para el trabajo. Íbamos a ser los ojos, los oídos y las manos en el sitio para un grupo diferente de ingenieros que trabajaron de forma remota para seguir cuidadosamente el plan que habíamos establecido. Mi trabajo consistía en comunicar lo que estaba sucediendo a cada paso del camino a mis compañeros Lindens en el laboratorio (NT: asi es como se refieren a la empresa de manera familiar) , y también a los residentes a través del blog de estado. Hice esto para permitir que el equipo de ingeniería se pudiera centrar en la tarea en cuestión.

Todo empezó genial. Instalamos el primer router central nuevo en su lugar y gestionando tráfico sin ningún impacto en la red. Cuando empezamos a trabajar en el segundo router central, sin embargo, todo salió mal.

Como parte del proceso de cambiar el tráfico al segundo router, uno de nuestros ingenieros trasladó un cable a su nuevo destino. Sabíamos que tendrían unos segundos de impacto, y lo esperábamos, pero rápidamente quedó claro que algo en alguna parte no funcionaba bien. Hubo un momento de puro horror en el centro de datos cuando nos dimos cuenta de que todo el tráfico que salía de Second Life había dejado de fluir, y no sabíamos por qué.

Después de que la conmoción había desaparecido, rápidamente decidimos retroceder el paso que había fallado, pero era demasiado tarde. Todos los que habían iniciado sesión en Second Life en ese momento habían sido desconectados de una vez. La concurrencia a través de la red cayó casi instantáneamente a cero. Decidimos inhabilitar los inicios de sesión en toda la red y restaurar la conectividad de la red a Second Life lo más rápido posible.

En este punto tuvimos una reunión rápida con los diferentes interesados ​​y acordamos que, dado que ya teniamos el servicio caído, lo correcto era seguir adelante y averiguar qué sucedió para evitar que volviera a suceder. Contactamos con otras personas para comunicarnos con los residentes a través del blog de estado, las redes sociales y los foros, y mantuve la comunicación interna dentro del laboratorio mientras los ingenieros solucionaban el problema.

Es por esto que los inicios de sesión fueron deshabilitados por varias horas. Estábamos decididos a descubrir qué había sucedido y solucionar el problema, porque no queríamos que volviera a suceder. Hemos diseñado nuestra red de manera que cualquier pieza pueda fallar sin ninguna pérdida de conectividad, por lo que tuvimos que profundizar en esta falla para comprender exactamente lo que sucedió.

Después de casi cuatro horas muy intensas de depuración, el equipo descubrió lo que salió mal, lo resolvió y terminó la migración al nuevo equipo de red. Reabrimos los inicios de sesión, monitoreamos la red cuando los residentes regresaron y nos fuimos a casa en medio de la noche completamente destruidos.

Hemos pasado el resto de esta semana trabajando con el fabricante de nuestro equipo de red para corregir el problema y realizando muchas pruebas. Hemos podido replicar las condiciones que llevaron a la interrupción de la red, y probamos nuestro equipo para asegurarnos de que no vuelva a suceder. (¡Incluso estaban perplejos al principio! Era un problema muy difícil). Desde mediados de la semana hemos podido realizar un conjunto completo de pruebas que incluyen desconectar y apagar deliberadamente un router sin afectar a la red. .

Second Life es un sistema distribuido realmente complejo, y nunca deja de sorprenderme. Esta semana ciertamente no fue la excepción.

También quiero responder una pregunta que se ha hecho varias veces en los foros y otros lugares esta semana. Esa pregunta es «¿por qué LL no nos dijo exactamente cuándo iba a ocurrir este mantenimiento?»

Como he tenido que bloguear varias veces en el pasado, la triste realidad es que hay personas que usan esa información con mala intención. Por ejemplo, generalmente somos muy buenos en el manejo de ataques DDoS, pero requiere que nuestra capacidad esté a pleno para hacerlo. Un ataque DDoS al mismo tiempo que nuestro mantenimiento de red estuviera en progreso habría hecho que el tiempo de inactividad fuera mucho más largo de lo que ya era.

Siempre queremos lo mejor para Second Life. Nos encanta SL, también. Tenemos que tomar decisiones cuidadosas, incluso si a veces es vago. Desearía que este no fuera el caso, pero lamentablemente, lo es y mucho.

Lamentamos mucho el tiempo de inactividad de esta semana. Hicimos todo lo posible para intentar evitarlo y, sin embargo, sucedió. Me siento muy mal por eso.

La semana fue bastante horrible, pero tiene un gran lado positivo. Second Life ya está funcionando con nuevos routers centrales que son mucho más poderosos que cualquier otro que hayamos tenido antes, y hemos tenido la oportunidad de realizar muchas pruebas de fallos. Ha sido una semana difícil, pero el grid está en mejor forma como resultado.

Gracias por su paciencia mientras nos recuperamos de este evento inesperado. Ha sido muy alentador ver el apoyo que algunas personas nos han brindado desde el apagón. Gracias, realmente ha ayudado a animar a muchos de nosotros.


Bien, creo que hay poco que agregar a esto, como ya he dicho en varias oportunidades, es bueno y agradable que, luego de algún incidente importante en la plataforma, la empresa nos informe sobre lo sucedido, algo que se había perdido pero, como dije al principio, se ha recuperado gracias a Ebbe Altberg.

SaludOS/2

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.