Second Life: Acerca del «fin de semana negro» vivido

El pasado día 11 de este mes, luego que los usuarios de Second Life soportaramos un fin de semana problemático dentro de la plataforma, April Linden publicó en el blog oficial de SL un artículo explicando las causas de dichos problemas. Les dejo a continuación la traducción (como siempre, libre) de dicho artículo:


Hola! Soy un miembro del equipo de operaciones de Second Life, y yo estaba a cargo de la guardia de Sistemas este último fin de semana. Tuvimos un fin de semana muy difícil, así que queríamos tomar unos minutos para compartir lo que pasó.

Tuvimos una serie de fallos que ocurrieron en forma independiente y que produjeron aguas turbulentas en la experiencia de los residentes en el mundo.

Poco después de la medianoche, hora del Pacífico, del 9 de enero (sábado) se produjo la caída de una de las bases de datos central del nodo principal. La base de datos central que se cayó fue una las bases de datos más utilizadas en Second Life. Sin ella los residentes no pueden iniciar sesión, o hacer, bueno, un montón de cosas importantes.

Este tipo de fallo es algo en lo que mi equipo es bueno para manejarlo, pero se necesita tiempo para que podamos promover una réplica en la cadena para llegar, en última instancia, al nuevo nodo maestro. Mientras que estamos haciendo esto bloqueamos los inicios de sesión y cerramos otros de los servicios en el mundo para ayudar a aliviar la presión del nodo maestro recién elevado cuando comienzan a generarse las consultas. (Reabrimos la red lentamente, habilitando los servicios de uno a la vez, para que la la base de datos sea capaz de manejar la situación). El proceso de promoción tomó cerca de una hora y media, y el grid retornó a la normalidad a la 1:30 am.

Después de esta promoción se realizó la red se mantuvo estable el resto de la jornada del sábado, y toda esa noche.

Esto nos lleva a la mañana del domingo.

Alrededor de las 08 AM del Pacífico del 10 de enero (domingo), uno de nuestros proveedores comenzó a experimentar problemas, lo que resultó en muy mal desempeño en la carga de los activos (assets) en el mundo. Rápidamente me puse en contacto telefónico con ellos, mientras rastreaban el origen del problema. Con mi equipo y el equipo remoto trabajando juntos hemos sido capaces de detectar el problema y resolverlo por la tarde. Todos nuestros indicadores se veía bien, y yo y mis colegas fuimos capaces de rezear activos (objetos) en el mundo sin problemas. Fue en este punto que publicamos el primer «All Clear» en el blog, porque parecía que las cosas volvían a la normalidad.

Sin embargo, no tardamos mucho en darnos cuenta de que las cosas estaban a punto de ponerse interesantes nuevamente.

Poco después de que declaramos que todo estaba bien, los residentes se apresuraron a regresar al grid. (el Domingo por la tarde es un momento muy ocupado en el mundo, ¡incluso en circunstancias normales!) El apuro de los residentes por regresar a Second Life (muchos de los cuales ahora tenían sus cachés vacíos que debían ser creados nuevamente) en un momento en que la concurrencia esta en su punto más alto puso a muchos otros subsistemas bajo, varias veces, muy por arriba de su carga normal.

El rezeo de Activos (objetos) no estaba bien, pero teníamos otros temas que investigar. Nos tomó un par de horas después del primer aviso de que todo estaba bien para ser capaces de estabilizar nuestros otros servicios. Como muchos se habrán dado cuenta, el sistema que estaba bajo la carga más alta fue el que hace lo que llamamos «hornear» (Baking) – es lo que crea la textura final de tu avatar – (Nota: Aquí, por la descripción técnica, imagino que habla de los servidores de renderizado de avatar, en su momento conocido como Proyecto Sunshine) por lo tanto tuvimos un gran número de residentes que, o bien aparecian grises, o como nubes. (¡Todavía estaba tratando de ponerse al día (el sistema) de la interrupción de la carga previa de activos!) Para el domingo por la noche fuimos capaces de volver a estabilizar la red, y Second Life regresó realmente a la normalidad.

¡Una de las cosas que me gusta de mi trabajo es que Second Life es un ambiente totalmente único y divertido! (¡La infraestructura de un mundo virtual es increíble para mí!) Esto es bueno y malo. Es bueno porque a menudo es un reto para nosotros llegar a una solución para un problema que es nuevo y único, pero la otra cara de esto es que a veces las cosas se pueden romper de manera inesperada porque estamos haciendo cosas que nadie más hace (NOTA: leáse, Second Life no es un foro, no es un blog, no es una página de internet, es algo completamente distinto y técnicamente infinitamente más complejo).

Lo siento mucho por cómo estuvieron de mal las cosas en el mundo este fin de semana. Mi equipo toma muy en serio la estabilidad del grid, y a nadie le disgusta el tiempo de inactividad más que a nosotros. Cualquiera de estas fallas que ocurren de forma independiente es bastante mala, pero tenerlas en serie como sucedió es bastante miserable.

Nos vemos en el mundo (¡luego que duerma un poco!),

April Linden


No queda mucho para agregar a lo explicado por April, quienes trabajamos en sistemas y lidiamos constantemente con este tipo de problemas (por ejemplo revisar todo paso por paso y la teoría dice que todo funciona normalmente, pero la realidad dice otra cosa) podemos entender perfectamente su sentimiento por estas situaciones. Por ello, van mis respectos a su trabajo y mi agradecimiento por tenernos al día con la información.

SaludOS/2

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.