No aclares que oscurece

El título del artículo es producto del clamor popular de mis únicos dos seguidores que me han pedido escribiera algo al respecto.

Aclarado esto, vamos al tema que nos convoca: en el día de hoy, en el blog oficial de Second Life, Oz Linden publicó una explicación/aclaración respecto de los fallos ocurridos en estos últimos días. Si bien es encomiable el intento, a varios nos ha dejado la sensación de haber dicho mucho para terminar diciendo nada. Esto es, no veo que haya dicho algo que ya no supiéramos o imagináramos. En todo caso, a la hora de exponer los motivos de las causas que motivaron los problemas que hemos tenido los usuarios, no hubo ninguna aclaración importante al respecto, solo vagas referencia a «vimos que era», «lo solucionamos», etc. etc.

En fin, sin más, los dejo con la traducción  del «reporte» efectuado por Oz:



Hemos estado trabajando duro para mejorar Second Life. Si no has estado siguiendo este proyecto (se refiere al Proyecto Uplift), eso es lo que llamamos la migración de nuestros simuladores, servicios y sitios web de Second Life de un centro de datos privado a un alojamiento en la nube (Amazon Web Services). Es un proyecto enorme y complicado que anteriormente comparé con la conversión de un ferrocarril a vapor en un monocarril de levitación magnética, sin detener el tren. Esta empresa a veces ido sobre ruedas, en otras ocasiones ha sido un viaje lleno de baches. Queríamos compartir un poco más de la historia con ustedes.

Nuestro objetivo ha sido mover SL gradualmente para darnos la mejor oportunidad de minimizar, entre los residentes, el efecto de estos cambios que estaban sucediendo. Creemos que lo hemos hecho mejor de lo que esperábamos, pero, por supuesto, son los baches en el camino los que más notan nuestros residentes. Pedimos disculpas por las recientes interrupciones del servicio, aunque lo que quizás no sea evidente es el progreso que hemos logrado y las mejoras en el rendimiento que se han producido silenciosamente.

Primero, los puntos difíciles:

Cruces regionales
Uno de los primeros problemas que encontramos fue que los cruces de regiones eran significativamente peores entre una región en la nube y una región en el centro de datos. Hicimos una inmersión profunda en el código de los objetos (barcos, coches, aviones, etc.) y produjimos una mejora que los hizo significativamente más rápidos y fiables incluso dentro del centro de datos. Esto ya se ha aplicado a todas las regiones y fue un buen paso adelante.

chat grupal
Muchos usuarios han informado que no pueden recibir mensajes en algunos de sus grupos; somos muy conscientes del problema. El inicio de esos problemas coincide con el momento en que el servicio de chat fue migrado. Lamentablemente, los problemas no aparecieron hasta que trasladar de vuelta ese servicio al centro de datos dejó de ser una opción. No hemos podido solucionarlo tan rápido como quisiéramos, pero la buena noticia es que tenemos algunos cambios casi listos que creemos que pueden mejorar el servicio y ciertamente nos brindarán mejor información para diagnosticarlo si no es así. Esos cambios están activos en el grid Beta ahora y deberían pasar al grid principal muy pronto.

Fallos de bake
El miércoles, y especialmente el jueves, de la semana pasada fueron días malos para la apariencia del avatar, y somos muy conscientes de lo importante que es eso. En realidad, el servicio de bake de avatar se ha mejorado durante algún tiempo; no fue moverlo lo que causó el problema, sino otro cambio en un servicio relacionado. La buena noticia es que gracias a un gran esfuerzo de todos los equipos durante esos dos días pudimos determinar por qué una actualización del simulador aparentemente no relacionada desencadenó el problema y se implementó una solución el jueves por la noche.

Aumento de fallas de teletransporte
Hemos visto un ligero aumento en la frecuencia de fallas de teletransportación. Sé que si te ha sucedido a ti probablemente no lo sientas como un problema «leve», especialmente porque parece ser cierto que si le ha sucedido a alguien una vez, tiende a seguir sucediendo por un tiempo. Medido en todo el grid, es un poco menos de dos puntos porcentuales, pero incluso eso es inaceptable. Estamos menos seguros de las causas específicas de esto (incluido si está relacionado con Uplift o no), pero estamos mejorando nuestra capacidad para recopilar datos y estamos muy enfocados en encontrar y solucionar el problema sea cual sea.

Fallos de Marketplace y estipendios
Hemos tenido algunos desafíos relacionados con la mejora tanto para Marketplace como para el servicio que paga los estipendios premium. Marketplace tuvo que ser devuelto al centro de datos ayer, pero corregiremos los problemas que requerían la reversión y lo haremos pronto. Los problemas de los estipendios fueron buenos y malos para los usuarios; hubo algunos retrasos, pero por otro lado enviamos a algunos usuarios estipendios adicionales (nuestra culpa, usted gana, no hay devolución de tu parte); creemos que esos problemas están resueltos ahora.

Quizás lo anterior haga que parezca que el Proyecto Uplift está en problemas. Si bien esta semana en particular ha visto algunos baches en el camino, en realidad va bien en general. Gran parte de la infraestructura con la que no interactúa directamente, y parte de la que lo hace, se ha mejorado y ha funcionado sin problemas.

Durante algunas semanas, casi todas las regiones del grid Beta se han estado ejecutando en la nube, y durante las últimas dos semanas hemos mejorado alrededor de cien regiones en la cuadrícula principal. El desempeño de esas regiones ha sido muy bueno y la estabilidad ha sido excelente. Esperamos mejorar más regiones en los próximos días hábiles (si posees una región que te gustaría incluir, envía un ticket de soporte y lo haremos realidad). Pronto comenzará la mejora de las regiones candidatas a la versión, que elevarán el recuento a miles. Cuando estemos seguros de que las regiones mejoradas están funcionando bien a esa escala mayor, estaremos en condiciones de reanudar las ventas de la región, por lo que si ha estado esperando, la espera casi ha terminado.

En general, el proyecto Uplift está en camino de estar completo o casi para fines de este año (sí, 2020… sé que he dicho «otoño» antes y la gente ha notado que no dije en qué año 🙂; las hojas aún no han terminado de caer en mi casa…). Es probable que haya otras interrupciones temporales (con suerte pequeñas) durante este proceso, pero prometemos que haremos todo lo posible para evitarlas y solucionarlas lo más rápido posible. Esta migración prepara el escenario para algunas mejoras significativas en Second Life y nos posiciona para poder hacer crecer el mundo en el futuro.



Bien, analizado en un contexto global, si, son buenas noticias mas que nada. Es natural que todo proceso de migración, especialmente cuando se hace directamente sobre producción (directamente sobre la plataforma y sin detenerla) conlleve infinidad de problemas, fallos y dolores de cabeza, tanto para los usuarios como para los desarrolladores.

Pero, estas aclaraciones, al ser tan vagas, terminan dejando en quienes estamos en el tema la sensación de que quienes están llevando a cabo este trabajo pueden estar un poco perdidos con el mismo y están jugando al «prueba y error» y «si acertamos, genial, sino, a seguir probando».

La mejor prueba de esto es la aclaración del punto respecto del servicio de bake. Primero dijeron una cosa, luego, cuando lo usuarios plantearon sus dudas al respecto, terminan cambiando el discurso para reconocer que hay algo que tocaron y no lo hicieron del todo bien, pero sin decir que, ni como, ni donde.

El otro punto, sobre los fallos en el chat de grupos, Oz dice que comienza con la migración del servicio a la nube, pero este problema ya afectaba a determinados grupos desde hace mas de un año (y fue reportado oportunamente). Entonces, nos queda por pensar en dos opciones: 1) Este servicio de los primeros en ser migrados a la nube, pero.. ¿hace mas de un año?. 2) el problema no es la migración a la nube, sino que simplemente, esta migración expuso un problema que ya existía con anterioridad.

Entiendo que LL tiene el derecho de no decir lo que no quieren decir, es lo normal cuando se intenta proteger el prestigio y la inversión de una empresa pero, no estoy tan seguro que el explicar cosas sin explicarlas sea el camino. Si buscan un acercamiento y participación de la comunidad de usuarios, entonces, el camino es decir todo. Por el contrario, si solo piensan en el usuario como cliente, no hay explicaciones que dar.

SaludOS/2

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.