jueves, 13 de octubre de 2011

RIM explica por qué se cayó


Estamos a punto de entrar en el cuarto día en el que los usuarios de BlackBerry están sin servicio, una odisea que comenzó el lunes a las 11:30 de la mañana y que significó un corte de 12 horas en el servicio que dejaron patente el hecho de que, quizás, cursar todo el tráfico de los terminales (correo, web, mensajería instantánea, etc) a través de la infraestructura de RIM era algo demasiado arriesgado. Los problemas continuaron el martes cuando el servicio se volvió a caer en la zona EMEA y se ha propagado hasta América, Asia y Oceanía, de hecho, durante el tercer día, ha afectado a Estados Unidos.
Esta caída del servicio, básicamente, transforma un smartphone BlackBerry en un terminal que, únicamente, sirve para realizar llamadas telefónicas y enviar y recibir mensajes SMS, lo cual limita bastante el rango de acción y, teniendo en cuenta lo hondo que ha calado en empresas y organismos gubernamentales, ha desconectado del mundo a muchos profesionales. ¿Y cómo ha podido fallar un sistema al que se tenía en tan alta estima? Según la explicación oficial de RIM, que ya avanzó en unas declaraciones y, posteriormente, ha confirmado en una call-conference, se produjo un fallo en su centro de Reino Unido y, dado que el servicio funciona en alta disponibilidad, el tráfico debió redirigirse a los otros dos centros de datos que la compañía posee (en Estados Unidos y Canadá), sin embargo, uno de los conmutadores (switches) del núcleo de su red falló y no realizó tal función, por lo que los usuarios de EMEA se quedaron sin servicio.
Hasta aquí se explica lo que ocurrió el lunes, sin embargo, el asunto se complica poco después cuando RIM intenta solventar el problema y se encuentra que todo el tráfico acumulado es de tal magnitud que, al desviarlo a sus otros dos centros de datos, éstos quedan saturados y la congestión se extendió a todos los usuarios del servicio.
Los retrasos en la navegación y mensajería que han experimentado los usaurios de BlackBerry en Europa, Oriente Medio, África, India, Brasil, Chile y Argentina han sido provocados por un fallo en un switch del núcleo de la infraestructura de RIM. Aunque el diseño del sistema estaba preparado ante fallos, el failover no funcionó tal y como se esperaba. Como resultado, una gran cola de datos se generó y estamos trabajando para restaurar el servicio lo antes posible
RIM ha declarado que descarta que el problema se deba a un ataque o un fallo de seguridad, afirma no haber encontrado indicios de ello. Tras el fallo y la redirección del tráfico, RIM se ha encontrado un volumen de datos tan grande que los dos tercios de su infraestructura que aún quedaban en pie no han sido capaces de manejar y han terminado por venirse abajo.
Es algo que está por resolver. Claramente tenemos una cola de trabajo en Europa basándonos en el apagón inicial y el tiempo que hemos necesitado para estabilizarlo. En estos momentos no hemos llegado a otras regiones, pero como te puedes imaginar, con el alcance global de BlackBerry, y la gente que está en contacto con otras personas alrededor del mundo, hay un montón de mensajes llegando desde Europa a Asia y América, y todos esos mensajes se guardarán en nuestro sistema. Parece que con el tiempo se fue creando una cola de trabajo cada vez mayor, y comenzó a impactar en los otros sistemas.
Para la tranquilidad de los usuarios, sobre todo de los clientes corporativos, RIM asegura que ninguno de los mensajes que están por entregar se ha perdido, simplemente, están en esa cola inmanejable que están intentando sacar; eso sí, aún no dan fecha para la solución del problema. Por ahora, los usuarios están sin poder recibir correos en sus terminales (ni tan siquiera con la aplicación de Gmail), ni tampoco pueden utilizar servicios como Twitter, Foursquare, BlackBerry Messenger o WhatsApp; si bien de vez en cuando se recibe algún lote de mensajes (con mucho retraso) pero, tras la entrega, el servicio vuelve a estar indisponible.
Independientemente de que los mensajes no se pierdan y llegue el día en el que éstos sean entregados, esta crisis de RIM (además de costarle cara en imagen) pone en relieve un asunto muy delicado: la infraestructura de RIM está muy por debajo de la necesaria para la demanda actual del servicio. Un sistema en alta disponibilidad, como el de BlackBerry, debería haber sido capaz de funcionar con dos tercios de la infraestructura, aunque fuese con una latencia algo mayor, sin embargo, tal ha sido la acumulación de datos a procesar que, al final, se ha alcanzado el punto de saturación.
¿Y qué hará RIM a partir de ahora? La cola de mensajes es su mayor problema porque no es algo que puedan borrar tan alegremente, reiniciar los servidores y empezar desde cero. Entre esas comunicaciones hay de todo (mensajes personales, correos electrónicos profesionales, multas de tráfico, etc) y si se llegasen a perder sería el fin de un servicio en el que, precisamente, se confía por su seguridad e integridad en las comunicaciones.
¿Tienen derecho los usuarios a reclamar? Pues son muchas las voces que dicen que sí por mucho que las operadoras intenten hacer creer a los clientes que la culpa de es RIM y no suya. Muchas operadoras están enviando mensajes a sus usuarios informando que el problema es de un tercero, algo que es cierto pero, en el fondo, ellos son revendedores de un servicio que facturan.
Por ahora, RIM no se atreve a dar fecha para la solución del problema y únicamente comentan que trabajan en solucionar el problema y que los usuarios deben estar tranquilos porque no perderán mensajes. De todas formas, creo que no es descabellado pensar que todo esto, al final, va a terminar pasando factura a la compañía y a su equipo directivo.

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.