Santiago, 02 de abril de 2018 – Al parecer en Chile no aprendemos de los errores: Seguimos dejando el pago de patente para el último día, no dejamos de construir en quebradas a pesar de múltiples aluviones, no limpiamos las canaletas antes de la primera lluvia importante y así una larga lista de no aprendizajes, que entre ellos, está el no hacer las pruebas necesarias para verificar que todo funcione correctamente y en el momento que corresponde.

A diferencia de mercados como el de Estados Unidos, en donde las empresas deben informar de incidentes, convirtiéndose en pública la información sobre: caídas, robos cibernéticos, etc. en Chile las empresas no están obligadas a hacer pública este tipo información y sólo gracias a una normativa reciente de ciberseguridad, deben informar a la Superintendencia de Bancos e Instituciones Financieras (SBIF) las instituciones que son supervisadas por esta superintendencia, pero aun así y -consultados por trendTIC cuando se lanzó esta normativa- la SBIF no tendría la obligación de hacer público los antecedentes entregados.

Por lo anterior, saber las verdaderas razones que originaron un incidente como el ocurrido el pasado 26 de marzo, en donde instituciones como el Banco Santander, Transbank y otras, fueron afectadas por el corte de servicios, se hace muy complejo, en especial si las empresas implicadas no entregan información que ayude a aclarar lo sucedido.

Una muestra de lo anterior, se puede ver en la nota publicada en el diario el Pulso el pasado 28 de marzo titulada: “Santander normaliza servicio y BC apunta a mayor competencia entre operadores de tarjetas”. En donde su última estrofa destaca: Con todo, aunque hay quienes aseguran que el data center que se cayó fue el de Claro, desde la empresa señalaron: “Nosotros respetamos los acuerdos de confidencialidad con nuestros clientes y, además, por razones de seguridad de nuestros servicios no podemos entregar públicamente información”.

Sin embargo, según fuentes consultadas por trendTIC, tanto en los clientes afectados como en la misma empresa de telecomunicaciones, dieron luces de por qué un corte de luz en el sector de Lampa, originó la caída de un datacenter certificado TIER III por el Uptime Institute, prestigiosa institución que certifica cumplimiento de estándares de Datacenters a nivel mundial.

En primer lugar, debemos mencionar que existen cuatro niveles de certificaciones entregadas por el Uptime Institute, que van desde el TIER I al TIER IV, en donde este último es el con mayor autonomía, llegando a ser de 99,995% de disponibilidad. Hay que recordar que en Chile no existen Datacenter certificados en el máximo nivel, sin embrago si hay algunos pocos que llegan al nivel de TIER III, que significa una disponibilidad de 99,982% y redundancia N+1, lo que garantizaría la continuidad operacional aun cuando falle un componente.

La configuración N+1, significa que un datacenter está preparado para el caso en que falle la alimentación eléctrica, teniendo una segunda fuente de alimentación de emergencia que soportaría toda la carga que implica seguir operando normalmente, esta segunda fuente de alimentación es una mezcla de UPS y generadores, que darían una autonomía suficiente al centro de datos, para seguir operando hasta el retorno de la energía eléctrica.

Enel, el pasado lunes 26 marzo, informó de un corte de luz causado por un choque a un poste, el cual afectó al sector de Lampa, como se ve en el siguiente Tweet:


Cercano a Lampa se encuentra Liray, que también se habría visto afectado por el corte de luz y en dicha localidad se encuentra el Datacenter de Claro.

De tal manera que el centro de datos si estuvo afectado por un corte de energía eléctrica, lo que debió activar los sistemas de emergencia con los que contaría el Datacenter, no afectando la operación de sus clientes. Sin embargo, no funcionaron como se esperaba, en específico, el banco de baterías no habría operado, haciendo que las UPS no se activaran inmediatamente, quedando a la espera del funcionamiento de los generadores a petróleo, los cuales demoran algunos minutos en estar operativos. Por lo que, los servicios del centro de datos dejo de operar mientras los generadores eléctricos absorbían la carga de la operación.

Cabe señalar que el banco de batería estaba dimensionado para soportar toda la operación y que se encontraba dentro de los años de garantía que el fabricante indicaba que debiese funcionar. Sin embargo, las mejores prácticas indican que al pasar unos años de operación, se realicen pruebas al sistema con el objetivo de asegurar su funcionamiento, pruebas que al parecer no fueron realizadas.

Así lo confirmaron distintas fuentes, tanto al interior de la empresa de telecomunicaciones, como de las empresas afectadas. trendTIC solicitó información oficial a Claro Chile, sin embargo, hasta el momento de esta publicación no hemos recibido respuesta.

Por otro lado, un análisis adicional amerita el hecho de que empresas como Transbank y Banco Santander, no hayan puesto en marcha su Plan de Recuperación de Desastres (DRP, de su sigla en inglés) o que estos se ejecutaran de tal manera que el cliente no se viera afectado. Se sabe que dichas instituciones cuentan con detallados planes de recuperación, pero estos no funcionaron adecuadamente ante el incidente, lo que significó que incluso varias horas después, clientes del Banco Santander aún siguieran teniendo complicaciones en acceder a través de su web a la institución.

En definitiva, han sido una cadena de factores que influyeron en la caída de los servicios, en primer lugar, un accidente que originó el corte de energía eléctrica, segundo, un banco de baterías que no funcionó para que se activaran las UPS en un Datacenter ubicado en Liray y finalmente, unos DRP que no se ejecutaron de la manera en que debiesen funcionar.

En el año 2012 se cayó el Datacenter de Entel, cerca de 6 años después ocurre nuevamente a un datacenter de otra empresa de telecomunicaciones. Esperemos que esta vez, el mercado y en especial los proveedores de centros de datos, aprendan las enseñanzas necesarias para que no vuelva a ocurrir. Y por otro lado, que las empresas usuarias de Datacenter, entiendan que no basta con estar en un centro de datos certificado TIER III, tener un DRP bien establecido, ni los datos respaldados en otro datacenter, sino que también es necesario hacer las pruebas que aseguren, que la potencial caída de un centro de datos, no signifique la caída de sus servicios.

Share.
Exit mobile version