Continuidad de Negocio: Análisis de Impacto sobre el Negocio: tiempos (II)

El pasado miércoles vimos algunas reflexiones, más teóricas que prácticas, todo sea dicho, sobre la importancia no sólo de conocer los tiempos límite de recuperación de cada actividad, sino de saber, en la medida de lo posible, cómo éstas se comportan tras el momento crítico, lo que puede determinar el margen de error tolerable al determinar los tiempos (que no olvidemos que están determinados por el impacto máximo tolerable) y la irreversibilidad del incidente una vez superado el tiempo límite de recuperación (sin que ésta se produzca).

Para complicar un poco más el asunto, hoy veremos que el tiempo límite de recuperación puede estar formado por más de un elemento, e introduciremos las variables habituales al definir un BIA. En entradas siguientes pondremos algunos ejemplos y veremos otros aspectos interesantes en la definición del BIA.

Para empezar, debemos descartar la idea de que para determinar el tiempo requerido de recuperación de una actividad, que (repetimos) viene a ser el tiempo máximo que puede estar interrumpida una actividad, la actividad tenga que estar totalmente recuperada. Aunque por simplicidad y rapidez es habitual considerar tasas de actividad del 100% para determinar los tiempos, lo cierto es que no necesariamente es así: estos tiempos estarán ligados a los niveles de funcionamiento mínimos que previamente haya definido la organización, y éstos a su vez con el impacto que el no-funcionamiento parcial (o total, si la recuperación estimada es total) de dicha actividad tiene sobre la organización.

Por ejemplo, una organización puede establecer que en las horas posteriores a una crisis no es necesario poner en marcha el 100% de la producción, sino que con llegar a una tasa de actividad del 40% en menos de 8 horas puede ser suficiente para garantizar la viabilidad de la empresa durante unos días más mientras otros procesos se recuperan; por tanto, el impacto no asumible del proceso de producción está ligado a dos variables: una tasa de actividad del 40% y un tiempo de recuperación de 8 horas.

Por tanto, el tiempo de recuperación no tiene porqué necesariamente ser el tiempo que transcurre desde la interrupción de la actividad hasta la recuperación total, sino que debe tomarse como el tiempo que transcurre desde la interrupción hasta que la actividad se recupera en los niveles establecidos por la organización, que en ocasiones será menos exigente para la organización y los recursos en los que descansa la actividad. Claro que ojalá fuese tan sencillo, porque a menudo seremos incapaces de determinar umbrales parciales de funcionamiento, y acabará siendo un todo o nada; no obstante, ya veremos eso más adelante. Para aquellos aficionados a las siglas, este nivel mínimo de funcionamiento puede encontrarse en la bibliografía bajo diversas siglas, tales como LBC, Level of Business Continuity, ROL, Revised Objective Level; en la ISO 22301 aparece como MBCO, Minimum Business Continuity Objective, aunque no tengo del todo claro si la ISO lo entiende como un parámetro específico de cada actividad o es un valor global de la organización que determina la continuidad de ésta en base al estado de sus procesos de negocio claves (aunque esto último no tiene demasiado sentido si asumimos que la continuidad de la organización está determinada por la continuidad de todos sus procesos clave y no por la continuidad de un porcentaje dado de éstos).

Resumiendo, el tiempo requerido de recuperación de una actividad será el tiempo máximo que puede transcurrir para que el impacto del funcionamiento de la actividad por debajo de los umbrales “tolerables” no ponga en riesgo la continuidad de la organización.

Tampoco hay que perder de vista que la puesta en marcha de una actividad estará en general compuesta por una “fase TIC” (puesta en marcha de entornos, entrada de elementos de respaldo, recuperación de copias de backup, sustitución de equipos, etc.) y una “fase de negocio” (consolidación de datos, verificación de integridad, introducción de información recogida manualmente durante la interrupción, etc.). Es decir, que el tiempo máximo de parada de la actividad (MTPD o maximum tolerable period of disruption, encontrado en la bibliografía habitualmente también como MTD) estará compuesto por un tiempo de recuperación objetivo (RTO o recovery time objective), parámetro habitualmente de carácter técnico, más un periodo de normalización de las actividades en el que el personal responsable de la actividad comienza a funcionar. Si al determinar los tiempos únicamente tenemos en cuenta los requisitos de recuperación técnicos, es muy probable que excedamos los tiempos máximos marcados, y en algunos casos la desviación pueden ser muy significativa.

En este sentido la ISO 22301 parece menos exigente que la BS 25999-2 en los aspectos que debe contener el BIA. Entre otros, la BS requiere identificar no sólo el tiempo hasta alcanzar los niveles mínimos de servicio, sino también el tiempo máximo que puede transcurrir hasta que los niveles normales de funcionamiento se recuperan, además de requerir que se explicite ese umbral mínimo de funcionamiento de la actividad. La ISO 22301 parece conformarse con los niveles que garantizan la continuidad, dejando fuera de consideración el tiempo hasta los niveles normales de funcionamiento. Por desgracia, esto no simplifica tanto las cosas; volviendo al ejemplo anterior, podemos salvar el primer hito y ser capaces de llegar a una tasa de producción del 40% en menos de 8 horas, pero es posible que la organización no pueda tolerar una tasa de producción inferior 50% durante más de dos semanas. Además, podrían existir otros hitos posteriores que no podamos cumplir: por ejemplo un nivel de funcionamiento de la actividad al 80% durante más de un mes puede seguir teniendo un impacto grave sobre la continuidad de la organización.

Para cada actividad, por tanto, podremos tener no una única tupla <tiempo de recuperación, nivel de funcionamiento de la actividad> cuyo incumplimiento tenga un impacto grave sobre la continuidad de la organización, sino también un conjunto de tuplas que recorrerán el nivel de funcionamiento de la actividad desde la tasa de actividad mínima imprescindible (40% en nuestro caso) hasta el 100%, estableciendo para cada uno de ellos en cuánto tiempo como máximo debemos alcanzar dicho nivel de funcionamiento de la actividad. Esto puede conducir a una gráfica como la indicada a continuación, donde existen cuatro hitos de funcionamiento que deben cumplirse, establecidos en el 40%, 50%, 60%, 80% y 100%, en unos tiempos máximos de 8 horas, 1 semana, 2 semanas, 1 mes y 1 mes y medio, respectivamente (naturalmente, la evolución entre hitos no tiene porque seguir una línea recta, sino que puede tomar otras formas). Nótese que la variable impacto no aparece en la gráfico al mantenerse constante.

Afortunadamente, este no es el caso común, ya que incorpora un nivel de complejidad no desdeñable y si resulta de por sí complicado establecer un porcentaje mínimo para el caso inicial (post-crisis), determinar porcentajes ulteriores es algo sólo para organizaciones con sistemas de gestión de la continuidad muy maduros y con criterios de actividad que permitan fácilmente establecer dichos porcentajes.

Veamos un ejemplo adicional que resume los parámetros vistos hasta ahora. En la imagen inferior, la organización ha determinado que el nivel mínimo de servicio para la actividad “A” es del 50%. Es decir, mientras la actividad se mantenga por debajo de este valor, existe riesgo para la continuidad de la organización.

La imagen muestra que a las 4h comienza la degradación de la actividad “A” (véase 1), alcanzando su parada total a las 5h. A las 10h la actividad se ha recuperado un 10%, un 30% a las 12h y un 50% a las 14h, momento en el que se alcanza el nivel mínimo tolerable de funcionamiento de la actividad (véase 3). Como en este caso, si todo ha ido bien (y de no ser así la gráfica sería diferente), el tiempo transcurrido hasta entonces (véase 2) será menor que el MTPD; de lo contrario, si el análisis realizado es correcto, la organización se enfrenta a problemas de extrema gravedad que pueden poner en riesgo su continuidad. Los puntos 4 y 5 de la gráfica muestran el tiempo transcurrido hasta la vuelta a la situación normal y el momento en el que éste se produce (22h).

Nótese que, en el ejemplo mostrado, si el tiempo transcurrido hasta alcanzar el umbral mínimo de funcionamiento de la actividad (establecido en 50%) es mayor que el MTPD pero aun así “no pasa nada“, pueden haberse establecido tiempos demasiado restrictivos, lo que puede generar varios efectos indeseados. Por un lado, estamos trasladando una presión innecesaria a la organización y a los equipos de recuperación, que en aras de cumplir con los tiempos establecidos pueden reducir la calidad del servicio de otras actividades, o incluso detener actividades que no se consideren críticas, todo ello sin necesidad.

Por otro lado, pueden tomarse decisiones desencadenadas por una situación de crisis “menos grave de lo real”, que afecten a otras áreas o impliquen una pérdida de servicio o de datos adicional (conmutar con un centro de respaldo, recuperar de cinta, etc.). Por último, puede generarse un efecto “Pedro y el lobo”: si tras varios incidentes en los que sistemáticamente se superan los tiempos máximos no hay ninguna consecuencia, puede ocurrir que los equipos de recuperación se relajen y/o el plan de continuidad de negocio pierda su “autoridad”, lo que hará que no haya un referente temporal claro para la recuperación y que tarde o temprano la recuperación no cumpla los objetivos y entonces “sí pase algo”.

Por tanto, es de vital importancia que los tiempos y umbrales de actividad que contiene el BIA reflejen en la medida de lo posible la realidad, sin entrar en umbrales irracionales pero tampoco relajando demasiado la recuperación. Hay que tener en cuenta que determinar cuándo la parada de una actividad puede poner en riesgo grave la continuidad del negocio no es para nada una tarea fácil; no sería la primera vez que un responsable establece que la actividad X no puede estar detenida más de N horas y tras algunas averiguaciones sale a la luz que el mes pasado estuvo detenida N*2 horas por una caída del suministro eléctrico sin que hubiese ningún efecto.

Hasta aquí la teoría, que dentro de lo razonable resulta no excesivamente complicada. Ahora bien, entrados en faena, la cosa se complica y surgen diversas preguntas: ¿quién y cómo debe determinar los tiempos de recuperación? ¿Cómo (narices) se determina el umbral mínimo de recuperación de una actividad? ¿Cómo establecemos tiempos de recuperación razonables y realistas al mismo tiempo? ¿Qué relación deben tener los tiempos de recuperación con el Análisis de Riesgos?

En otro orden de cosas, ¿qué nivel de detalle debe contener cada actividad? ¿Cómo medimos los impactos de interrupción a través del tiempo y cómo se relacionan estos con el Análisis de Riesgos? ¿Qué debe considerarse como una dependencia?

Todo esto y algo más, en la siguiente entrada. Siéntanse libres de comentar, preguntar y rectificar.

[Sobre el autor]

Comments

Mamadeo says

26 de junio de 2012 at 10:14 pm

Cuando le vas preguntando a los responsables de las diferentes áreas funcionales de una compañía cual es la criticidad de las actividades que realizan rara es aquella que no se sobrevalora. Para cada responsable lo suyo suele ser lo más critico y urgente.

Así, es muy difícil, desde la función de continuidad de negocio poder hacer una priorización realista de recursos y actividades. Y para ello es necesario involucrar a un nivel que esté por encima de los intereses particulares de cada área funcional, p.e. Dirección General, para ponerlos ‘en contexto y homogeneizarlos’.

Después de 18 años preparando y ejecutando pruebas de recuperación de desastre tengo que reconocer que el escenario ha cambiado de manera drástica. Sobre todo con la llegada de la virtualización. Pero al final, puedes establecer unos RTO llamemosles teóricos que, después, en función del dinero que tengas / quieras gastarte, acabaran ajustandose.
Carlos Solis Salazar says

2 de julio de 2012 at 6:30 pm

tomaré de referencia esto artículos para explicar el BIA, gracias por ese aporte.
Manuel Benet says

3 de julio de 2012 at 11:09 am

Gracias por el comentario, Carlos. Me alegro de que las entradas te resulten interesantes.
Galileus says

24 de octubre de 2015 at 1:24 am

Por favor, ¿podrían indicarme el link para acceder a la tercera entrada de esta serie? “Todo esto y algo más, en la siguiente entrada.”????
Manuel says

24 de octubre de 2015 at 1:29 am

Buenas noches Galileus,

Desafortunadamente, la tercera entrada nunca se llegó a escribir, aunque la tengo pendiente.

Un blog de

Continuidad de Negocio: Análisis de Impacto sobre el Negocio: tiempos (II)

Comments

Páginas

Buscar

LAB52

Autores

Archivos

Blogs

Organismos

Meta