El tiempo medio entre fallas, o MTBF, es el tiempo promedio entre fallas reparables de un producto o sistema. Es una métrica clave para determinar la frecuencia de las fallas del sistema y proporcionar una descripción general de la confiabilidad del sistema.
El MTBF se puede usar para determinar el éxito de su equipo en la prevención o reducción de posibles incidentes. Cuanto mayor sea el tiempo entre fallas, más confiable será el sistema.
¿Qué mide MTBF? Confiabilidad frente a disponibilidad
El MTBF desempeña un papel en el seguimiento de la confiabilidad y disponibilidad de un componente o sistema.
La confiabilidad es la probabilidad de que un sistema o componente funcione según lo diseñado durante un período específico sin fallas. El MTBF es una medida básica de la confiabilidad de un sistema: cuanto mayor sea el MTBF, mayor será la confiabilidad del producto. El uso de MTBF con otras métricas de fallas y estrategias de mantenimiento facilita la predicción de fallas de activos, ya que los equipos pueden determinar mejor cómo y cuándo implementar medidas preventivas antes de que ocurra una falla.
La disponibilidad es la capacidad de un sistema o componente para operar según lo diseñado cuando sea necesario. El MTBF combinado con el tiempo medio de restauración (MTTR) puede determinar la probabilidad de que un sistema falle dentro de un determinado período de tiempo. La disponibilidad de un sistema se puede calcular dividiendo el MTBF por la suma de MTTR y MTBF.
Disponibilidad = MTBF / (MTBF + MTTR)
Cómo calcular el MTBF: Fórmula paso a paso
El MTBF se calcula dividiendo el tiempo operativo total para un período específico por la cantidad de fallas durante el mismo período. Así se calcula:
Para determinar el tiempo operativo total de un sistema, deberá monitorear el sistema durante un período específico.
- El tiempo operativo total es el tiempo total que el sistema ha estado funcionando sin fallas.
- La cantidad total de fallas es la cantidad de veces que el sistema ha fallado dentro del período especificado.
Por ejemplo, supongamos que durante un período de 24 horas, un sistema experimenta tres horas de tiempo de inactividad que ocurren durante tres incidentes separados.
- Tiempo de actividad total = (24 - 3) = 21 horas
- Cantidad total de incidentes = 3
- MTBF = tiempo de actividad total/cantidad de incidentes
- MTBF = 21/3 = 7 horas
Cómo calcular el MTBF a partir de la tasa de fallas
Como se describió anteriormente, el MTBF se puede calcular dividiendo el tiempo de actividad total por la cantidad de fallas registradas. Por otro lado, la tasa de fallas es la inversa del MTBF y se calcula dividiendo el número de fallas por el tiempo de actividad total.
El MTBF se puede calcular a partir de la tasa de fallas de la siguiente manera: MTBF = tasa de fallas de 1/
Por ejemplo:
- Tasa de fallas = 25 fallas/1000 horas de tiempo de actividad
- Tasa de falla = 0,025
- MTBF = 1/0,025
- MTBF = 40
¿Qué es un buen MTBF?
Debido a que el tiempo entre fallas para un sistema o componente puede depender de factores como configuraciones, condiciones operativas, antigüedad y otros factores externos, no existe una métrica de MTBF “buena”. En su lugar, el MTBF debe calcularse para sus activos específicos y será más preciso a medida que recopile más datos sobre ellos.
¿Qué significa un MTBF alto?
Por supuesto, si bien es posible que no haya un MTBF objetivo aceptado universalmente, aún es cierto que cuanto mayor sea el MTBF, mejor. Un MTBF alto muestra que su sistema o componente es altamente confiable y tendrá menos problemas a lo largo de su vida útil, y tener menos incidentes tiende a traducirse en un tiempo de inactividad reducido y costos más bajos.
¿Qué significa un MTBF bajo?
Un MTBF bajo significa que es probable que su sistema falle con más frecuencia y que es necesario revisar la confiabilidad de su sistema. Un buen plan de mantenimiento preventivo y la implementación de herramientas para monitorear el MTBF y otras métricas de fallas pueden ayudar a mejorar la confiabilidad del sistema.
Ejemplos de cálculo de MTBF
A continuación, consideremos algunos ejemplos de MTBF bajo, promedio y alto relacionados con un sistema de producción que funciona en el transcurso de 30 días.
MTBF bajo
Supongamos que el sistema se desconecta seis veces en un plazo de 30 días (720 horas) durante cuatro horas cada vez, para un tiempo total de interrupción de 24 horas.
- Tiempo de actividad total = (720 - 24) = 696 horas
- Cantidad total de incidentes = 6
- MTBF = tiempo de actividad total/cantidad de incidentes
- MTBF = 696/6 = 116 horas (aproximadamente 5 días)
Una interrupción cada cinco días indica un sistema extremadamente poco confiable que con frecuencia afectará las operaciones comerciales y los clientes.
MTBF promedio
Ahora, imagine que el sistema solo falla dos veces en los mismos 30 días (720 horas) durante dos horas cada vez, para un tiempo total de interrupción de cuatro horas.
- Tiempo de actividad total = (720 - 4) = 716 horas
- Cantidad total de incidentes = 2
- MTBF = tiempo de actividad total/cantidad de incidentes
- MTBF = 716/2 = 358 horas (aproximadamente 15 días)
Si bien esto puede no ser un MTBF extremadamente alto, una falla cada 15 días puede ser aceptable para algunos casos de uso comercial.
MTBF alto
Por último, considere un sistema que solo se desconecte una vez en un plazo de 30 días (720 horas) durante dos horas.
- Tiempo de actividad total = (720 - 2) = 718 horas
- Cantidad total de incidentes = 1
- MTBF = tiempo de actividad total/cantidad de incidentes
- MTBF = 718/1 = 718 horas (aproximadamente 30 días)
En comparación con los otros escenarios descritos aquí, una falla cada 30 días puede considerarse un MTBF alto, lo que indica que el sistema es altamente confiable.
Cómo calcular el MTBF: Tres escenarios
El MTBF es una métrica de confiabilidad útil en varias áreas de la tecnología. Consideremos algunos escenarios para la ciberseguridad, la respuesta a incidentes y DevOps.
Cálculo del MTBF en ciberseguridad
En la ciberseguridad, el MTBF puede indicar que un sistema se está acercando al final de su vida útil y que el riesgo de una interrupción crítica está aumentando.
Por ejemplo, imagine que se observa un sistema de ciberseguridad durante un período de 48 horas. Durante ese tiempo, el sistema falla cinco veces para un tiempo de inactividad total de ocho horas o un tiempo operativo total de 40 horas.
MTBF = 40/5 = 8 horas
El mes siguiente, el sistema se observa nuevamente durante 48 horas. Esta vez, hay ocho fallas para un tiempo de inactividad total de 12 horas o un tiempo operativo total de 36 horas. El MTBF del sistema ahora es de 4,5 horas.
MTBF = 36/8 = 4,5 horas
Si el MTBF continúa cayendo durante las observaciones posteriores, esto podría sugerir que es necesario reemplazar o endurecer un área del sistema, o todo el sistema en sí.
Cálculo del MTBF en la respuesta a incidentes
El MTBF también puede ayudar a determinar cuán eficaz es su equipo de respuesta a incidentes para minimizar y prevenir incidentes. Si el MTBF es demasiado bajo o tiene una tendencia descendente, el equipo debe analizar los datos de incidentes para descubrir interrupciones recurrentes y tendencias preocupantes.
Cálculo del MTBF en DevOps
El MTBF en DevOps es una medida de la frecuencia de fallas para una función o un solo componente, lo que permite a los equipos predecir los niveles de confiabilidad y disponibilidad de un servicio. De esta manera, puede destacar las debilidades en el diseño de un componente o en el proceso de prueba y mantenimiento.
Al monitorear el MTBF, los equipos de DevOps pueden descubrir y eliminar ineficiencias y cuellos de botella que podrían provocar fallas al mejorar los procesos y la infraestructura del sistema. A medida que los equipos realizan mejoras, el MTBF aumenta, lo que indica un sistema más confiable.
Por ejemplo, considere un ejemplo en el que el trabajo total de un proceso de integración de códigos durante cinco días fue de 100 horas. Durante la semana, se producen cuatro fallas.
- Tiempo total de operación = 100 horas
- Cantidad total de fallas = 4
- MTBF = tiempo total de operación/cantidad de fallas
- MTBF = 100/4 = 25 horas
¿Qué herramientas necesita para monitorear el MTBF?
Con las herramientas adecuadas, puede aumentar el MTBF y otras métricas de mantenimiento. Estas herramientas incluyen herramientas de monitoreo de infraestructura, monitoreo de servicios, herramientas de visualización, herramientas de monitoreo del rendimiento de aplicaciones, herramientas de agregación de datos y multiplataforma, y herramientas de administración de proyectos.
Sin embargo, todas estas herramientas requieren un almacenamiento rápido de alto rendimiento que pueda manejar cantidades masivas de datos mientras mantiene el máximo rendimiento. Con Pure Storage ® FlashBlade ®, puede crear una solución de almacenamiento robusta y de alto rendimiento para respaldar las herramientas avanzadas de monitoreo y observabilidad necesarias para ayudarlo a aumentar sus métricas de MTBF.
¿Cuál es la siguiente métrica después del MTBF?
El MTBF y el tiempo medio hasta la falla (MTTF) se utilizan para medir el tiempo para evaluar el rendimiento de un sistema o componente, aunque la forma en que se aplican es diferente.
Obtenga más información sobre MTTF .