Le temps moyen de bon fonctionnement ou MTBF (Mean Time Between Failures en anglais) est le délai moyen entre deux défaillances réparables d’un produit ou d’un système. C’est un indicateur essentiel pour déterminer la fréquence des défaillances du système et donner une idée de sa fiabilité.
Le MTBF permet aussi de déterminer l’efficacité de l’équipe en termes de prévention ou de réduction des incidents potentiels. Plus le temps moyen de bon fonctionnement est élevé, plus le système est fiable.
Que mesure le MTBF ? Fiabilité ou disponibilité
Le MTBF participe à la fois au suivi de la fiabilité et de la disponibilité d’un composant ou d’un système.
La fiabilité est la probabilité qu’un système ou un composant fonctionne comme prévu, sans défaillance, pendant une certaine durée. Le MTBF est une mesure élémentaire de la fiabilité d’un système. Un MTBF élevé témoigne de la fiabilité du produit. En associant le MTBF à d’autres indicateurs de défaillance et à des stratégies de maintenance, on peut plus facilement prévoir les défaillances des actifs, puisque les équipes peuvent savoir quand et comment mettre en œuvre des mesures de prévention, sans attendre la défaillance.
La disponibilité est la capacité d’un système ou d’un composant de fonctionner comme prévu au moment où l’on en a besoin. Associé au temps moyen de réparation (MTTR), le MTBF permet de déterminer la probabilité qu’un système connaisse une défaillance dans un certain délai. Pour calculer la disponibilité d’un système, on peut diviser le MTBF par la somme du MTTR et du MTBF.
Disponibilité = MTBF / (MTBF + MTTR)
Comment calculer le MTBF : Formule pas à pas
Pour calculer le MTBF, on divise le temps de fonctionnement total sur une période donnée par le nombre de défaillances sur cette période. La méthode de calcul est la suivante :
Pour déterminer le temps de fonctionnement total d’un système, vous devez surveiller le système pendant une certaine durée.
- Le temps de fonctionnement total est la durée totale pendant laquelle le système a fonctionné sans connaître de défaillance.
- Le nombre total de défaillances est le nombre de fois où le système s’est arrêté pendant la période spécifiée.
Par exemple, considérons que sur une durée de 24 heures, un système soit arrêté pendant trois heures, réparties sur trois incidents différents.
- Disponibilité totale = (24 - 3) = 21 heures
- Nombre total d’incidents = 3
- MTBF = disponibilité totale / nombre d’incidents
- MTBF = 21/3 = 7 heures
Comment calculer le MTBF à partir du taux de défaillance
Comme nous venons de le voir, le MTBF peut être calculé en divisant la disponibilité totale par le nombre de défaillances enregistrées. De son côté, le taux de défaillance, qui est l’inverse du MTBF, se calcule en divisant le nombre de défaillances par la disponibilité totale.
Le MTBF peut être calculé à partir du taux de défaillance selon la formule suivante : MTBF = 1 / taux de défaillance
Quelques exemples :
- Taux de défaillance = 25 défaillances / 1 000 heures de disponibilité
- Taux de défaillance = 0,025
- MTBF = 1 / 0,025
- MTBF = 40
Qu’est-ce qu’un MTBF correct ?
Comme le temps de bon fonctionnement d’un système ou d’un composant peut dépendre de différents facteurs, notamment la configuration, les conditions de fonctionnement, l’âge et d’autres facteurs externes, il n’existe pas d’indicateur MTBF « idéal ». Le MTBF doit au contraire être spécifique à chacun vos actifs, et plus vous collecterez de données sur ces derniers, plus l’indicateur sera précis.
Quel est le sens d’un MTBF élevé ?
Bien entendu, même si le MTBF à cibler n’est pas le même pour tout le monde, un MTBF élevé est toujours préférable. Un MTBF élevé montre que votre système ou composant est hautement fiable et qu’il rencontrera moins de problèmes sur sa durée de vie. Et une réduction des incidents se traduit généralement par des arrêts moins fréquents et une baisse des coûts.
Quel est le sens d’un MTBF bas ?
Un MTBF bas signifie que votre système risque de connaître des défaillances plus fréquentes, et que sa fiabilité doit être reconsidérée. Un plan de maintenance préventive de qualité et la mise en œuvre d’outils de surveillance du MTBF et d’autres indicateurs de défaillance peuvent améliorer la fiabilité du système.
Exemples de calcul du MTBF
Examinons à présent quelques exemples de MTBF bas, moyen et élevé pour un système de production fonctionnant sur une période de 30 jours.
MTBF bas
Disons que le système s’arrête six fois en 30 jours (720 heures), pendant quatre heures à chaque fois, soit un temps d’interruption total de 24 heures.
- Disponibilité totale = (720 - 24) = 696 heures
- Nombre total d’incidents = 6
- MTBF = disponibilité totale / nombre d’incidents
- MTBF = 696 / 6 = 116 heures (près de 5 jours)
Une panne tous les cinq jours signifie un système extrêmement peu fiable qui aura un impact fréquent sur les opérations de l’entreprise et sur les clients.
MTBF moyen
Imaginons maintenant que le système ne s’arrête que deux fois sur la même période de 30 jours (720 heures), pendant deux heures à chaque fois, soit une interruption totale de quatre heures.
- Disponibilité totale = (720 - 4) = 716 heures
- Nombre total d’incidents = 2
- MTBF = disponibilité totale / nombre d’incidents
- MTBF = 716 / 2 = 358 heures (près de 15 jours)
Même s’il ne s’agit pas d’un MTBF extrêmement élevé, une défaillance tous les quinze jours peut, dans certains cas, être acceptable.
MTBF élevé
Enfin, imaginons un système qui ne s’arrête qu’une fois pendant deux heures sur une période de 30 jours (720 heures).
- Disponibilité totale = (720 - 2) = 718 heures
- Nombre total d’incidents = 1
- MTBF = disponibilité totale / nombre d’incidents
- MTBF = 718 / 1 = 718 heures (pratiquement 30 jours)
Par rapport aux scénarios précédents, on peut considérer qu’une défaillance tous les 30 jours correspond à un MTBF élevé, ce qui signifie que le système est hautement fiable.
Comment calculer le MTBF : Trois scénarios
Le MTBF est un indicateur de fiabilité utile dans différents domaines technologiques. Prenons des cas dans le domaine de la cybersécurité, la réponse aux incidents et les DevOps.
Calcul du MTBF pour la cybersécurité
Dans le domaine de la cybersécurité, le MTBF peut indiquer que le système est en fin de vie et que le risque d’une panne critique augmente.
Imaginons par exemple qu’un système de cybersécurité soit observé sur une période de 48 heures. Sur ce laps de temps, le système s’arrête 5 fois pour un total de huit heures, soit un temps de fonctionnement de 40 heures.
MTBF = 40 / 5 = 8 heures
Le mois suivant, on observe à nouveau le système pendant 48 heures. Cette fois, le système s’arrête 8 fois pour un total de 12 heures, soit un temps de fonctionnement de 36 heures. Le MTBF du système est maintenant de 4,5 heures.
MTBF = 36 / 8 = 4,5 heures
Si le MTBF continue de baisser lors des observations suivantes, cela peut signifier qu’une partie du système ou le système entier doit être remplacé ou renforcé.
Calcul du MTBF dans le domaine de la réponse aux incidents
Le MTBF permet également de déterminer le niveau d’efficacité de votre équipe de réponse aux incidents en matière de réduction et de prévention des incidents. Si le MTBF est trop bas ou qu’il a tendance à baisser, l’équipe doit analyser les données d’incident pour identifier les pannes récurrentes et les tendances inquiétantes.
Calcul du MTBF dans le domaine des DevOps
Dans le domaine des DevOps, le MTBF mesure la fréquence des défaillances d’une fonctionnalité ou d’un composant unique, ce qui permet aux équipes de prévoir les niveaux de fiabilité et de disponibilité d’un service. Il permet ainsi de mettre en lumière les faiblesses au niveau de la conception d’un composant ou du protocole de test et de maintenance.
En surveillant le MTBF, les équipes DevOps peuvent identifier les problèmes d’efficacité et les goulets d’étranglement susceptibles d’entraîner une défaillance, et les éliminer en améliorant les processus et l’infrastructure système. À mesure que des améliorations sont apportées, le MTBF augmente, ce qui signifie que le système est plus fiable.
Imaginons par exemple que la durée totale de travail consacré à un pipeline d’intégration de code soit de 100 heures sur 5 jours. Au cours de la semaine, quatre défaillances se produisent.
- Temps total de fonctionnement = 100 heures
- Nombre total de défaillances = 4
- MTBF = durée totale de fonctionnement / nombre de défaillances
- MTBF = 100 / 4 = 25 heures
Quels outils sont nécessaires pour surveiller le MTBF ?
Avec les bons outils, vous pouvez renforcer le MTBF et les autres indicateurs de maintenance. Ces outils sont, entre autres, les outils de surveillance de l’infrastructure, de surveillance des services, de visualisation, de surveillance des performances des applications, ou encore des outils multiplateforme, des outils d’agrégation des données et des outils de gestion de projet.
Mais tous ces outils nécessitent un stockage ultraperformant, capable de traiter d’énormes volumes de données tout en assurant une performance optimale. Avec Pure Storage® FlashBlade®, vous pouvez créer une solution de stockage haute performance solide pour les outils avancés de surveillance et d’observation qui vous sont nécessaires pour renforcer vos MTBF.
Quel indicateur utiliser après le MTBF ?
Le MTBF et le temps moyen de fonctionnement jusqu’à la panne (MTTF) sont deux indicateurs temporels qui permettent d’évaluer la performance d’un système ou d’un actif, mais ils sont appliqués différemment.
En savoir plus sur le MTTF.