平均故障間隔、すなわち MTBF は、修理可能な製品またはシステムが次に故障するまでの間隔の平均時間です。これは、システム障害の頻度を決定し、システムの信頼性の概要を提供するための重要な指標です。
MTBF は、潜在的なインシデントの防止や削減においてチームがどの程度成功しているかを判断するために使用できます。障害が発生するまでの時間が長いほど、システムの信頼性が向上します。
MTBF は何を測定しますか? 信頼性と可用性
MTBF は、コンポーネントやシステムの信頼性と可用性の両方を追跡する役割を果たします。
信頼性とは、システムまたはコンポーネントが、特定の期間にわたって、障害なく設計どおりに動作する確率です。MTBF は、システムの信頼性の基本的な指標です。MTBF が高いほど、製品の信頼性も高くなります。MTBF を他の障害指標や保守戦略と組み合わせることで、障害が発生する前に予防策をいつどのように実装するかをより適切に判断できるため、資産の障害の予測が容易になります。
可用性とは、システムやコンポーネントが必要に応じて設計どおりに動作する能力です。MTBF とMTTR(平均リストア時間)を組み合わせることで、特定の期間内にシステムが故障する可能性が決まります。システムの可用性は、MTBF を MTTR と MTBF の合計で割ることで計算できます。
可用性 = MTBF /(MTBF + MTTR)
MTBF の計算方法:ステップバイステップ式
MTBF は、特定の期間の運用時間の合計を、同じ期間の障害数で割って計算されます。計算方法は次のとおりです。
システムの総運用時間を決定するには、特定の期間、システムを監視する必要があります。
- 総運用時間は、システムが障害なく実行された合計時間です。
- 障害の総数は、システムが指定された期間内に障害が発生した回数です。
例えば、24 時間の時間枠内で、3 つの個別のインシデントで発生するダウンタイムが 3 時間発生するとします。
- 総稼働時間 = (24 - 3) = 21時間
- インシデントの合計数 = 3 件
- MTBF = 総稼働時間/インシデント数
- MTBF = 21/3 = 7 時間
故障率から MTBF を計算する方法
上述のように、MTBF は、記録された障害の数で合計稼働時間を割くことによって計算することができます。一方、障害率はMTBFます。の逆数であり、障害数を合計稼働時間で割って計算されます。
MTBFは、故障率から次のように計算できます。MTBF = 1 / 故障率
例:
- 故障率 = 25 回の故障/1,000 時間の稼働時間
- 故障率 = 0.025
- MTBF = 1 / 0.025
- MTBF = 40
優れた MTBF とは
システムやコンポーネントの障害間隔は、構成、動作条件、経年変化、その他の外部要因によって異なるため、MTBF 指標は 1 つではありません。代わりに、MTBF は特定の資産に対して計算する必要があり、それらに関するデータを収集するにつれてより正確になります。
高 MTBF とは
もちろん、広く受け入れられているターゲット MTBF はないかもしれませんが、MTBF が高いほど良いことは事実です。MTBF が高いと、システムやコンポーネントの信頼性が高く、耐用年数にわたって問題が少なくなり、インシデントが少なくなると、ダウンタイムが短縮され、コストが低下する傾向があります。
低 MTBF とは
MTBF が低いと、システムが頻繁に故障し、システムの信頼性を確認する必要があります。優れた予防保守計画と、MTBF やその他の障害指標を監視するためのツールの導入は、システムの信頼性を向上させるのに役立ちます。
MTBFの計算例
次に、30 日間にわたって稼働する実稼働システムに関連する低、平均、高 MTBF の例をいくつか見てみましょう。
低 MTBF
例えば、システムが 30 日間(720 時間)で 4 時間、合計 24 時間で 6 回ダウンしたとします。
- 合計稼働時間 = (720 - 24) = 696 時間
- インシデントの合計数 = 6件
- MTBF = 総稼働時間/インシデント数
- MTBF = 696 / 6 = 116時間(約5日間)
5 日ごとに機能停止が発生することは、業務や顧客に影響を与えることがよくある、極めて信頼性の低いシステムであることを示しています。
平均 MTBF
システムを同じ 30 日間(720 時間)で 2 時間で 2 回だけ停止し、合計 4 時間の中断時間になるとします。
- 総稼働時間 = (720 - 4) = 716時間
- インシデントの合計数 = 2件
- MTBF = 総稼働時間/インシデント数
- MTBF = 716 / 2 = 358時間(約15日間)
これは、MTBF が非常に高くない場合もありますが、一部のビジネス・ユース・ケースでは、15 日に 1 回の障害が発生する可能性があります。
高 MTBF
最後に、30 日以内(720 時間)に 2 時間だけダウンするシステムを検討します。
- 総稼働時間 = (720 - 2) = 718時間
- インシデントの合計数 = 1件
- MTBF = 総稼働時間/インシデント数
- MTBF = 718 / 1 = 718時間(約30日)
ここに記載されている他のシナリオと比較して、30 日ごとに 1 回の障害は高い MTBF とみなされ、システムの信頼性が高いことを示しています。
MTBFの計算方法:3 つのシナリオ
MTBFは、技術のいくつかの分野で有用な信頼性指標です。サイバーセキュリティ、インシデント対応、DevOpsのシナリオをいくつか見てみましょう。
サイバーセキュリティにおける MTBF の計算
サイバーセキュリティでは、MTBFは、システムが寿命に近づいていること、および重大な停電のリスクが増大していることを示すことができます。
例えば、サイバーセキュリティ・システムが48時間にわたって監視されているとします。その間、システムは 5 回故障し、合計8時間のダウンタイムまたは合計 40 時間の運用時間が発生します。
MTBF = 40 / 5 = 8 時間
翌月、システムは再び48 時間にわたって監視されます。今回は、合計12時間のダウンタイムまたは合計36時間の運用時間で8回の障害が発生しています。システムの MTBF は現在 4.5 時間です。
MTBF = 36 / 8 = 4.5時間
MTBF がその後の観察中に低下し続ける場合は、システム内の領域、またはシステム全体自体を交換するか、または強化する必要があることが示唆されます。
インシデント対応における MTBF の計算
MTBF は、インシデント対応チームがインシデントの最小化と防止にどの程度効果的であるかを判断するのに役立ちます。MTBF が低すぎる、または低下傾向にある場合、チームはインシデントデータを分析して、繰り返し発生する停止や傾向を発見する必要があります。
DevOps における MTBF の計算
DevOps における MTBF は、機能または単一コンポーネントの障害の頻度を測定することで、サービスの信頼性と可用性のレベルを予測できます。これにより、コンポーネントの設計やテスト、保守プロセスの弱点が浮き彫りになります。
MTBF を監視することで、DevOps チームは、プロセスやシステム・インフラストラクチャを改善することで、障害につながる可能性のある非効率性やボトルネックを発見し、排除することができます。チームが改善を行うにつれ、MTBF が増加し、より信頼性の高いシステムが実現します。
たとえば、コード統合パイプラインの 5 日間にわたる作業の合計が 100 時間であったとします。1週間に 4 つの失敗が起こります。
- 総稼働時間 = 100 時間
- 故障総数 = 4
- MTBF = 総動作時間/障害数
- MTBF = 100 / 4 = 25時間
MTBF の監視に必要なツール
適切なツールを使用することで、MTBF やその他の保守指標を向上させることができます。これらのツールには、インフラ監視ツール、サービス監視、可視化ツール、アプリケーション性能監視ツール、クロスプラットフォームおよびデータ集約ツール、プロジェクト管理ツールが含まれます。
しかし、これらのツールには、大量のデータを処理できる高速な高性能ストレージが必要です。ピュア・ストレージ FlashBlade は、MTBF 指標の向上に必要な高度な監視およびオブザーバビリティ・ツールをサポートする、堅牢で高性能なストレージ・ソリューションを提供します。
MTBF 後の次の指標
MTBF と平均故障時間(MTTF)は、システムやコンポーネントの性能を評価するための時間を測定するために使用されますが、その適用方法は異なります。
MTTF について詳しく見る