平均故障間隔時間,或稱 MTBF,是產品或系統可修復故障間隔的平均時間。它是確定系統故障頻率和提供系統可靠性概觀的關鍵指標。
MTBF 可用來判斷您的團隊在預防或減少潛在事故方面的成功程度。故障間隔時間越長,系統就越可靠。
MTBF 能測量什麼? 可靠性與可用性
MTBF 在追蹤元件或系統的可靠性和可用性方面扮演重要角色。
可靠性是指系統或元件在特定期間運作時不會發生故障的可能性。MTBF 是系統可靠性的基本衡量標準,MTBF 越高,產品可靠性就越高。將 MTBF 與其他故障指標及維護策略結合使用,可更輕鬆地預測資產故障,因為團隊能更妥善地判斷故障發生前應如何及何時實施預防措施。
可用性是指系統或元件在需要時能夠依設計運作的能力。MTBF 結合平均還原時間(MTTR)可判斷系統在特定時間範圍內故障的可能性。系統可用性的計算方式是將 MTBF 除以 MTTR 和 MTBF 的總和。
可用性 = MTBF / (MTBF + MTTR)
如何計算 MTBF:逐步公式
MTBF 的計算方式是將特定期間的作業時間總數除以同一期間的故障次數。以下是計算方式:
若要判斷系統的總運作時間,您需要監控系統一段時間。
- 總運作時間是系統運行時未發生故障的總時間。
- 失敗總數是系統在指定期間內失敗的次數。
舉例來說,假設在 24 小時的時段內,系統經歷了三小時的停機時間,這三起事件都發生。
- 總運作時間 =(24 - 3)= 21 小時
- 事件總數 = 3
- MTBF = 總運作時間/事件數
- MTBF = 21/3 = 7 小時
如何從故障率計算 MTBF
如上所述,MTBF 的計算方式是將總運作時間除以記錄的故障次數。另一方面,故障率是 MTBF 的反面,其計算方法是將故障次數除以總運行時間。
MTBF 的計算方法如下:MTBF = 1/故障率
舉例而言:
- 失敗率 = 25 次失敗/1,000 小時正常運行時間
- 失敗率 = 0.025
- MTBF = 1 / 0.025
- MTBF = 40
什麼是良好的 MTBF?
由於系統或元件的故障間隔時間取決於配置、操作條件、時間等因素,因此沒有一個“好的” MTBF 指標。相反地,MTBF 應針對您的特定資產進行計算,並在您收集更多資料時更加準確。
高 MTBF 代表什麼意思?
當然,雖然可能沒有普遍接受的目標 MTBF,但 MTBF 越高就越好。高 MTBF 顯示您的系統或元件高度可靠,且生命週期內的問題將減少,而且事故減少往往會縮短停機時間並降低成本。
低 MTBF 代表什麼意思?
低 MTBF 意味著您的系統可能會更頻繁故障,需要審查系統的可靠性。良好的預防性維護計劃和工具的實施,以監控 MTBF 和其他故障指標,有助於提高系統可靠性。
MTBF 計算範例
接下來,我們來思考一些與 30 天生產系統運作相關的低、平均和高 MTBF 範例。
低 MTBF
假設系統在 30 天(720 小時)內每次停機六次,每次四小時,總中斷時間為 24 小時。
- 總運作時間 =(720 - 24)= 696 小時
- 事件總數 = 6
- MTBF = 總運作時間/事件數
- MTBF = 696 / 6 = 116 小時(約 5 天)
每五天發生一次中斷,表示系統極為不可靠,經常影響業務營運和客戶。
平均 MTBF
現在,想像一下系統在相同的 30 天(720 小時)內每次只會停機兩次,每次持續兩小時,總中斷時間為四小時。
- 總運作時間 =(720 - 4)= 716 小時
- 事件總數 = 2
- MTBF = 總運作時間/事件數
- MTBF = 716 / 2 = 358 小時(約 15 天)
雖然 MTBF 可能不是非常高,但對於某些業務使用案例,每 15 天就有一次故障是可以接受的。
高 MTBF
最後,請考慮在 30 天(720 小時)內僅停機一次,持續兩小時的系統。
- 總運作時間 =(720 - 2)= 718 小時
- 事件總數 = 1
- MTBF = 總運作時間/事件數
- MTBF = 718 / 1 = 718 小時(約 30 天)
與此處所述的其他情境相比,每 30 天就有一次故障可視為高 MTBF,這表示系統高度可靠。
如何計算 MTBF:三種情境
MTBF 是數個技術領域的實用可靠性指標。我們來思考一些網路安全、事件回應和 DevOps 的情境。
計算網路安全中的 MTBF
在網路安全方面,MTBF 可以顯示系統壽命即將結束,而且發生嚴重斷電的風險正在增加。
舉例來說,想像一下在 48 小時內觀察到網路安全系統。在此期間,系統故障五次,總停機時間為八小時,總操作時間則為 40 小時。
MTBF = 40 / 5 = 8 小時
下個月,系統又在 48 小時內被再次觀察。這次,總停機時間為 12 小時或總營運時間為 36 小時,共發生八次故障。系統的 MTBF 現在已達 4.5 小時。
MTBF = 36 / 8 = 4.5 小時
如果 MTBF 在後續觀察期間持續下降,這可能表示系統中的某個區域,或整個系統本身,需要更換或硬化。
在事件回應中計算 MTBF
MTBF 也有助於判斷您的事件回應團隊在最小化與預防事件方面的效率。如果 MTBF 太低或趨勢下滑,團隊應分析事件資料,以發現經常性斷電和相關趨勢。
計算 DevOps 中的 MTBF
DevOps 的 MTBF 是功能或單一元件故障頻率的指標,可讓團隊預測服務的可靠性和可用性。這樣一來,它就能突顯元件設計或測試與維護過程中的弱點。
透過監控 MTBF,DevOps 團隊可以發現並消除效率低落和瓶頸,透過改進流程和系統基礎架構,可能導致故障。隨著團隊進步,MTBF 增加,表示系統更可靠。
舉例來說,舉例來說,五天內程式碼整合管道的總工作時數為 100 小時。一週內發生四次故障。
- 總操作時間 = 100 小時
- 失敗總數 = 4
- MTBF = 總作業時間/故障次數
- MTBF = 100 / 4 = 25 小時
您需要哪些工具來監控 MTBF?
有了合適的工具,您就能提升 MTBF 和其他維護指標。這些工具包括基礎架構監控工具、服務監控、視覺化工具、應用程式效能監控工具、跨平台和資料彙總工具,以及專案管理工具。
然而,所有這些工具都需要快速的高效能儲存,才能處理大量資料,同時維持最高效能。借助 Pure Storage® FlashBlade®,您可以建立強大、高效能的儲存解決方案,以支援進階監控和可觀察性工具,協助您提升 MTBF 指標。
MTBF 之後的下一個指標是什麼?
MTBF 和平均故障時間(MTTF)皆用於測量時間,以評估系統或元件的效能,但使用方式不同。
深入了解 MTTF。