什麼是復原時間（MTTR）？

平均還原時間（有時稱為平均復原時間），又稱為 MTTR，是指從故障部署、事件或服務中斷中復原的平均時間。它可測量從偵測事件或中斷到恢復完整系統功能的時間。

MTTR 是高階指標，可協助您測量復原過程的速度，並指出系統從故障中復原的速度。一般而言，MTTR 通常與意外事件相關，而非服務要求。

平均還原時間 vs. 解決時間：有何不同？

平均還原時間是指從產品或服務故障中恢復所需的平均時間，但不包括確保事件不再發生所需的額外時間。

另一方面，解決的平均時間是完全還原系統所需的平均時間，包括解決問題所需的時間，以及完成防止問題再次發生所需的任何額外工作。這可能包括故障偵測、診斷、恢復，以及未來為了強化系統，以對抗類似故障而採取的主動措施。

因此，平均解決時間可全面了解問題解決所需的範圍，超越實際停機時間，將團隊的責任延伸到只解決問題，以改善系統的長期效能。

如何計算平均還原時間

平均還原時間的計算方式是增加特定期間內的總停機時間，然後除以該期間內的總事件數。

MTTR = 解決期間/事件數量的所有時間總和

例如，想像您的系統在兩週內故障三次。如果第一個事件需要兩小時才能恢復，第二個事件需要四小時，而第三個事件總共需要六小時，共 12 小時，則該兩週期間的 MTTR 將為：

MTTR = 總停機時間 12 小時 / 3 起事件

MTTR = 4 小時

什麼是復原的好平均時間？

系統中斷和停機時間對客戶體驗有很大的影響，因此 MTTR 越短越好。更高的 MTTR 意味著組織及其客戶更有可能經歷重大且頻繁的停機時間，這可能導致投訴、取消和不續訂。

良好的 MTTR 與偵測和辨識問題的根本原因（偵測的平均時間，或 MTTD）的速度有直接關係。識別問題所需的時間越長，系統恢復到完整運作所需的時間就越長。

MTTD 較低是降低 MTTR 並改善其他可靠性指標的關鍵。如果您縮短了偵測問題所需的時間，也可以縮短問題解決的時間。觀察性和持續監控在提醒團隊問題並快速減少 MTTD 方面扮演重要角色。

除了監控之外，還有幾種其他方法可以降低 MTTR：

制定清楚記錄的事件管理計畫，讓團隊知道如何管理事件，從第一個警示到系統恢復完整運作為止。
使用自動化工具指派職責、建立文件、擷取分析和管理配置。
明確定義並指派團隊角色與責任，讓每個人都知道事件發生時該怎麼做。
對過去的事件進行事後調查，並記錄每個問題的具體細節、問題如何發生，以及未來如何預防。

如何計算平均解決時間

平均解決時間（MTTR）與平均還原時間不同，因為它包含了防止未來發生類似問題所花費的額外時間。

若要計算 MTTR，請新增還原系統所需的總時間，包括額外時間，以確保問題不再發生，並將此數字除以總事件數。想一想：

MTTR = 事件復原總時間 + 額外花費的時間，確保問題不會再次發生/事件數

想像一下，您的系統在 48 小時的時間內會停機兩次。第一個事件持續一個小時，第二個事件持續兩個小時。然後，團隊再多花三小時強化系統，防止問題再次發生，總共造成六小時。

MTTR =（1 + 2 + 3）小時 / 2 起事件

MTTR = 3 小時

什麼是解決的好平均時間？

由於減少 MTTD 可縮短平均還原時間，因此相同的動作也會影響完成解決的時間（平均解決時間）。

重點也可以改善團隊實施預防措施的速度。舉例來說，復原流程的平均時間後驗會特別有幫助，因為深入分析問題可以顯示有用的深度資訊，並應用於後續活動。

誰應該使用 MTTR？何時使用？

整體而言，MTTR 是評估數個技術領域中復原流程速度的良好指標。當您想要改善團隊維修資產的平均時間時，應使用 MTTR。

如何在網路安全中使用 MTTR

網路安全的 MTTR 是指團隊在發生網路安全漏洞後，需要花費多少時間才能恢復系統運作。如此一來，您的資安團隊就能以多快的速度將系統退回，並影響客戶恢復正常營運。

在網路安全團隊中，MTTR 時脈通常從團隊因網路攻擊而收到系統故障警示時開始。

恢復過程可能涉及幾個步驟，包括遏制（阻止威脅擴散）、實際消除威脅，以及對系統恢復正常所需的組件和資源進行消毒。所有步驟完成後，系統即視為完全還原。

如何在事件回應中使用 MTTR

MTTR 是事件回應的關鍵指標，因為它能深入了解影響的嚴重性，並協助組織評估停機時間事件是否迅速解決。

在事件回應中，MTTR 是問題回報與解決時間戳之間的平均時間。自動化工具不僅能警示團隊事件，還能協助他們更輕鬆地進行協作和溝通，進而改善 MTTR。

服務層級目標（SLO）和服務層級指標（SLI）也可用於衡量系統可靠性和可用性，以及客戶對產品或服務的大致滿意度。違反 SLO 時，還原服務的平均時間是偵測、減輕和解決問題的總時間，直到再次符合 SLO 規定為止。

如何在 DevOps 中使用 MTTR

在 DevOps 中，MTTR 可以代表生產故障後還原應用程式所需的平均時間。測量 MTTR 有助於團隊確保系統彈性和穩定性，以及判斷可改善回應流程的位置。

在 DevOps 中，測量 MTTR 通常涉及使用監控系統來記錄事件的開始，以及事件的解決時間（例如，在事件到達生產階段後復原變更或釋出的時間）。

MTTR 也可以評估 DevOps 團隊的效能。DevOps 團隊的 MTTR 越低越好。2021 年 DevOps 加速狀態報告為 DevOps 團隊找出四種效能類別：

精英：不到一小時
高：不到 24 小時
中：不到一週
低：超過或等於一週

更快的 MTTR 可降低故障率、加快交付速度，並提升使用者滿意度。隨著 DevOps 成熟度的成長，MTTR 應該會越來越低。

您需要哪些工具來監控 MTTR？

為了改善 MTTR，您需要能夠快速偵測系統故障。Prometheus 和 Grafana 等持續監控工具，以及 Datadog 、Splunk 和 Dynatrace 等熱門應用程式效能監控工具，可協助您收集 MTTR 指標。

這些系統使用大量的即時和歷史資料，幫助您更快速地診斷和分析問題。然而，為了支援複雜的查詢和即時處理，您需要全快閃儲存系統能提供的超高速效能。

Pure Storage 提供數個全快閃雲端資料儲存方案：，可提供龐大的傳輸量與一致的效能。FlashBlade® 是高效能的檔案暨物件式資料儲存平台，可提供應用程式與監控工具所需的速度與效能，以支援更快速的 MTTD 與 MTTR。

MTTR 之後的下一個指標是什麼？

雖然 MTTR 是您快速應對問題的能力的強大指標，但您還需要監控其他重要的可靠性指標。深入了解另一項關鍵計算：平均故障前時間（MTBF）。