퓨어 지식 (Pure Knowledge)
MTTR이란?

복구 시간(MTTR)이란?

평균 복구 시간(평균 복구 시간이라고도 함) 또는 MTTR은 실패한 구축, 인시던트 또는 서비스 중단에서 복구하는 평균 시간을 나타냅니다. 사고 또는 정전 감지부터 전체 시스템 기능이 복구될 때까지의 시간을 측정합니다.

MTTR은 복구 프로세스의 속도를 측정하고 시스템이 장애로부터 얼마나 빨리 복구할 수 있는지를 나타내는 고급 메트릭입니다. 일반적으로 MTTR은 서비스 요청이 아닌 계획되지 않은 인시던트와 관련이 있습니다.

평균 복구 시간 대 해결 시간: 차이점은 무엇일까요?

평균 복구 시간은 제품 또는 서비스 장애로부터 복구하는 데 걸리는 평균 시간을 의미하지만, 사고가 다시 발생하지 않도록 하는 데 걸리는 추가 시간은 포함하지 않습니다.

반면, 평균 해결 시간은 문제를 해결하고 문제가 재발하는 것을 방지하기 위해 필요한 추가 작업을 완료하는 시간을 포함하여 시스템을 완전히 복구하는 데 필요한 평균 시간입니다. 여기에는 장애 감지, 진단, 복구 및 향후 유사한 장애에 대비하여 시스템을 강화하기 위해 취하는 선제적 조치가 포함될 수 있습니다.

그 결과, 평균 해결 시간은 실제 다운타임을 넘어 문제를 해결하는 데 필요한 전체 범위에 대한 통찰력을 제공하여, 단순히 문제를 해결하는 것 이상으로 팀의 책임을 확장하여 시스템의 장기적인 성능을 개선합니다.

평균 복구 시간을 계산하는 방법

평균 복구 시간은 특정 기간 동안의 총 다운타임을 더하고 해당 기간 내의 총 인시던트 수로 나누어 계산합니다.

MTTR = 기간/사고 해결에 걸리는 모든 시간의 합

예를 들어, 시스템이 2주 이내에 3회 다운된다고 가정해 보십시오. 첫 번째 인시던트를 복구하는 데 2시간, 두 번째 인시던트를 복구하는 데 4시간, 세 번째 인시던트를 복구하는 데 6시간, 총 12시간이 소요된 경우, 해당 2주 기간의 MTTR은 다음과 같습니다.

MTTR = 총 다운타임 12시간/사고 3건

MTTR = 4시간

복구할 수 있는 좋은 시간은 무엇일까요?

시스템 중단과 다운타임은 고객 경험에 큰 영향을 미치므로, MTTR을 최대한 짧게 하는 것이 중요합니다. MTTR이 높을수록 조직과 고객은 상당한 다운타임을 겪을 가능성이 높아져 불만, 취소 및 비갱신으로 이어질 수 있습니다.

좋은 MTTR은 문제의 근본 원인(평균 탐지 시간 또는 MTTD)을 얼마나 빨리 탐지하고 식별할 수 있는지와 직접적인 관련이 있습니다. 문제를 식별하는 데 시간이 오래 걸릴수록 시스템을 완전 작동 상태로 복원하는 데 시간이 오래 걸립니다.

낮은 MTTD는 MTTR을 줄이고 다른 안정성 지표를 개선하는 데 핵심적인 요소입니다. 문제를 감지하는 데 필요한 시간을 줄이면 해결될 때까지 시간을 줄일 수도 있습니다. 관찰 가능성과 지속적 모니터링은 팀에 문제를 알리고 MTTD를 빠르게 줄이는 데 중요한 역할을 합니다.

모니터링 외에도 MTTR을 줄일 수 있는 몇 가지 방법이 있습니다.

첫 번째 경고부터 시스템이 완전히 운영을 재개하는 시점까지 팀이 사고를 관리하는 방법을 알 수 있도록 명확하게 문서화된 사고 관리 계획을 수립합니다.
자동화된 툴을 사용하여 책임을 할당하고, 문서를 생성하고, 분석을 캡처하고, 구성을 관리할 수 있습니다.
모든 사람이 사고 발생 시 무엇을 해야 하는지 알 수 있도록 팀의 역할과 책임을 명확하게 정의하고 할당합니다.
과거 사고에 대한 사후관리를 수행하여 각 문제의 세부 사항, 발생 방법 및 향후 이를 방지하는 방법을 조사하고 문서화합니다.

평균 해결 시간 계산 방법

평균 해결 시간(MTTR)은 향후 유사한 문제가 발생하는 것을 방지하는 데 소요되는 추가 시간을 포함하기 때문에 평균 복구 시간과 다릅니다.

MTTR을 계산하려면, 문제가 다시 발생하지 않도록 보장하는 추가 시간을 포함하여 시스템을 복구하는 데 걸리는 총 시간을 더하고, 이 수를 총 인시던트 수로 나눕니다. 다음과 같이 생각해보세요.

MTTR = 총 인시던트 복구 시간 + 문제가 재발하지 않도록 보장하는 데 소요되는 추가 시간 / 인시던트 수

시스템이 48시간 내에 두 번 다운된다고 상상해 보십시오. 첫 번째 사고는 1시간, 두 번째 사고는 2시간 동안 지속됩니다. 그런 다음, 팀은 문제가 재발하는 것을 방지하기 위해 추가로 3시간의 하드닝 시스템을 사용하여 총 6시간을 보냅니다.

MTTR = (1 + 2 + 3)시간 / 2건

MTTR = 3시간

해결해야 할 좋은 시기는?

MTTD를 줄이면 평균 복구 시간이 단축되기 때문에, 동일한 작업이 해결 완료 시간(평균 해결 시간)에도 영향을 미칩니다.

또한 팀이 예방 조치를 얼마나 빨리 구현할 수 있는지 개선하는 데 집중할 수 있습니다. 예를 들어, 평균 복원 시간 동안의 사후 분석은 특히 도움이 될 것입니다. 문제에 대한 심층 분석을 통해 후속 활동에 적용할 수 있는 유용한 인사이트를 얻을 수 있기 때문입니다.

MTTR은 누가 언제 사용해야 할까요?

전반적으로 MTTR은 여러 기술 영역에서 복구 프로세스의 속도를 평가하는 데 좋은 지표입니다. MTTR은 팀이 자산을 복구하는 데 걸리는 평균 시간을 단축하고 싶을 때 사용해야 합니다.

사이버 보안에서 MTTR을 사용하는 방법

사이버 보안의 MTTR은 사이버 보안 침해 후 팀이 시스템을 백업하고 실행하는 데 걸리는 시간을 의미합니다. 이를 통해 보안팀이 시스템을 얼마나 빠르게 복구하고 고객에게 영향을 미치는 정상 운영을 제공할 수 있는지 알 수 있습니다.

사이버 보안 팀의 경우, MTTR 클럭은 일반적으로 사이버 공격으로 인한 시스템 장애에 대해 팀이 알림을 받을 때 시작됩니다.

복구 프로세스에는 봉쇄(위협 확산을 막기 위한), 위협의 실제 제거, 시스템을 정상으로 복구하는 데 필요한 구성 요소 및 리소스의 삭제 등 여러 단계가 포함될 수 있습니다. 모든 단계가 완료되면 시스템이 완전히 복구된 것으로 간주됩니다.

침해 사고 대응에서 MTTR을 사용하는 방법

MTTR은 침해 사고 대응의 핵심 지표입니다. 침해 사고의 심각성에 대한 통찰력을 제공하고, 조직이 다운타임 사고가 충분히 신속하게 해결되었는지 여부를 평가할 수 있도록 하기 때문입니다.

사고 대응에서 MTTR은 문제에 대해 보고된 타임 스탬프와 해결된 타임 스탬프 사이에 경과한 평균 시간입니다. 자동화된 툴은 팀에게 사고를 경고할 뿐만 아니라 협업 및 커뮤니케이션을 보다 쉽게 지원하여 MTTR을 개선합니다.

서비스 수준 목표(SLO) 및 서비스 수준 표시기(SLI)는 시스템 안정성 및 가용성을 측정하고 제품 또는 서비스에 대한 고객 만족도를 높이는 데에도 사용할 수 있습니다. SLO를 위반한 경우, 서비스를 복구하는 평균 시간은 SLO를 다시 준수할 때까지 문제를 감지, 완화 및 해결하는 총 시간입니다.

DevOps스에서 MTTR을 사용하는 방법

DevOps스에서 MTTR은 프로덕션 장애 후 애플리케이션을 복구하는 데 필요한 평균 시간을 나타낼 수 있습니다. MTTR을 측정하면 대응 프로세스를 개선할 수 있는 부분을 결정하는 것 외에도 시스템 복원성과 안정성을 보장할 수 있습니다.

DevOps에서 MTTR 측정에는 종종 모니터링 시스템을 사용하여 인시던트의 시작 및 해결 시기(예: 프로덕션에 도달한 후 변경 또는 릴리스를 롤백하는 시간)를 기록하는 것이 포함됩니다.

MTTR은 DevOps스 팀의 성과를 평가할 수도 있습니다. DevOps스 팀의 MTTR이 낮을수록 좋습니다. 2021 DevOps스의 가속화 현황 보고서는 DevOps스 팀의 네 가지 성능 카테고리를 보여줍니다.

엘리트: 1시간 미만
높음: 24시간 미만
미디엄: 1주 미만
낮음: 1주 이상

MTTR이 빨라지면 고장률이 낮아지고, 납품이 빨라지며, 사용자 만족도가 향상됩니다. DevOps스 성숙도가 증가함에 따라 MTTR은 점점 낮아져야 합니다.

MTTR을 모니터링하려면 어떤 도구가 필요할까요?

MTTR을 개선하려면 시스템 장애를 신속하게 감지할 수 있어야 합니다. Prometheus 및 Grafana와 같은 지속적인 모니터링 툴과 Datadog, Splunk 및 Dynatrace와 같은 인기 있는 애플리케이션 성능 모니터링 툴은 MTTR 메트릭을 수집하는 데 도움이 됩니다.

이러한 시스템은 대량의 실시간 및 이력 데이터를 사용하여 문제를 보다 신속하게 진단하고 분석할 수 있도록 지원합니다. 그러나 복잡한 쿼리와 실시간 처리를 지원하려면 올플래시 스토리지가 제공할 수 있는 초고속 성능 속도가 필요합니다.

퓨어스토리지는 방대한 처리량과 일관된 성능을 제공하는 여러 올플래시 데이터 스토리지 솔루션 제공합니다. 플래시블레이드(FlashBlade) ®는 더 빠른 MTTD 및 MTTR을 지원하는 애플리케이션 및 모니터링 툴에 필요한 속도와 성능을 제공하는 고성능 파일 및 오브젝트 스토리지 플랫폼입니다.