인벤토리 메트릭 수치 갈등 정리
목차
최근에 life/name.hedvion.com 서비스 인벤토리를 문서화하면서 흥미로운 문제를 마주했다. 여러 모니터링 시스템과 운영 문서에 기록된 메트릭 수치들이 서로 다르게 나타나고 있었던 것. 라이브 인스턴스 카운트, uptime 커버율, 조회수 통계 등 세 가지 주요 지표에서 불일치가 발생하고 있었고, 이를 정리하는 것이 이번 커밋의 목표였다.
메트릭의 혼재: 어디를 믿을 것인가
서비스가 커질수록 메트릭 데이터는 여러 곳에서 흘러나온다. 모니터링 대시보드, 로그 시스템, 클라우드 인프라 콘솔, 개발팀이 관리하는 문서. 각각은 다른 시점에 측정되고, 다른 정의를 따르며, 다른 업데이트 주기를 가진다.
- 라이브 인스턴스 29개: 실제 배포되어 운영 중인 인스턴스인데, 옛 문서에는 다르게 기록되어 있었을 가능성
- Uptime 커버율 33: 어떤 기간(지난 7일? 30일? SLA 기준?)을 측정하느냐에 따라 수치가 크게 달라짐
- 조회수 35: API 호출 수인지, 사용자 세션 수인지, 페이지 조회 이벤트 수인지에 따라 결과가 전혀 다름
이 상황에서 팀원이 인벤토리 문서를 펼쳤을 때, 어떤 숫자를 믿어야 할까? 운영 의사결정, 리소스 할당, SLA 보고 등 중요한 순간마다 이 의문이 생긴다. 누군가는 "지난주 대시보드에서 본 숫자가 더 정확하지 않나?" 하고, 다른 누군가는 "아니다, 클라우드 콘솔이 정확하다"고 주장한다. 이런 식으로 반복되면 팀의 신뢰도가 깎이고, 매번 중요한 결정 전에 "그게 맞는 숫자 맞나?" 하고 재확인하느라 속도가 떨어진다.
작업: 인벤토리 문서에 명확한 정의 추가
docs/hedvion-CLAUDE.md에 인벤토리 섹션을 추가하고, 세 가지 메트릭의 현재 상태를 정확하게 문서화했다:
| 메트릭 | 수치 | 정의 및 측정 기준 |
|---|---|---|
| 라이브 인스턴스 | 29 | 프로덕션에 배포되어 활성 상태인 인스턴스 (헬스체크 통과 기준) |
| Uptime 커버율 | 33 | SLA 기간 내 측정된 가용률 (지난 30일 기준) |
| 조회수 | 35 | API 엔드포인트 호출 누적 카운트 (특정 기간) |
숫자 자체보다 중요한 것은, 이 문서가 "우리가 현재 합의한 ground truth"라는 신호를 보낸다는 점이다. 마치 코드리뷰에서 "이 함수의 역할이 정확한가?" 하고 검증하는 것처럼, 메트릭도 "이게 정의된 상태인가?"를 확인하는 프로세스가 필요하다.
팀 운영 관점에서의 의미
이 작업이 단순한 문서 정리로 보일 수 있지만, 팀 리딩 관점에서는 여러 의미를 가지고 있다.
첫째, 측정의 정의 확립이다. "라이브 인스턴스"라는 말도 팀마다, 사람마다 다르게 해석된다. 실행 중인 프로세스인가? 네트워크에 연결된 인스턴스인가? 헬스체크를 통과한 것만 세는가? 이런 세부 정의를 문서에 명시하지 않으면, 각자 다른 기준으로 이해하고 커뮤니케이션이 꼬인다.
둘째, 팀 신뢰도의 문제다. 팀원이 문서를 펼쳤는데 숫자가 실제와 다르다는 것을 한 번 경험하면, 다음부터는 모든 정보를 의심하게 된다. 특히 인벤토리나 카운트 같은 "객관적"이어야 할 정보가 부정확하면, "그럼 이 분석도 믿을 수 없나?" 하는 연쇄 의구심으로 이어진다. 속도가 떨어지는 것은 물론이고, 중요한 의사결정마다 재확인 단계가 늘어난다.
셋째, 확장성을 위한 체계 수립이다. 지금은 세 가지 지표지만, 팀이 성장하면 열 가지, 스무 가지로 늘어날 수 있다. 초기에 정의와 검증 체계를 명확히 해놓으면, 나중에 갈등 없이 새로운 지표를 추가할 수 있다. 반대로 초기에 체계가 없으면, 나중에 "지금 이 숫자가 뭘 의미하는 거지?" 하는 혼란이 누적된다.
근본적인 질문들
이번 정리로 현재 상태는 문서화했지만, 더 근본적인 질문들이 남아 있다:
- 이런 불일치가 자꾸만 발생하는 근본 원인이 뭔가? (측정 프로세스가 여러 곳에 산재되어 있는 건 아닌가?)
- 앞으로는 어떻게 일관성을 유지할 것인가? (수동 점검? 자동 동기화? 주기적 감시?)
- 누가 이 메트릭의 owner이고, 누가 최신 상태를 책임질 것인가?
지금은 일회성 수정이었지만, 이를 팀의 정기적인 운영 프로세스에 녹여내는 것이 다음 과제다. 인벤토리 정확성을 유지하는 것 자체가 관찰성(observability)의 첫 번째 단계이고, 팀이 신뢰할 수 있는 "single source of truth"를 갖는 것은 모든 운영 의사결정의 기초니까.
🛒 이 글과 어울리는 추천 상품
*위 링크는 쿠팡파트너스 활동의 일환이며, 일정액의 수수료를 제공받을 수 있습니다.
댓글 0
첫 댓글 달아줘.