Incident Triage
AI에게 장애 확인을 맡길 때 첫 문장
장애 알림을 받았을 때 제일 위험한 건 “현재도 진행 중인지” 확인하지 않고 원인부터 단정하는 것입니다.
이 알림이 실제로 현재도 진행 중인 장애인지 확인해줘. 배포 시각, 헬스체크, 에러 로그, 관련 API 응답을 나눠서 보고, 이미 종료된 과거 알림이면 그렇게 표시해줘.
확인 순서
- 최근 배포/설정 변경 여부
- 헬스체크와 핵심 API 응답
- 프론트 접근 가능 여부
- 서버 로그와 외부 의존성
- 사용자 영향 범위