모든 프로젝트와 플랫폼 서비스의 로그/메트릭을 Grafana에서 조회·시각화·알림. Loki로 로그 중앙화, Prometheus로 메트릭 수집.
관측성(Observability) 3요소 통합
Laravel · Go 서비스 · Docker 컨테이너의 모든 로그를 Loki에 수집. LogQL로 통합 쿼리.
Prometheus로 /metrics 엔드포인트 주기 수집. 에러율, 응답 지연, 자원 사용량 추적.
Overview · Edge Relay · 서비스별 커스텀 대시보드. JSON으로 git 관리.
규칙 기반 Slack/Email 알림. critical/error/warning 심각도 분리 라우팅.
자유 LogQL/PromQL 쿼리. request_id로 여러 서비스 추적, error_code로 패턴 검색.
services-registry.json 기반 AI 정기 점검. 이상 징후 자동 감지 및 보고.
Grafana LGTM — OSS 기반 업계 표준
대시보드 · Explore · Alert UI · 사용자 관리.
로그 저장소. 레이블 기반 인덱싱으로 경량·고속.
메트릭 시계열 DB. pull 방식 scrape, 15일 보존.
로그 수집 agent. journald · 파일 · Docker 동시 지원.
운영자 일상 루틴
매일 아침 Dashboards → Overview → 전체 시스템 에러율 정상 범위인지.
특정 request_id 추적: Explore → Loki → `{service=~".+"} | json | request_id="..."`
Slack 알림 수신 시 링크로 즉시 해당 대시보드 이동. 보고서 파일도 자동 생성.
공개 도메인 노출 시 필수 방어
Grafana 내장 5회 실패 → 5분 잠금. NPM `/login` rate limit 추가 권장.
/login 20req/min 초과 시 10분 차단. Cloudflare Rate Limiting 무료 설정 가능.
Phase 3에서 apis.how OIDC 연동 → password 로그인 완전 비활성화 계획.