GRAFANA LGTM STACK

로그·메트릭·알림을
한 플랫폼에서

모든 프로젝트와 플랫폼 서비스의 로그/메트릭을 Grafana에서 조회·시각화·알림. Loki로 로그 중앙화, Prometheus로 메트릭 수집.

대시보드 시작하기 Grafana 공식 문서
4
통합 컴포넌트
30일
로그 보존
15s
메트릭 간격
7060
로컬 포트

핵심 기능

관측성(Observability) 3요소 통합

📜

중앙 로그 저장

Laravel · Go 서비스 · Docker 컨테이너의 모든 로그를 Loki에 수집. LogQL로 통합 쿼리.

📈

메트릭 시계열

Prometheus로 /metrics 엔드포인트 주기 수집. 에러율, 응답 지연, 자원 사용량 추적.

🎨

대시보드

Overview · Edge Relay · 서비스별 커스텀 대시보드. JSON으로 git 관리.

🚨

알림 자동화

규칙 기반 Slack/Email 알림. critical/error/warning 심각도 분리 라우팅.

🔍

Explore

자유 LogQL/PromQL 쿼리. request_id로 여러 서비스 추적, error_code로 패턴 검색.

🤖

AI 연동

services-registry.json 기반 AI 정기 점검. 이상 징후 자동 감지 및 보고.

스택 구성

Grafana LGTM — OSS 기반 업계 표준

🎨

Grafana 11.4

대시보드 · Explore · Alert UI · 사용자 관리.

📜

Loki 3.3

로그 저장소. 레이블 기반 인덱싱으로 경량·고속.

📊

Prometheus 2.55

메트릭 시계열 DB. pull 방식 scrape, 15일 보존.

📥

Promtail 3.3

로그 수집 agent. journald · 파일 · Docker 동시 지원.

사용 방식

운영자 일상 루틴

1️⃣

Overview 확인

매일 아침 Dashboards → Overview → 전체 시스템 에러율 정상 범위인지.

2️⃣

Explore로 디버그

특정 request_id 추적: Explore → Loki → `{service=~".+"} | json | request_id="..."`

3️⃣

알림 대응

Slack 알림 수신 시 링크로 즉시 해당 대시보드 이동. 보고서 파일도 자동 생성.

보안 주의사항

공개 도메인 노출 시 필수 방어

🔒

Brute Force 보호

Grafana 내장 5회 실패 → 5분 잠금. NPM `/login` rate limit 추가 권장.

🛡️

Cloudflare WAF

/login 20req/min 초과 시 10분 차단. Cloudflare Rate Limiting 무료 설정 가능.

🔑

OAuth (향후)

Phase 3에서 apis.how OIDC 연동 → password 로그인 완전 비활성화 계획.