TestForge | 📊 Plogger ✍️ Blog 📚 Docs
TestForge Blog

AI DevOps Korea

AI 서비스 운영과 성능개선을 위한 실전 허브

aidevops.kr에서 LLMOps, RAG, AI Agent, 평가, 관측성, 비용-성능 튜닝을 운영팀 관점으로 정리합니다.

All Posts

I Incident

6 posts

러닝 게임

장애 대응 시뮬레이터

장애 키워드를 읽고 가장 먼저 떠올려야 하는 대응 포인트를 골라보세요.

진행도

1 / 6

점수

0

연속 정답

0

배지

개념 탐험가

숫자키 1-4로도 바로 답할 수 있어요.

주제어

database-incidents

1 posts

View Group

데이터 계층 장애

3 posts

View Group

스트리밍 장애

1 posts

View Group

Kafka Consumer Lag 장애 분석 - 적체가 커질 때 어디부터 봐야 할까

Kafka 운영 중 Consumer Lag이 급격히 증가하면 단순히 consumer 수를 늘리는 것으로 끝나지 않는 경우가 많습니다. 이 글에서는 lag 발생 패턴, broker 문제와 consumer 문제의 구분, 재처리 지연, partition 불균형, 외부 의존성 병목까지 실제 장애 분석 흐름으로 정리합니다.

TestForge Team

플랫폼 장애

1 posts

View Group